La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

L’INFERENZA STATISTICA

Presentazioni simili


Presentazione sul tema: "L’INFERENZA STATISTICA"— Transcript della presentazione:

1 L’INFERENZA STATISTICA
CAPITOLO 10 L’INFERENZA STATISTICA 1

2 Definizione del termine inferenza
Inferire significa risalire dal particolare al generale, e cioè estendere il risultato delle considerazioni statistiche da una piccola parte alla generalità dei casi, all’universo. Nell’inferenza statistica ricorrono alcune espressioni che necessitano di un chiarimento: statistiche campionarie: valori caratteristici del campione, misure statistiche ad esso riferite e su di esso calcolate. Si indicano, generalmente con la lettera S e singolarmente con le lettere latine minuscole parametri della popolazione: valori caratteristici della popolazione, misure statistiche ad essa riferite, non note si indicano generalmente con la lettera greca Θ e singolarmente con le lettere greche minuscole. 2

3 Statistiche, parametri ed obiettivi dell’inferenza
Obiettivo dell’inferenza statistica è quello di valutare attraverso le distribuzioni delle statistiche campionarie (S) il valore dei parametri incogniti (Θ) della popolazione. In base alle caratteristiche dei campioni si stimeranno, utilizzando le distribuzioni delle statistiche campionarie (valori potenzialmente noti) ed opportune metodologie, i parametri incogniti della popolazione.

4 I metodi dell’inferenza statistica
Per fare inferenza statistica, abbiamo a disposizione due diversi metodi: la stima dei parametri (alla quale dedicheremo questo capitolo)  verrà studiata la funzione stimatore e la teoria della stima statistica. la verifica delle ipotesi (alla quale dedicheremo il capitolo successivo). 4

5 Sia data una popolazione composta da 5 elementi – 20 21 22 23 24 determiniamone
La media e la varianza 20,00 22,00 -2,00 4,00 21,00 -1,00 1,00 0,00 23,00 24,00 2,00 110,00 10,00 Da cui

6 Dalla popolazione analizzata si possono estrarre , detti N la dimensione della
Popolazione e n la dimensione del campione Per cui da una popolazione d 5 elementi si possono estrarre 25 campioni di dimensione 2 I 25 campioni offriranno la possibilità di calcolare 25 medie e 25 varianze Operando in tal modo avremo esaurito l’universo campionario di dimensione 2. E’ evidente che il ragionamento è reiterabile per qualunque N ed n

7 Ma estrarre da una popolazione un campione di una certa dimensione configura
Un esperimento aleatorio. Esiste una popolazione assimilabile ad un ‘urna che contiene tutti i casi possibili, dalla quale bisogna estrarre n elementi che costituiranno il campione Quindi per avere un campione di una certa dimensione bisogna estrarre dall’urna n elementi. Ma quali saranno questi elementi ? E’ evidente che prima dell’estrazione essi non si conoscono. Si sa solo che può essere uno qualsiasi degli N elementi che costituiscono la popolazione

8 Si ipotizzi una popolazione costituita da N elementi fissato un campione di n = 2
costruiamo in seguente schema. Se desidero estrarre da N un campione di dimensione 2 , nella fase che precede l’operazione materiale dell’estrazione si deve considerare che a far parte del Campione potrebbe entrare a far parte qualunque elemento della popolazione Ciò configura un esperimento aleatorio che, comunque comporta il seguente ragionamento Devo osservare due elementi dalla popolazione 2 elementi che nella fase della pre osservazione sono incogniti e non individuabili

9 Alla luce di quanto prima si può formalizzare
X1 X2 20 21 22 23 24 Una volta estratti gli elementi avranno valori certi sui quali sarà possibile calcolare le statistiche campionarie

10 Funzione stimatore e teoria della stima
Statistica campionaria S Parametri Funzione stimatore (tra S e stimatore del parametro incognito della popolazione è una funzione delle osservazioni campionarie le quali sono variabili casuali indipendenti, identicamente distribuite, con stessa distribuzione della popolazione, e quindi con stessa media e stessa varianza. Lo stimatore è, quindi, una variabile casuale del tipo La stima è funzione delle determinazioni campionarie 10

11 Tali distribuzioni possono essere create ricorrendo al:
Attraverso la funzione stimatore è possibile configurare l’intero universo campionario di una prefissata dimensione n, nonché l’insieme di tutte le statistiche campionarie potenzialmente calcolabili. La successione delle n statistiche campionarie calcolate, organizzata in distribuzione di frequenza, origina la distribuzione campionaria della statistica S. Tali distribuzioni possono essere create ricorrendo al: Campionamento di tipo Bernoulliano (con ripetizione). Campionamento senza ripetizione (anche detto in blocco). 11

12 Alcune precisazioni Se si fa riferimento alla media campionaria, l’insieme di tutte le medie calcolate su tutti i possibili campioni, di dimensione n appartenenti ad un certo universo campionario origina la distribuzione campionaria della media. Il concetto, con i dovuti accorgimenti di cui si dirà in seguito, è ripetibile per tutte le misure statistiche calcolabili sui campioni. Essa comprende tutti i possibili valori della statistica nell’universo campionario prescelto. E’ una distribuzione particolare da non confondere con la distribuzione di un carattere che si studia nella popolazione. 12

13 campioni medie scarti 20 22 4,00 21 20,5 2,25 1,00 23 21,5 0,25 24 0,00 22,5 23,5 550,00 25,00 D.C. Media Var. D.C. Media 20,00 1 22,00 4,00 20,50 2 41,00 2,25 4,50 21,00 3 63,00 1,00 3,00 21,50 4 86,00 0,25 5 110,00 0,00 22,50 90,00 23,00 69,00 23,50 47,00 24,00 25 550,00 25,00 Media 22 var

14 20 21 20,5 22 23 21,5 24 22,5 23,5 D.C. varianza 0,00 5,00 0,25 8,00 2,00 1,00 6,00 2,25 4,00 9,00 25,00 E(S²)=1 0,00 0,50 2,00 4,50 8,00 D.C. varianza corretta 0,00 5 0,50 8 4,00 2,00 6 12,00 4,50 4 18,00 8,00 2 16,00 25 50,00 (

15 Proprietà degli stimatori
Centratura Efficienza Consistenza Sufficienza Centratura U no stimatore si dice centrato (non distorto, non tendenzioso) quando: . La proprietà è verificata per - la media: ( ) m = x E la medi ana : Me la moda: Mo non vale per la varianza : non vero 2 s

16 A parità di centratura si sceglie lo stimatore con varianza minore
Efficienza Dati due o più stimatori, tutti centrati sulla media, preferiamo quello che presenti la minore varianza Le ascisse dei punti di flesso si trovano ad uno scarto quadratico medio (s.q.m. o σ) dalla media µ A parità di centratura si sceglie lo stimatore con varianza minore 16

17 Consistenza Uno stimatore si dice consistente se
= valore dello stimatore – dipende da n = valore incognito della popolazione – che vogliamo stimare n = dimensione campionaria = prefissato piccolo Esprime una legge di convergenza in probabilità, non in valore (facciamo inferenza, non lavoriamo, quindi, con fatti certi).

18 Sufficienza Data una variabile casuale, cui si associa una famiglia di distribuzioni di probabilità parametrizzate tramite il vettore θ, e una statistica T(.), T(x) è sufficiente per θ se la distribuzione di probabilità della X data T(X) non dipende da θ. L’idea di fondo è che uno stimatore possa dirsi sufficiente quando racchiude ed esaurisce tutte le informazioni riguardanti il parametro incognito e contenute nel campione casuale. Sia X=(X1, X2,…,Xn) un campione casuale generato dalla v.c. X che segue una distribuzione del tipo f(x; θ) dove θ appartiene ad Ω(θ) è il parametro oggetto di stima. Diremo che Tn è uno stimatore sufficiente per θ

19 Campionamento Bernoulliano (con ripetizione)
σ² μ Parametri della Popolazione Dimensione della popolazione Distribuzione campionaria Universo campionario di dimensione n Nn 19

20 Esempio Prendiamo in considerazione la distribuzione dei voti medi calcolati su 25 campioni di dimensione 2. Universo campionario di dimensione 2 Nn=52=25 N=5 σ² = 2 μ= 22 dimensione della popolazione Popolazione 20,21,22,24,25 20

21 Campionamento senza ripetizione o in blocco
σ² μ Parametri della popolazione dimensione della popolazione universo campionario di dimensione n N * (N -1) Distribuzione campionaria 21

22 Campionamento senza ripetizione o in blocco
dimensione della popolazione μ= 22 σ² = 2 Popolazione 20, 21, 22, 25, 24 universo campionario di dimensione 2 N * (N -1) =20 22

23 Alcune precisazioni

24

25 Teorema del Limite Centrale
Con questo nome viene indicato un gruppo di teoremi che risultano indispensabili per la teoria delle distribuzioni, necessaria allo sviluppo della statistica inferenziale. Questi teoremi costituiscono in pratica un modo per “quantificare la legge dei grandi numeri”.

26 Fondamentali della teoria del limite centrale
Per prove ripetute indipendenti, dove il risultato di ciascuna prova può essere classificato come successo o insuccesso, si può affermare che: al crescere del numero delle prove, la frequenza relativa dei successi converge alla probabilità di successo di una prova  teorema di Bernulli Per prove ripetute indipendenti in cui il risultato di ciascuna prova è il valore x di una variabile aleatoria X (ad esempio una misura di lunghezza, peso, durata) si può asserire che: per un numero sufficientemente grande di prove indipendenti, la media aritmetica dei valori osservati di una variabile aleatoria converge in probabilità alla sua speranza matematica  teorema di Cebicev

27 Alcune precisazioni Tutte le formulazioni della legge dei grandi numeri stabiliscono che i risultati delle singole prove influiscono poco sul risultato medio di un numero elevato di prove: le deviazioni dalla media, inevitabili in una singola prova, si livellano reciprocamente quando il numero delle prove è elevato. quando il numero di prove, E, è elevato, il risultato medio diventa stabile e, quindi, può essere previsto La possibilità di effettuare tali previsioni sono rese maggiori dal teorema del limite centrale che stabilisce quale distribuzione segue la somma di un numero sufficientemente grande di variabili aleatorie. Tale teorema, detto “centrale” proprio per la sua importanza, permette di definire delle ipotesi e di stimare la loro probabilità di verificarsi.

28 In precedenza si è presa in esame la distribuzione campionaria della media aritmetica ipotizzando che la popolazione seguiva una distribuzione normale. Tuttavia, non é realistico ritenere che la popolazione oggetto di studio segua sempre una distribuzione normale. In molti casi, o non si ha nessuna conoscenza reale della forma della popolazione oppure si sa che la popolazione non segue una distribuzione normale. Che aspetto avrà la distribuzione campionaria della media aritmetica delle popolazioni che non sono normali? Questa domanda ci porta a prendere in considerazione il più importante teorema della statistica, il teorema del limite centrale.

29 La Figura , illustra la distribuzione campionaria della media aritmetica per campioni selezionata da una popolazione normale. Sappiamo che se la popolazione segue una distribuzione normale, la distribuzione campionaria della media aritmetica si distribuirà normalmente quale che sia la dimensione del campione. Dall'esame delle distribuzioni campionarie mostrate nella Figura si ricava una prova empirica di questa affermazione. Per ciascuna dimensione di campione presa in esame, la distribuzione campionaria della media aritmetica segue una distribuzione approssimativamente normale.

30 La Figura , mostra la distribuzione campionaria della media aritmetica per una popolazione 'che segue una distribuzione• uniforme continua (rettangolare). Da quanto mostrato nella parte (a), per campioni di dimensione n = 1, ciascun valore della popolazione è ugualmente probabile. Tuttavia, quando vengono selezionati campioni anche di soli due valori, vi è già insito un effetto di "limite centrale". Quindi, in tal caso si possono osservare più valori "prossimi" alla media aritmetica della popolazione, che valori calcolati agli. estremi. Inoltre, al crescere della dimensione del campione, la distribuzione campionaria della media aritmetica tende ad avvicinarsi velocemente alla distri­buzione normale. Per campioni di almeno otto osservazioni, la media aritmetica campionaria segue approssimativamente una distribuzione normale.

31 Infine, la terza figura, serve come esempio di distribuzione campionaria della media aritmetica, ottenuta da una popolazione estremamente obliqua destra, denominata distribuitone esponenziale Si osserva dalla Figura che al crescere della dimensione del campione, la distribuzione campionaria tende a diventare meno obliqua. Per campioni di dimensione 16, la distribuzione della media aritmetica tende ad essere leggermente obliqua, mentre per campioni di dimensione 32, la distribuitone della media aritmetica tende a seguire una distribuzione normale.

32 A questo punto si possono utilizzare i risultati ottenuti dalle distribuzioni statistiche a noi note (normale, uniforme, esponenziale e si vedrà poi –al verificarsi di certe condizioni- binomiale e Poisson) Conclusioni 1)- Quale che sia la forma, per la massima parte delle distribuzioni della popolazione, la distribuzione campionaria della media aritmetica tenderà a seguire una distribuzione approssimativamente normale se vengono selezionati campioni di almeno 30 osservazioni. 2)- Se la distribuzione della popolazione tenderà ad essere discretamente simmetrica, la distribuzione campionaria della media aritmetica sarà approssimativamente normale se vengono selezionati campioni di almeno 15 osservazioni. 3)-Se la popolazione si distribuisce normalmente, la distribuzione campionari della media aritmetica tenderà a seguire una distribuzione normale quale ( sia la dimensione del campione. Il teorema del limite centrale riveste ,pertanto, un ruolo molto importante quando si utilizza l'inferenza statistica per trarre delle conclusioni intorno una popolazione. Consente al ricercatore di fare dell'inferenza intorno media aritmetica della popolazione, senza dover essere a conoscenza della forma specifica della distribuzione della popolazione.

33 Formalizzazione del Teorema del Limite Centrale
Sia Sn una variabile aleatoria somma di n variabili aleatorie indipendenti Xi aventi ciascuna la stessa distribuzione di probabilità, speranza matematica μ e varianza, al crescere di n, essa tende ad assumere una distribuzione normale con media nμ e: è la corrispondente variabile normale standardizzata

34 La distribuzione T di Student è: - definita positiva
- dipende da n (numerosità campionaria ) per cui esistono infinite curve tutte simmetriche ed asintotiche, più piatte della Normale (sono affette da curtosi – sono platicurtiche o iponormali) - per n che tende ad infinito la distribuzione T tende alla normale In questo caso la statistica di riferimento sarà La differenza con la statistica z  denominatore Denominatore z = l’errore standard della media calcolato attraverso l’utilizzo dello s.q.m. della popolazione con varianza della popolazione è nota. Denominatore t = errore standard della media calcolato utilizzando la stima dello scostamento quadratico medio della popolazione con varianza della popolazione incognita. Lo s.q.m. della popolazione è stimato utilizzando la statistica campionaria scostamento quadratico medio campionario corretto.

35 Trasferendo la stima corretta nell’espressione
Il teorema del limite centrale risulta valido per n sufficientemente grande, qualunque sia la distribuzione della variabile. E’ possibile generalizzarlo al caso di variabili aleatorie con distribuzione di probabilità qualsiasi, alla sola condizione che ciascuna di esse abbia media e varianza finite e non risulti predominante rispetto alle altre. Se le variabili hanno distribuzione normale con media e varianza σ allora la variabile media campionaria ha sempre distribuzione normale, qualunque sia il valore di n . Se σ² non é nota, è però comunque stimabile attraverso i dati campionari. Con campionamento con ripetizione avremo: Trasferendo la stima corretta nell’espressione Da cui

36 con campionamento senza ripetizione tenendo presente il fattore di correzione per la varianza stimata su dati campionari per campioni estratti senza ripetizione e considerando la varianza nota avremo Quando la varianza non è nota l’espressione diventa In cui

37 la statistica di un campione
Metodi di stima Si stima mediante la statistica di un campione Puntuale Stima Intervallo entro il quale cade Θ Intervallo di confidenza 37

38 Metodi di stima La stima puntuale non ci dà la possibilità di conoscere la probabilità di errore. Essa presenta un errore dovuto al fatto che si rileva un solo campione e non tutta la popolazione. Tale errore, inoltre, non è valutabile. Stima per intervallo: talvolta, si preferisce determinare un intervallo (a-b) in base alle osservazioni campionarie. Tale intervallo appartiene allo spazio del parametro della popolazione, entro cui esso cade con una certa prefissata probabilità. Nell’intervallo di confidenza con un prefissato rischio di errore α, cade il parametro incognito della popolazione: (a b) = limiti di confidenza (a – b)= intervallo di confidenza = d. L’errore è l’area esterna ad a e b

39 Pr(Θ≤ a)= α/2 Pr(Θ≥b)= α/2
Il parametro incognito può essere esterno all’intervallo (a-b) sia per eccesso che per difetto  la probabilità di errore va ripartita sulle due code della distribuzione dello stimatore  α/2 può essere la probabilità che il parametro incognito sia minore di a oppure maggiore di b: Pr(Θ≤ a)= α/2 Pr(Θ≥b)= α/2 (1- α): livello di confidenza  probabilità che il parametro da stimare sia interno all’intervallo (a-b). L’incertezza è dovuta al fatto che si lavori sul campione invece che sulla popolazione Pr(1-α)=Pr(a<Θ<b)  c.d. intervallo centrato: deve essere alta ma non pari ad 1 altrimenti non si fa inferenza perché si lavorerebbe con eventi certi e non probabili. A parità di α, più è piccolo l’intervallo (a-b) più è precisa la stima.

40 Intervalli di confidenza
(a-b): c.d. “intervallo di confidenza”, intervallo nel quale, cioè, si è confidenti possa cadere il parametro della popolazione

41 Si può costruire un intervallo di confidenza per qualsiasi parametro
Volendo stimare µ (la media della popolazione, e cioè il parametro incognito da stimare), ricaviamo l’intervallo che contiene µ con Pr=1-α La distribuzione campionaria della media, ricorrendo le condizioni dettate dal teorema del limite centrale, segue una legge Normale e come tale standardizzabile, quindi la statistica di riferimento sarà: avendo fissato il rischio di errore α si tratterà di considerare tutti i valori compresi tra:

42 Moltiplicando per tutti i membri della disuguaglianza
e aggiungendo a destra e a sinistra la media campionaria

43 Concretamente Fissando α = 0.05 e ricordando che la stima può essere errata sia per difetto che per eccesso, bisogna individuare quei valori di zα/2 che delimitano l’intervallo di confidenza. Essendo l’area sottesa alla curva che descrive l’andamento dello stimatore, media campionaria, uguale ad 1, l’area interna all’intervallo di confidenza (1–α) sarà uguale a = Tenuto conto che la probabilità di errore che delimita l’intervallo di confidenza. : 0.95/2= 0.475 Ipotizzando di utilizzare una distribuzione Normale alla Probabilità (area) pari a si associa il valore ±1,96.

44 Graficamente Area pari ad 1-α α α/2 z z z

45

46 Distribuzione campionaria della media
La distribuzione campionaria della media è standardizzabile attraverso l’applicazione della seguente formula nel caso si verifichi che: la dimensione campionaria sia sufficientemente grande n > 30; sia nota la varianza della popolazione; il campionamento sia avvenuto con ripetizione, la costruzione dell’intervallo di confidenza è di immediata e facile soluzione. Se permangono le condizioni 1 e 2 ed il campionamento avviene senza ripetizione o in blocco, nella costruzione dell’intervallo di confidenza bisogna tenere conto di tale circostanza.

47 Nel calcolo dell’errore standard (denominatore) si dovrà considerare il fatto che il campionamento sia stato effettuato senza ripetizione o in blocco. Pertanto, pur rimanendo inalternata la formula della standardizzata la distribuzione avrà i seguenti valori: In presenza di piccoli campioni e/o di mancata conoscenza della varianza della popolazione, la distribuzione campionaria della media segue una legge T di Student con n–1 gradi di libertà. I valori caratteristici sono:

48 Si ricordi che s è lo scostamento quadratico medio campionario non corretto è:
che per essere uno stimatore centrato di σ deve essere corretto Se il campionamento avviene senza ripetizione o in blocco i valori caratteristici della distribuzione campionaria della media sono: dopo alcune semplificazioni si avrà:

49 Esempio Un campione di 50 famiglie dichiara la spesa media mensile per divertimenti. La media campionaria è Si sa che la varianza, calcolata in indagini passate è di € 128. Assumendo una distribuzione normale della popolazione si determini un intervallo di confidenza al 90% per la spesa media di tutte le famiglie. Sia α = 0,10 da cui α/2 = 0,05 z0,05 = 1,645. Con la normalità della popolazione ,la Distribuzione campionaria della media Ha i seguenti parametri:

50 Svolgimento

51 I gradi di libertà I concetto di “gradi di libertà” è una nozione che occupa un posto particolare preminenza nei problemi di inferenza statistica ed è, quindi, opportuno cercare di afferrarne il significato. Dati Scarti 70,5 0,39586 0,2916 0,007 0,2951 0,057 0,309 -0,143 0,3167 -0,33 0,3152 -0,053 0,3001 0, 0,2917 0,316 -0,043 7,3227 0,00 Media Somma scarti Assumiamo, per esempio che l’analisi di un materiale ha portato i seguenti risultati relativi alla % in peso del componente M I valori che compaiono nella prima colonna della tabella sono stati ottenuti analizzando porzioni di materiali rilevate secondo regole ben precise. Si tratta di valori estratti dalla popolazione con un campionamento casuale e che sono indipendenti tra di loro. Questo significa che non è possibile, conoscendo il primo valore, predire il secondo, o il terzo e così via. In generale, la conoscenza di un certo numero di dati non ci consente di avanzare alcuna ipotesi su quelli che seguono.

52 Alcune precisazioni Il discorso è diverso se consideriamo gli scarti dalla media: la loro somma è zero (prima proprietà della media aritmetica). Non disponiamo, tra gli scarti, di dieci valori indipendenti fra di loro, ma solo di nove; di conseguenza, nove sono i gradi di libertà della serie di scarti. Come mai, passando dai singoli dati agli scarti dalla media si perde un grado di libertà? In pratica è come, se tra i dieci dati a nostra disposizione, uno corrispondesse al valore vero del contenuto percentuale di M e gli altri nove riflettessero l’effetto di fattori aleatori di variazione sulle misure.

53 E’ opportuno sottolineare che il numero dei gradi di libertà viene usato, in questo caso specifico, per stimare la varianza della popolazione. Perciò nei problemi di stima, quando si parla di “numero dei gradi di libertà della serie di misure” si deve correttamente intendere “il numero dei gradi di libertà della serie di misure disponibili per la stima del parametro”. Abbiamo, infatti, visto che i gradi di libertà sono 10 se consideriamo le osservazioni e 9 se ci riferiamo agli scarti dalla media. L’esigenza di contare unicamente i valori indipendenti fra di loro si presenta in molti problemi di inferenza statistica. E’ vero, infatti, che la quantità di informazioni cresce al crescere del numero delle osservazioni, ma è altrettanto vero che se un osservazione non è indipendente dalle altre, l’informazione che essa fornisce è già contenuta nelle altre; è, quindi, logico non contarla tra gli elementi a disposizione per effettuare i calcoli.

54 In sintesi il numero dei gradi di libertà di un parametro statistico corrisponde al numero dei valori, indipendenti tra loro, usati per calcolare il parametro in questione; non sempre il numero dei gradi di libertà di una serie di osservazioni è dato dal numero delle osservazioni diminuito di uno; a seconda del parametro che si deve stimare, il numero dei gradi di libertà può essere n-1 ; n – 2 ; n – 3 e così via.

55 Per potere fare inferenza sui parametri si deve avere a disposizione:
le osservazioni che costituiscono il campione, gli altri parametri. Se questi ultimi non sono noti (come ad esempio, la varianza della popolazione) si ricorre alle loro stime, che si ricavano dai dati campionari. Possiamo allora dire che, per un dato parametro, il numero dei gradi di libertà (g.l. oppure d.f. dall’inglese) è dato dal numero delle osservazioni (n=dimensione campionaria) diminuito del numeri (k) delle stime dei parametri della popolazione che contribuiscono al calcolo del parametro considerato. In generale, g.l. = n – k. Infatti nel caso della varianza da stimare si ricorre la stima della media della popolazione e quindi k=1.

56 Determinazione della numerosità campionaria

57 Distribuzione campionaria delle frequenze relative
Si consideri una popolazione con distribuzione binomiale e si dividano i suoi elementi in funzione del fatto che posseggano e non posseggano una determinata caratteristica (modalità). Si individui con il termine successo il possesso o la presenza della modalità indicata e con insuccesso l’assenza allora avremo: presenza della modalità (successo), probabilità: p assenza della modalità (insuccesso), probabilità: q= 1-p In un campione di n elementi (prove) avremo media = np e s.q.m. =

58 Distribuzione campionaria delle frequenze relative
Si consideri la distribuzione campionaria delle frequenze dei successi (distribuzione campionaria delle frequenze). In un campione di n elementi f rappresenta la frequenza dei successi: in generale f è la variabile aleatoria campionaria. Allora, in base al teorema del limite centrale per popolazioni normali o per campioni con numerosità superiore a 30 e tendenti all’infinito, la distribuzione campionaria delle frequenze tende ad una legge normale per Distribuzione campionaria delle frequenze relative

59 Le differenze tra le due posizioni (A e B) sono:
Al numeratore di B compaiono le frequenze relative. Compare p al posto del numero medio di successi np. I valori caratteristici della distribuzione B saranno: Sarà possibile determinare

60

61 Esempio n = 300 – proporzione campionaria=0,23 – margine d’errore=0,05
1-0,02=0,98  0,98:2=0,49. Dalle tavole  ad un’area pari a 0,49 è associato un valore di z pari a 2,33. Avendo p (= proporzione campionaria) = 0,23  q=(1- 0,23)=0,77. L’intervallo di confidenza formale sarà: Nel nostro caso, avremo, quindi:

62 Esercizi Di seguito, vengono riportati una serie di links che rinviano a fogli di lavoro Excel, nei quali sono stati sviluppati esercizi sul tema trattato in questa lezione. Ogni esercizio reca un foglio di commento ed uno di svolgimento. Si noti, inoltre, che ogni esercizio è impostato con formule predefinite. Si consiglia, quindi, dopo un attento studio della materia, di cimentarsi nella soluzione di altre tracce e, successivamente, di inserire i propri dati all’interno del foglio di lavoro per verificare la correttezza dei risultati ottenuti. Esercizio 1 Esercizio 2 Esercizio 3 Esercizio 4

63 Con varianza (σ²) incognita
dimensione della popolazione N=5 μ= 22 σ² = 2 n=2 dimensione del campione universo campionario di dimensione 2 Nn=52=25 σ Fr σ*Fr 5 0,5 8 4 2 6 12 4,5 18 16 25 50 63

64 Esempio camp x s2 20-21 20,5 0,25 0,4 20-22 21 1 1,6 20-23 21,5 2,25 3,6 20-24 22 4 6,4 21-20 21-22 21-23 21-24 22,5 22-20 22-21 22-23 22-24 23 23-20 23-21 23-22 23-24 23,5 24-20 24-21 24-22 24-23 25 40 Distribuzione dei voti medi calcolati su 20 campioni di dimensione 2. Fr σ2*Fr 0,4 8 3,2 1,6 6 9,6 3,6 4 14,4 6,4 2 12,8 40 64


Scaricare ppt "L’INFERENZA STATISTICA"

Presentazioni simili


Annunci Google