La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Lezioni successive Strumenti statistici per le ricerche.

Presentazioni simili


Presentazione sul tema: "1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Lezioni successive Strumenti statistici per le ricerche."— Transcript della presentazione:

1 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Lezioni successive Strumenti statistici per le ricerche di mercato e la customer satisfaction

2 Lintervallo di confidenza: il caso della binomiale zQuando ci troviamo di fronte a una variabile qualitativa e lunica informazione quantitativa è la proporzione di una categoria, possiamo utilizzare la stessa strategia dellintervallo di confidenza: per fare questo dobbiamo introdurre una variabile di lavoro, che chiamiamo binomiale (o dummy), i cui valori sono solo 1 presenza e 0 assenza della categoria in questione. 2

3 …. zLa binomiale può essere trattata come una variabile quantitativa, per cui ne possiamo calcolare la media e lo s.q.m. (usiamo le formule ponderate): zµ π = 1*π + 0*(1-π) = π zσ π = ((1-π) 2 *π + (0- π) 2 *(1-π)) z= (π-2π 2 +π 3 +π 2 - π 3 ) z= (π-π 2 ) z= (π*(1-π)) 3

4 Esempio zAd esempio, se consideriamo una votazione per un candidato sindaco, le categorie di riferimento sono i nomi dei vari candidati: Paolino Paperino, Gastone Paperone e Paperon de Paperoni. Possiamo puntare lattenzione sul candidato Paolino Paperino e costruire per lui una variabile binomiale che assume il valore 1 per tutti gli elettori che votano per questo candidato e 0 altrimenti: se la proporzione di votanti pe P.P. è 0.5 (ovvero il 50%), la media della variabile binomiale sarà 0.5 e lo s.q.m. sarà anche esso

5 …. zLa binomiale non ci interessa direttamente, ma è utile perché tramite le sue caratteristiche possiamo applicare anche a una variabile qualitativa le strategie di inferenza statistica. zSe, infatti riprendiamo lintervallo di confidenza per la deduzione (a), lo possiamo riscrivere in questo modo: z zProporzione dei casi (π -1,96 (π(1-π))/n p π +1,96 (π(1-π))/n) = 95% 5

6 …. zOvvero nel 95% dei campioni di dimensione n la proporzione campionaria p di coloro che votano Paolino Paperino sarà un valore compreso fra la proporzione nella popolazione π più o meno un certo valore pari a 1,96 π(1-π)/n. 6

7 La distribuzione campionaria della proporzione zNellesempio citato, nel caso di n=100, lintervallo di riferimento sarà tra il valore.50-1,96*.5/10, ossia circa.40, e.50+1,96*.5/10, ossia circa.60, il che vuol dire che nel 95% dei casi in uno dei tantissimi campioni di 100 elettori la percentuale di votanti per Paolino Paperino sarà compresa fra il 40% e il 60%. 7

8 Linduzione zQuello che ci interessa di più è, ovviamente, lintervallo nel caso dellinduzione (b): z Proporzione casi (p -1,96(π(1-π))/n π p +1,96 (π(1-π))/n) = 95% (b) zNellesempio citato, se in un campione di 100 elettori 56 hanno espresso il loro gradimento per Paolino Paperino, possiamo inferire che, nel 95% dei casi (ossia con la fiducia che levento avvenga nel 95% dei campioni estratti), la vera percentuale di votanti per il nostro candidato è compresa fra il 46% e il 66% circa. 8

9 …. zNel caso di una competizione come quella per il sindaco vince chi raggiunge il 50,0% più 1 voto, quindi il nostro intervallo (b) non ci dà alcuna informazione utile. Se il campione fosse di 1600 elettori, invece, lintervallo sarebbe: z Proporzione casi (0,56-1,96(0,5(1-0,5))/1600 π 0,56+1,96(0,5(1-0,5))/1600) z= 95% (b) zOssia la vera percentuale di votanti per P.P. sarebbe compresa fra il 53,5% e il 58,5%, circa quindi P:P vincerebbe le elezioni. 9

10 …. zAvete visto che, in questo secondo intervallo, lo scarto quadratico medio nella popolazione ((π(1-π)) incognito è stato stimato usando per π il valore 0.5. zSi tratta di una scelta conservativa, ossia di una scelta che tiene conto della peggiore situazione possibile che ci può capitare[1]; avremmo anche potuto stimare π con il valore campionario p (in questo caso 0.56), oppure utilizzare altre informazioni note a priori per effettuare questa stima.[1] z [1] Il valore 0,5 (ottenuto da (0.5*0.5)) è, infatti, il massimo della funzione (π(1-π)). [1]

11 Il problema della scelta della numerosità campionaria zQuando si vuole effettuare unindagine campionaria, in genere, si deve fare i conti con un budget limitato e, quindi, si vorrebbe scegliere un campione di numerosità ridotta. zQuesto può portare a: yspreco di denaro, se fosse sufficiente un campione più piccolo; yanalisi statistiche non significative, se il campione fosse troppo piccolo.

12 …. zAbbiamo, però, visto che negli intervalli di confidenza il valore di n è collocato al denominatore dellerrore della stima: quanto più n è grande, tanto più lerrore è piccolo! zSi tratta allora di trovare una situazione di compromesso tra lesigenza di spendere poco e quella di avere una stima la più accurata possibile.

13 La dimensione dei campioni zNel caso delle proporzioni una formula generale per individuare la proporzione campionaria parte dalla definizione dellerrore di stima massimo accettabile. Indichiamo con ε tale errore e risolviamo la seguente disequazione: z1,96(π(1-π))/n ε zrispetto a n zn 1,96 2 (π(1-π))/ ε 2 (i) zRicordiamo sempre che, non conoscendo il valore di π, questo può essere stimato con 0.5, che 1,96 è il valore che, nella distribuzione normale, corrisponde a un livello di fiducia del 95% e che ε lo scegliamo noi.

14 Esempi: zAd esempio, volendo una stima con un intervallo di ±0,02 (ossia 2%), la dimensione campionaria sarà: zn 1,96 2 (0,5(1-0,5))/ 0, ; zse, invece, posso stimare tramite informazioni a priori che π=0,2, allora: zn 1,96 2 (0,2(1-0,2))/ 0, ; zse volessi un intervallo di fiducia al 99% con π=0,5, allora: zn 2,575 2 (0,5(1-0,5))/ 0, ; zse, infine, mi accontentassi di un errore di 0.04, al 95% con la stima di π=0,2, allora: zn 1,96 2 (0,2(1-0,2))/ 0,

15 Nel caso di una media zIl problema è analogo se si vuole scegliere la dimensione campionaria per stimare una media: in questo caso non è così facile fornire una stima per lo s.q.m. della popolazione incognito, non abbiamo neanche a disposizione quello del campione. Sarà necessario utilizzare informazioni a priori di precedenti studi.

16 Campionamento in blocco zUn altro problema che abbiamo accantonato è legato alle modalità di scelta del campionamento: con reintroduzione o in blocco. La formula proposta è valida nel campionamento con reintroduzione: in quello in blocco lerrore va moltiplicato per il coefficiente ((N-n)/(N-1)). Se questo coefficiente venisse inserito nella formula per il calcolo di n la situazione si complicherebbe. zVediamo allora di scomporre il coefficiente, considerando la frazione (N-n)/(N-1). Questa può essere scritta zN/(N-1) –n/(N-1) ze approssimata in z1 –n/N.

17 Luso di n/N zIl rapporto n/N ci dà una misura del peso del campione rispetto alla popolazione: se N è infinita o grandissima è 0 e il coefficiente correttivo è 1, quindi non cambia nulla rispetto alla formula precedentemente proposta. zCambia molto poco anche se n/N è molto piccolo (<0,01), anche perché poi dovremmo fare la radice del coefficiente. Se, infine, n/N non è piccolissimo (e questo dipende prevalentemente dal fatto che N non è grande) nella formula (i) si individuerà una dimensione minore per il campione. Pertanto non considerando mai questo coefficiente si adotta un approccio uguale o tutto al più conservativo.

18 La stima negli strati zUnultima considerazione da fare su questo tema è relativa al rapporto tra dimensione campionaria ed errore di stima nelle indagini: quando si trova una dimensione campionaria compatibile col nostro errore di stima, bisogna far attenzione al fatto che suddividendo poi il campione in strati lerrore di stima cambia, crescendo sempre più con la riduzione della numerosità negli strati.

19 Esempio zAd esempio, se con 2400 interviste riesco a stimare la percentuale di possessori della bibliocard tra gli utenti delle Biblioteche di Roma con un errore di ±2%; quando vado a valutare la diversa situazione per sesso, avrò due strati di circa 1200 intervistati maschi e 1200 femmine: lerrore di stima in ognuno dei due strati salirà a ±2,8%; e così via.

20 La distribuzione t di Student zAbbiamo già introdotto la necessità di utilizzare nellintervallo di confidenza (fase dellinduzione) il σ della popolazione, che è incognito: si può stimare con informazioni a priori e, in questo caso, la distribuzione cui far riferimento per la media campionaria è la normale; oppure si può stimare con quello del campione e, in questo caso, la distribuzione cui fare riferimento è la t di Student.

21 I gradi di libertà zOra, però, se noi andiamo a vedere una tavola della distribuzione t di Student, vediamo che essa dipende dai gradi di libertà (n-1, ossia osservazioni n meno vincoli 1, la media) e mano a mano che n cresce ci si avvicina alla normale: la t di Student coincide con la normale per n->, ma già le differenze sono minime per n>50.

22 Che fare? zPossiamo allora affermare che: yse abbiamo informazioni su σ usiamo le tavole della normale; yse stimiamo σ tramite s x del campione e n>50 usiamo le tavole della normale; yse stimiamo σ tramite s x del campione e n50 usiamo le tavole della t di Student. zLe tavole della t di Student sono molto più semplici, avendo solo i valori di riferimento solo per alcuni intervalli di confidenza, quelli con livello di fiducia del 90%, 95%, 99%, 999 e così via.

23 Il test di ipotesi zIn genere, più che cercare di stimare una statistica sulla popolazione, i metodi inferenziali tendono a verificare una qualche ipotesi sulla popolazione stessa: unipotesi in Statistica è proprio unaffermazione sulla popolazione, ossia la previsione che un parametro assuma o un particolare valore o ricada in un certo intervallo di valori. zAd esempio, che un candidato abbia o meno la maggioranza di coloro che voteranno, che in unazienda gli uomini siamo retribuiti meglio delle donne, che lappartenenza a una certa categoria della popolazione influenzi il comportamento elettorale.

24 …. Una volta definita unipotesi sulla popolazione bisogna raccogliere i dati campionari e verificare se i risultati, sintetizzati in una statistica test (ossia una stima puntuale del parametro nella popolazione), ci permettono di rifiutare o meno la nostra ipotesi.

25 Le ipotesi H 0 e H a zPer comodità costruiamo due ipotesi alla base del nostro ragionamento: unipotesi nulla H 0 e unipotesi alternativa Ha. Lipotesi nulla corrisponde, in genere, a una situazione di assenza di effetto, mentre quella alternativa presuppone un effetto, anche se non sarà possibile misurarlo col test.

26 Il test zIl test infatti valuta levidenza campionaria dellipotesi H 0, ossia investiga se i dati contraddicano lipotesi nulla in maniera da suggerire che Ha sia vera. In altre parole, si suppone che H 0 sia vera e, se si trova che i dati riscontrati nel campione molto difficilmente possono essere fatti risalire a quella ipotesi perché la probabilità del test è molto bassa, allora si propende per lipotesi alternativa.

27 Esempio zAd esempio, si vuole studiare se nella carriera accademica ci sia una discriminazione per le donne: se tale discriminazione non ci fosse la percentuale di donne nella fascia dei Professori ordinari sarebbe la stessa di quella nella fascia dei Ricercatori (40%, ovvero una proporzione di 0,40).

28 Lipotesi nulla zSi formula, allora, lipotesi H 0 che rappresenta il fatto che non cè differenza (ipotesi nulla) nella fascia degli ordinari (π=0,40) e si testa in contrapposizione a quella alternativa (π0,40). zAttenzione! Lipotesi alternativa così scritta è definita bilaterale (a due code): prevede sia il caso in cui le donne siano discriminate (π 0,40). zSe si volesse considerare, come purtroppo capita, solo il primo caso allora il test potrebbe anche essere unilaterale (a una coda).

29 Esempio zPrendiamo ora un campione casuale semplice di Professori ordinari, con n=64, e troviamo che fra di essi le donne sono solo 16, ossia il 25%. zCostruiamo il test statistico: come ricorderete la distribuzione delle proporzioni campionarie è normale, con media pari a π e s.q.m. pari a (π(1-π))/n. zCosì la proporzione campionaria standardizzata, il punteggio z p, sarà uguale a z(p-π)/ (π(1-π))/n, zovvero z(0,25-0,40)/(0,40*(1-0,40))/64 = -2,45

30 La decisione zIl valore -2,77 nella tavola della normale standardizzata lascia alla sua sinistra[1] lo 0,71%, quindi solo in 71 campioni su (in caso di test unilaterale, in 142 su in caso di test bilaterale) si verificherebbe un risultato simile se fosse vera H 0.[1] zLevidenza empirica ci porta quindi a rifiutare lipotesi nulla e ad accettare H a : cè discriminazione. [1][1] Attenzione poiché la normale è simmetrica il risultato per -2,77 si ricava leggendo quello per 2,77 e invertendo il verso.

31 Intervallo di confidenza zAnche lintervallo di confidenza può essere usato per testare questa ipotesi: si costruisce lintervallo di confidenza al 95% (in questo caso, controllate, andrebbe bene anche al 99%) intorno a π=0,40, che corrisponde ai valori compresi fra 0,40-1,96(0,40(1-0,40))/64 e 0,40+1,96(0,40(1-0,40))/64, ossia fra 0,28 e 0,52. zPoiché 0,25 è fuori dallintervallo si rifiuta H 0 perché il nostro test non rientra tra i valori possibili che derivano da una popolazione con quella proporzione, distaccandosene solo per effetto del caso!

32 Il valore di probabilità (p-value) zUna volta che si è calcolato il test statistico, ossia la stima puntuale campionaria del parametro della popolazione, conoscendo la sua distribuzione campionaria si può individuare quale sarebbe la probabilità di verificarsi di un tale valore, o di uno più grande, qualora fosse vera lipotesi nulla. zQuesta probabilità è il p-value, che viene fornito per tutti i test nei principali software statistici disponibili.

33 Come trovare il p-value zLa conoscenza del p-value ci evita di andare a consultare tavole differenti a seconda di test differenti: bisogna ricordare che il test è significativo (ossia si rifiuta lipotesi nulla) quando il p-value è inferiore a un livello di probabilità da noi scelto (0,01; 0,05; 0,001 e così via), oppure quando è superiore ai valori sulle tavole corrispondenti ai livelli di probabilità scelti.

34 Sintesi - 1 Possiamo quindi riassumere i vari passi di un test di ipotesi: a- si formulano lipotesi nulla e quella alternativa, relativamente al parametro nella popolazione; b- a seconda del tipo di dati a disposizione si calcola il test statistico nel campione; c- utilizzando le informazioni sulla distribuzione campionaria del test, qualora sia vera lipotesi nulla, si calcola il p-value;

35 Sintesi - 2 d- confrontando il p-value con il valore di probabilità con il quale assegniamo il livello di fiducia nella nostra decisione, rifiutiamo o non rifiutiamo lipotesi nulla; e- il procedimento può non finire qui, in quanto quando rifiutiamo lipotesi nulla con un p-value significativo allo 0,05, abbiamo sempre un rischio - nel 5% dei casi - di aver rifiutato un ipotesi vera; così quando non la rifiutiamo abbiamo sempre il rischio di non aver rifiutato unipotesi falsa[1].[1] [1] Questi ulteriori passi fanno parte della Teoria delle decisioni statistiche, che non affrontiamo in questo corso.

36 Test di ipotesi nel caso di una media zChiudiamo questa parte con lesempio relativo a una variabile quantitativa: in questo caso il parametro è la media nella popolazione e il test statistico è la media campionaria. Abbiamo un campione di anziani maschi dai 65 ai 70 anni che sono pensionati in Case di riposo della Regione Lazio. Da studi geriatrici sappiamo che il peso medio µ x in quella fascia detà è di 70 chilogrammi, con un σ x di 10 chilogrammi. Vogliamo vedere se i ricoverati sono più o meno ben nutriti dei loro coetanei (il test è quindi bilaterale). Il campione è di 49 anziani e il peso medio M x è uguale a 68 chilogrammi con s x =5 chilogrammi.

37 …. zLipotesi nulla è che i ricoverati sono altrettanto nutriti dei loro coetanei che vivono a casa: H 0 è che µ x =70; H a è µ x 70 (bidirezionale). zLipotesi nulla equivale a dire che non cè nessuna differenza fra gli anziani nelle due situazioni, quella alternativa che il trattamento, ossia il soggiorno nelle Case di riposo, ha un qualche effetto, positivo o negativo che sia sulla nutrizione degli anziani.

38 …. zIl test statistico è la media campionaria (68), che standardizziamo rispetto alla distribuzione delle medie campionarie, che è normale con media 70 e s.q.m. pari a 10/49. zIl,valore standardizzato (z x = (x-µ x )/σ x /n) è -1,4, che ha un p-value pari a 0,0808, ossia 8,08%, ben superiore al 2,5% che sta nella coda di un intervallo di confidenza al 95%. zIl valore è quindi dentro lintervallo e noi non possiamo rifiutare lipotesi nulla. Il peso medio più basso sarà dovuto alla variabilità campionaria e non a una situazione oggettivamente diversa.

39 ….. zIn questo test abbiamo usato al posto di σ x un dato fornito da studi geriatrici. Se lo avessimo, invece, stimato tramite s x (=6), dato che la variabilità in appartenenti allo stesso gruppo sembra essere molto più ridotta e quindi il test più accurato, il test statistico sarebbe stato il valore della t di Student t x = (x-µ x )/s x /n= 2,8. zQuesto risultato ci fornisce un p-value pari a 0,0048 che ci spinge a rifiutare lipotesi nulla!


Scaricare ppt "1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Lezioni successive Strumenti statistici per le ricerche."

Presentazioni simili


Annunci Google