La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni Strumenti statistici per le ricerche di.

Presentazioni simili


Presentazione sul tema: "1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni Strumenti statistici per le ricerche di."— Transcript della presentazione:

1 1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni antonio.mussino@uniroma1.it Strumenti statistici per le ricerche di mercato e la customer satisfaction

2 2 Inferenza statistica sulla relazione fra due variabili z Come passo successivo allo studio dellinferenza su medie e proporzioni relativamente a una sola variabile, abbiamo lo studio del test di ipotesi sulle relazioni fra due variabili. Segnaliamo che in questo corso non sarà affrontato lo studio di modelli più complessi.

3 3 Simmetria vs. asimmetria zUna prima distinzione va fatta tenendo presente il ruolo che le due variabili messe in relazione giocano: ossia se esso è simmetrico o asimmetrico. zNel primo caso si studia solo la relazione statistica, senza chiedersi se una delle due variabili influenzi laltra; nel secondo, invece, il modello si imposta ponendo una variabile indipendente, che ne dovrebbe influenzare una dipendente, e si testa la esistenza o meno di questa relazione.

4 4 Tipo di variabili zCosì come, nella prima parte del corso, abbiamo distinto il caso di variabili quantitative e qualitative, qui dovremo distinguere quattro casi: za) il caso di relazione fra due variabili qualitative; zb) il caso di relazione fra una variabile qualitativa e una quantitativa; zc) il caso di relazione fra una variabile quantitativa e una qualitativa; zd) il caso di relazione fra due variabili quantitative.

5 5 …… zLa distinzione fra i casi b) e c) ha senso solo nello studio di relazioni asimmetriche; nel nostro caso può essere ricondotto al caso a) in quanto ogni variabile quantitativa può essere trasformata in qualitativa mediante laccorpamento in classi. zAd esempio, letà – variabile quantitativa – può essere trasformata in qualitativa accorpando in classi di anni: da 0 a 12 anni bambini; da 13 a 19 anni adolescenti; da 20 a 34 anni giovani; da 35 a 64 anni adulti; da 65 a 74 anni anziani da 75 anni in poi vecchi.

6 6 Pertanto…. zAbbiamo così concentrato lattenzione su due casi di studio: y relazione simmetrica fra due variabili qualitative; y relazione simmetrica fra due variabili quantitative.

7 7 Lo studio dellindipendenza zSi consideri la seguente tabella 19.1 ottenuta incrociando le risposte di un campione casuale di 235 elettori romani a due domande, entrambe qualitative, su livello di istruzione e livello di partecipazione politica; tali risposte sono state opportunamente ricodificate ottenendo tre livelli per ogni variabile: alto, medio e basso.

8 8 Tab. 19.1 Livello di istruzione-> Livello di partecipazione politica AltoMedioBassoTotale Alto718429 Medio825942 Basso109559164 Totale2513872235

9 9 Percentuali per colonna zUna prima lettura dei dati è fornita dalle percentuali per colonna, considerando ad esempio la variabile livello di partecipazione politica (l.p.p.) come dipendente dal livello di istruzione (l.i.), variabile indipendente; ciò equivale a studiare il l.p.p. in tre sottocampioni indipendenti con l.i. rispettivamente alto, medio e basso (cfr. tabella 19.2).

10 10 Tab. 19.2 Livello di istruzione-> Livello di partecipazione politica AltoMedioBassoTotale Alto28,013,05,512,3 Medio32,018,212,517,9 Basso40,068,882,069,8 Totale100,0

11 11 Dipendenza zLa interpretazione della tabella 19.2 è piuttosto agevole: vi è una forte associazione fra un l.i. alto e un l.p.p. alto (i più istruiti partecipano di più); così come la minore partecipazione sembra essere caratteristica dei cittadini con livello di istruzione basso e così via. zIn altre parole, fra le due variabili cè dipendenza. Questo risultato, però, è stato elaborato in un campione casuale di soli 235 cittadini: esso non sarà stato ottenuto solo per effetto del caso, ossia per una sfortunata scelta degli intervistati? E, quindi, le due variabili non saranno invece indipendenti nella popolazione di tutti gli elettori?

12 12 Test di ipotesi zPer rispondere a questo quesito dobbiamo operare come nel classico Test di ipotesi precedentemente presentato. zRiprendiamone i vari passi: za) si formula lipotesi nulla e quella alternativa, relativamente al parametro nella popolazione; in questo caso H 0 è quella di indipendenza, H a è quella di una qualche dipendenza fra le variabili, anche se questa dipendenza non potrà essere misurata; zb) si calcola il test statistico nel campione, che chiameremo Chi quadrato;

13 13 zc) utilizzando le informazioni sulla distribuzione campionaria del test, qualora sia vera lipotesi nulla, si calcola il p-value; zd) confrontando il p-value con il valore di probabilità con il quale assegniamo il livello di fiducia nella nostra decisione rifiutiamo o non rifiutiamo lipotesi nulla; ze) il procedimento può non finire qui, in quanto quando rifiutiamo lipotesi nulla con un p-value significativo allo 0,05, abbiamo sempre un rischio nel 5% dei casi di aver rifiutato un ipotesi vera; così quando non la rifiutiamo abbiamo sempre il rischio di non aver rifiutato unipotesi falsa. Test di ipotesi - segue

14 14 zIn più, rispetto a quanto esplicitato nei paragrafi precedenti, dobbiamo introdurre le modalità di calcolo del test Chi quadrato. Per vedere come si calcola costruiamo unaltra tabella nella quale le variabili messe a confronto sono il colore dei capelli e il l.p.p.: sono due variabili tra le quali ci dovrebbe essere logicamente una relazione di indipendenza. zSe così fosse la tabella analoga alla 19.2, ossia quella delle percentuali di colonna, che chiameremo 19.3, dovrebbe avere quattro colonne tutte uguali, in quanto la partecipazione dovrebbe essere la stessa tra i castani, i mori e i biondi. Calcolo del Chi quadrato

15 15 Tab. 19.3 Colore dei capelli-> Livello di partecipazione politica AltoMedioBassoTotale Alto12,3 Medio17,9 Basso69,8 Totale100,0

16 16 Come si calcola? zCome si può ottenere questo risultato? Formalizziamo il problema nella tabella 19.4.

17 17 Tab. 19.4 Variabile A-> Variabile B M1M1 M2M2 M3M3 Totale N1N1 n 11 n 12 n 13 n 1. N2N2 n 21 n 22 n 23 n 2. N3N3 n 31 n 32 n 33 n 3. Totalen. 1 n. 2 n.3 n..

18 18 Le contingenze zPer avere tutti profili di colonna uguali (ma anche i profili di riga) al posto di n 11 dovrò avere un zc 11 =n 1. *n.1 /n.. ze, al posto del generico n ij, nella situazione di indipendenza, un zc ij =n i. *n.j /n..

19 19 ……. zLa differenza fra i valori corrispondenti n ij e c ij (valori osservati e valori attesi nellipotesi di indipendenza fra le variabili studiate) ci dice quanto ci si discosta dalla situazione di indipendenza: se la differenza è nulla, o è piccola, non ci si discosta da quella e non si può rifiutare lipotesi nulla; se i valori sono grandi allora si può rifiutare. Ma quando un valore è piccolo o grande? zPer rispondere bisogna conoscere la distribuzione del test statistico, il Chi quadrato, che si calcola come z i j ((n ij -c ij ) 2 / c ij ).

20 20 Gradi di libertà zQuesta distribuzione dipende dai gradi di libertà z((r-1)*(c-1)), zcon r numero delle righe e c numero delle colonne ed è tabulata nei principali libri di Statistica. Si può decidere di avere un livello di fiducia al 95% e trovare il valore del Chi quadrato corrispondente: se il nostro è superiore cadiamo nella coda di rifiuto dellipotesi nulla, se è inferiore non la possiamo rifiutare.

21 21 P-value Oppure possiamo avere il p-value del Chi quadrato calcolato sui nostri dati e vedere se è più piccolo del 5% (ovvero 0,05) rifiutiamo H 0, se è più grande non la rifiutiamo; lo stesso può valere col 99%, o col 999 e così via.

22 22 Lo studio della correlazione zSe le due variabili a cui si fa riferimento sono entrambe quantitative, allora la relazione che si può studiare è più sofisticata. zSi consideri la seguente situazione osservazionale: su 10 ragazzi allievi di un Centro di Avviamento allo Sport (CAS) sono stati rilevati i risultati di alcune prove motorie. Nella matrice 20.1 è riprodotta tale situazione: per riga sono rappresentati i ragazzi e per colonna tre variabili (prove); listruttore vuole valutare questo insieme di informazioni e considera varie coppie di relazioni, partendo dalla rappresentazione geometrica di ogni prova.

23 z Tabella 20.1 - Matrice dei risultati dei ragazzi del CAS zUnità statisticacorsa 60mtsalto flessione del zpiani(X)in alto (Y)tronco (Z) zAndrea 9,8177 6,2 zCarlo 10,2169 10,2 zEnrico 9,5178 11,9 zGianni 9,6179 9,6 zMario 9,2182 6,4 zMauro 9,1186 10,1 zNicola 8,9190 8,4 zSandro 9,3180 10,4 zSilvano 10,1174 8,2 zUgo 9,7177 8,4 23

24 24 Asse corsa veloce zCosì possiamo iniziare a rappresentare il primo asse di riferimento (X), su cui stabiliamo unorigine (punto di coordinata 0), ununità di misura e su cui siano rappresentati i risultati della corsa veloce, facendo corrispondere ad ogni determinazione numerica un punto di coordinata corrispondente: z0 8,9 9,1 9,2 10,1 10,2 z*- - - - --------*---------*------*----------- *---------*---------- X zIl risultato migliore, trattandosi di una prova a tempo, è quello ottenuto da Nicola, segue quello di Mauro, quello di Mario e così via, fino al peggiore, quello di Carlo.

25 Asse salto in lungo zSu una seconda retta di riferimento (Y) si possono rappresentare i risultati della prova di salto in lungo: z0 169 186 190 z*- - - - ---------*-------------------------*--------*------------- Y zIl risultato migliore è quello di Nicola, poi quello di Mauro e così via fino a quello di Carlo che è il peggiore. 25

26 26 Asse flessione del tronco zPer prima cosa si deve notare la diversa unità di misura e la diversa variabilità dei risultati rispetto allasse X: le graduatorie, invece, sono comparabili. zAnaloga rappresentazione potrà essere effettuata per la variabile Z (flessione del tronco).

27 27 Sul piano zOgni allievo avrà una sua collocazione su ciascun asse. zSe gli assi sono considerati in coppia il sistema di riferimento non sarà più una retta, bensì un piano: qui gli allievi sono rappresentati mediante punti le cui coordinate corrispondono a quelle delle variabili che individuano il piano. I punti così individuati definiscono un diagramma di dispersione (una nuvola).

28 28 (segue) zNelle figure 20.1 e 20.2 sono riprodotte le nuvole relative alla relazione fra X e Y e fra Z e Y. zSi può notare come essa si disperde in maniera diversa nei due piani, seguendo un modello di riferimento nel 20.1 e in maniera casuale nel 20.2 (in allegato).

29 29 La standardizzazione zCerto la dispersione dei punti delle nuvole risente della diversa unità di misura e della diversa variabilità delle prove messe a confronto: pertanto è necessario, prima di procedere, standardizzare le variabili. In tal modo il risultato medio è sempre uguale allo zero, la variabilità è uniforme (scarto quadratico medio sempre uguale a uno) e coloro che hanno ottenuto un risultato zInferiore alla media hanno una coordinata negativa, mentre chi ne ha uno superiore la ha positiva. Il risultato di tale trasformazione è riprodotto nelle figure 20.3 e 20.4 (allegate), rispettivamente per le due relazioni considerate. z.

30 30 Relazione di discordanza zOra si può meglio notare come i ragazzi con risultati inferiori alla media nella prova X li abbiano ottenuti superiori alla media nella prova Y e viceversa: la nuvola dei punti si distribuisce unicamente nel II e IV quadrante del piano della figura 20.3. zRicordando che le graduatorie dei risultati sono inverse (tempi e lunghezze), si nota come nelle due prove vi sia concordanza di risultati: gli allievi più bravi nella prima lo sono anche nella seconda.

31 31 Coefficiente di Pearson zTale relazione è misurabile tramite il coefficiente di correlazione lineare di Bravais Pearson (più noto semplicemente come correlazione di Pearson). Tale coefficiente è calcolabile come media standardizzata dei prodotti degli scarti: zr xy = ((x i -M x )(y i -M y ))/ns x s y zcon s x e s y scarti quadratici medi, rispettivamente, delle variabili X e Y.

32 32 Valori di r xy zPoiché nel I e III quadrante gli scarti hanno segno concorde (+,+ e -,-) la somma sarà positiva, tanto più alta quanto più i punti si allineano su una retta, fino al massimo di +1 (concordanza lineare perfetta), quando le due variabili misurano lo stesso fenomeno. zNel II e IV quadrante, invece, gli scarti hanno segno discorde (+,- e -,+) e la somma sarà negativa, quanto più alta quanto più i punti si allineano su una retta, fino al minimo di -1 (discordanza lineare perfetta), quando le due variabili misurano lo stesso fenomeno. zI valori massimo e minimo sono uguali proprio a +1 e -1 perché gli scarti sono standardizzati!

33 33 Incorrelazione zTorniamo ora alla figura 20.4. zIn questo caso non cè relazione lineare fra le due variabili e questo, oltre che graficamente si può notare per il fatto che i prodotti degli scarti sono in parte positivi e in parte negativi e si compensano: il coefficiente r xy si avvicinerà allora a 0, assumendo valori molto piccoli negativi o positivi; il caso di r xy =0 è quello della assoluta in correlazione.

34 34 Livelli di correlazione zLa correlazione può essere usata in modo descrittivo come coefficiente di concordanza/discordanza, nel qual caso sarà: bassa se -0,3 <r xy <+0,3 media se -0,7 <r xy -0,3 oppure +0,3 r xy <+0,7 alta se r xy -0,7 oppure 0,7 r xy.

35 35 Test di ipotesi zMa sulla correlazione si può anche lavorare in modo inferenziale, seguendo la solita strategia: za) si formula lipotesi nulla e quella alternativa, relativamente al parametro nella popolazione; in questo caso H 0 è quella di in correlazione (ρ=0), H a è quella di una qualche correlazione fra le variabili, anche se la correlazione ρ nella popolazione non potrà essere calcolata; zb) si calcola il test statistico nel campione, il coefficiente r xy ;

36 36 Test di ipotesi - segue zc) utilizzando le informazioni sulla distribuzione campionaria del test, qualora sia vera lipotesi nulla, si calcola il p-value; zd) confrontando il p-value con il valore di probabilità con il quale assegniamo il livello di fiducia nella nostra decisione rifiutiamo o non rifiutiamo lipotesi nulla; ze) il procedimento può non finire qui, in quanto quando rifiutiamo lipotesi nulla con un p-value significativo allo 0,05, abbiamo sempre un rischio nel 5% dei casi di aver rifiutato un ipotesi vera; così quando non la rifiutiamo abbiamo sempre il rischio di non aver rifiutato unipotesi falsa.

37 37 Test di ipotesi zLa distribuzione campionaria di: t= r xy /((1-r xy )/(n-2)) zsotto lipotesi nulla (ρ=0) dipende dai gradi di libertà (n- 2), con n dimensione campionaria, è una t di Student ed è tabulata nei principali libri di Statistica. zSi può decidere di avere un livello di fiducia al 95% e trovare il valore di t corrispondente: se il nostro è superiore cadiamo nella coda di rifiuto dellipotesi nulla, se è inferiore non la possiamo rifiutare.

38 38 P-value zOppure possiamo avere il p-value della t calcolata sui nostri dati e vedere se è più piccolo del 5% (ovvero 0,05) rifiutiamo H 0, se è più grande non la rifiutiamo; lo stesso può valere col 99%, o col 999 e così via. zCosì potremmo avere una correlazione significativa (ossia tale da permetterci di rifiutare H 0 ) ma anche bassa, oppure (caso piuttosto difficile, che si verifica solo con campioni molto piccoli) una correlazione alta ma non significativa!

39 Figura 20.1 39

40 Figura 20.2 40

41 Figura 20.3 41

42 Figura 20.4 42


Scaricare ppt "1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Ultime lezioni Strumenti statistici per le ricerche di."

Presentazioni simili


Annunci Google