ATTIVITÀ PIANO LAUREE SCIENTIFICHE Laboratorio di Statistica UNIVERSITÀ DEGLI STUDI DI NAPOLI Federico II CLASSI QUARTE Laboratorio di Statistica
Analisi delle relazioni tra variabili Indagine “Terra promessa” Analisi delle relazioni tra variabili
qualitativa Chi quadrato qualitativa
LA VERIFICA DELLE IPOTESI 1. formulazione delle ipotesi statistiche; 2. scelta delle regola di decisione adeguata; 3. confronto del valore campionario calcolato con la distribuzione campionaria sotto H0; 4. rifiuto dell’ipotesi sotto H0 in base al fatto che il valore campionario calcolato cada in una particolare regione di valori nella distribuzione campionaria specificata nell’ipotesi H0.
Verifica di ipotesi statistica Conclusioni L’ipotesi nulla è conservata (si è verificato un risultato probabile) 2. L’ipotesi nulla è respinta (si è verificato un risultato altamente improbabile)
Funzione test: chi-quadrato H0: I DUE CARATTERI SONO INDIPENDENTI H1: I DUE CARATTERI NON SONO INDIPENDENTI : errore di I tipo = 0,05 Funzione test: chi-quadrato Regola di decisione: 2 ≤ 2 accetto H0 2 > 2 rifiuto H0
NELLA POPOLAZIONE È VERA IN BASE AI DATI CAMPIONARI POSSIBILI DECISIONI NELLA VERIFICA D’IPOTESI NELLA POPOLAZIONE È VERA H0 H1 IN BASE AI DATI CAMPIONARI NON SI RESPINGE H0 DECISIONE CORRETTA (PROBABILITÀ 1- ) ERRORE 2° TIPO (PROBABILITÀ ) SI RESPINGE H0 ERRORE 1° TIPO (PROBABILITÀ ) (PROBABILITÀ 1- )
ESEMPIO: Verifica di indipendenza in tabelle 22 (tetracoriche) "We are the Champions" SI NO totale 276 90 366 "Hai fiducia in te stesso?" 72 57 129 348 147 495 Esiste una relazione tra la variabile «Hai fiducia in te stesso?» e «We are the Champions»?
CALCOLO DELLE FREQUENZE TEORICHE o ATTESE "We are the Champions" SI NO totale 257,3 (a) 108,7 (c) 366 "Hai fiducia in te stesso?" 90,7 (b) 38,3 (d) 129 348 147 495 a, b, c, d frequenze attese a=348 x 366 / 495 a = 257,3 b=348 x 129 / 495 b = 90,7 c=147 x 366 / 495 c = 108,7 d=147 x 129 / 495 d = 38,3
Hai fiducia in te stesso? FREQUENZE OSSERVATE E FREQUENZE ATTESE NELL’IPOTESI DI ASSENZA DI ASSOCIAZIONE We are the champions TOTALE Sì No Hai fiducia in te stesso? SI 276 O A 257,3 90 O A 108,7 366 NO 72 O A 90,7 57 O A 38,3 129 348 147 495 Per ciascuna cella si calcola la differenza tra la frequenza osservata e quella attesa (contingenza)
Il valore del chi-quadrato indica presenza o assenza di associazione? TEST 2 (CHI-QUADRATO) Il valore del chi-quadrato indica presenza o assenza di associazione?
GdL = (n° righe -1) x (n° colonne -1) Per interpretare il risultato ottenuto si deve confrontare il valore calcolato del chi-quadrato con il valore critico della distribuzione del chi-quadrato (essendo vera H0) che corrisponde ad una probabilità di errore pari a 0,05. Per trovare il valore critico del chi-quadrato bisogna consultare la tavola della distribuzione dei suoi valori. Il valore critico è individuato entrando attraverso la colonna corrispondente alla probabilità prescelta (0,05) e alla riga corrispondente ai gradi di libertà (GdL) della tabella, dove: GdL = (n° righe -1) x (n° colonne -1) Essendo questa tabella 2X2, GdL=1.
La distribuzione chi-quadrato per alcuni valori dei gradi di libertà (gl=1, 2, 3,…) Densità
Distribuzione CHI-QUADRATO X2 g.l. 1 3,8 Il chi-quadrato calcolato è maggiore del chi-quadrato critico quindi si rifiuta l’ipotesi di assenza di relazione. Chi-quadrato calcolato=17,6 Chi-quadrato critico =3,84
Esempio: Verifica di indipendenza fra le variabili «dove proseguirai gli studi» e «dove ti piacerebbe vivere» Campania Altra Regione Estero Totale Sto bene dove sto 49 16 4 69 Altro quartiere 21 6 27 Altra città 22 11 1 34 Altra regione 45 3 93 140 77 50 267 tot 277 155 58 490
Calcolo delle frequenze teoriche Campania Altra regione Estero Totale Sto bene dove sto 39 21,82 8,18 69 Altro quartiere 15,26 8,54 3,20 27 Altra città 19,22 10,75 4,02 34 52,62 29,44 11 93 150,9 84,45 31,60 267 277 155 58 490
2 > 2 quindi i due caratteri sono dipendenti TEST 2 (CHI-QUADRATO) 2 =42.36 g.d.l.=4x2=8 =0.05 2 = 15.50 2 > 2 quindi i due caratteri sono dipendenti
Indice di contingenza media quadratica del Pearson L’indice di contingenza quadratica media di Pearson è Φ2 = 2 /N; in caso di indipendenza assume il suo valore minimo che è zero; il valore massimo è pari a [(il più piccolo valore tra numero di righe e numero di colonne) -1]; per renderlo normalizzato tra 0 e 1 occorre dividere il valore dell'indice per il suo valore massimo.
Coefficiente di contingenza di Pearson Una misura di associazione basata sul chi-quadrato è: il coefficiente di contingenza di Pearson f2 = c2/N (5)
Indice di Yule Data una tabella tetracorica L’indice di Yule si calcola :
Q di Yule Q=+1 i casi sono concentrati sulla diagonale ad Q = - 1 i casi sono concentrati sulla diagonale bc Q=0 i casi sono equiripartiti Applicabile se le coppie di marginali sono entrambe equilibrate, oppure entrambe squilibrate e non vi sono una o tre celle semivuote, oppure entrambe squilibrate e una diagonale è semivuota.
ESEMPIO n °1: Calcolo degli indici in tabelle 22 (tetracoriche) "We are the Champions" SI NO totale 276 90 366 "Hai fiducia in te stesso?" 72 57 129 348 147 495
ESEMPIO n °2: Calcolo degli indici in tabelle 53 Campania Altra Regione Estero Totale Sto bene dove sto 49 16 4 69 Altro quartiere 21 6 27 Altra città 22 11 1 34 Altra regione 45 3 93 140 77 50 267 tot 277 155 58 490
ESEMPIO n °2: Calcolo degli indici in tabelle 53
Conclusioni In entrambi i casi analizzati si è rifiutata l’ipotesi di assenza di relazione; Grazie agli indici si è potuto stimare il grado di associazione tra le variabili considerate
Grazie per l’attenzione Liceo Statale “Q. O. Flacco” Portici (Na)