Associazione tra variabili qualitative È possibile verificare l’associazione anche tra variabili qualitative (nominali o ordinali) attraverso un apposito test. Esempio: Verificare l’associazione tra genere e scelta della facoltà universitaria. Ossia ci si sta chiedendo: la scelta della facoltà universitaria dipende dal genere o è indipendente al genere? Dunque bisogna testare se vi sia dipendenza tra le due variabili.
Costruire la tabella di frequenza doppia Soggetti Genere Facoltà 1 Maschio Psicologia 2 Femmina 3 4 5 Ingegneria 6 7 8 9 10 11
Tabella di frequenza doppia Psicologia Ingegneria Totale riga Maschi 1 6 7 Femmine 4 Tot colonna 5 11 Informazioni della Tabella di frequenza doppia: Esprime la relazione tra le modalità (o livelli) di 2 variabili qualitative. I numeri all’interno di ciascuna cella indicano le frequenze osservate (fo) sul campione, ossia derivanti dalla rilevazione.
Frequenze attese Per verificare l’eventuale dipendenza è necessario calcolare la frequenza attesa (fe; expected frequencies) per ciascuna cella (frequenza osservata). Ossia in questo caso: sapendo che i maschi sono 7 e che gli iscritti a psicologia sono 5, quanti maschi “mi aspetto” che si iscrivano a psicologia?
Tabella doppia con fo ed fe Psicologia Ingegneria Totale riga Maschi 1 (fe=3,18) 6 (fe=3,82) 7 Femmine 4 (fe=1,82) (fe=2,18) Tot colonna 5 11 La somma delle frequenze attese per riga deve essere uguale al totale di riga. La somma delle frequenze attese per colonna deve essere uguale al totale di colonna. La somma di tutte le frequenze attese deve essere uguale a N.
Indice di dipendenza χ2 Dopo aver calcolato le fe si calcola il χ2: Se tutte le fo e le fe sono uguali tra loro il valore del χ2 sarà uguale a 0, dunque le due variabili non sono dipendenti. Di conseguenza, maggiore è la differenza tra fo ed fe, maggiore sarà il valore del χ2.
Calcolo del χ2 Psicologia Ingegneria Totale riga Maschi 1 (fe=3,18) 6 7 Femmine 4 (fe=1,82) (fe=2,18) Tot colonna 5 11
Caratteristiche del χ2 Il χ2 esprime l’associazione tra due variabili qualitative ed è un coefficiente è sempre positivo. Può assumere valori che variano tra 0 (massima indipendenza) ed N (massima dipendenza). Se si vogliono generalizzare i risultati ottenuti sul campione all’intera popolazione, ossia verificare che l’associazione non è dovuta al “caso” (o a errori di campionamento) è necessario condurre un test di ipotesi sul χ2. Le ipotesi sono sempre: H0: le due variabili sono indipendenti H0: χ2 = 0 H1: le due variabili sono dipendenti H1: χ2 > 0 (sempre monodirezionale)
Test di ipotesi sul χ2 e distribuzione Il χ2calc deve essere confrontato con il χ2cri. Si rifiuta H0 se χ2calc > χ2cri La distribuzione a cui fa riferimento tale test è proprio quella del χ2. La distribuzione del χ2 è asimmetrica e positiva e può assumere valori compresi tra 0 (indipendenza) e N (massima dipendenza); esistono pertanto diverse distribuzioni del χ2, ciascuna caratterizzata dai rispettivi gradi di libertà.
Forma distribuzione χ2
Gradi di libertà (DF) I gradi di libertà del χ2 indicano il numero di frequenze attese (e non scarti dalla media) liberi di variare, ossia indipendenti da altri valori. Quante frequenze attese sono libere di variare in una tabella di frequenza doppia 2X2, conoscendo i totali di riga e di colonna? Per calcolare le altre Fe è sufficiente conoscere 1 valore. Psicologia Ingegneria Totale riga Maschi 7 Femmine 4 Tot colonna 5 6 11 3,18
E se la tabella è 3 x 3? Lavorare Studiare Non so Totale riga Licei 3 Istituti tecnici 5 Istituti professionali 6 Tot colonna 2 14 1,29 1,29 2,14 2,14 In generale i gradi di libertà (DF) sono uguali a: DF = (r-1) (c-1) Dove: “r “ è il numero di righe (numero delle modalità della variabile sulle righe); “c” è il numero di colonne (numero delle modalità della variabile sulle colonne).
Soluzione esempio H0: χ2=0 H1: χ2>0 χ2cri=? χ2cri(1)=3,84 χ2calc = 7,52 Conclusioni: Siccome χ2calc > χ2cri rifiuto H0: vi è dipendenza tra genere e la scelta universitaria. Se si rifiuta H0 è necessario scrivere il commento specifico, controllando, all’interno di ciascuna cella, la distanza tra Fo e Fe: dove le Fo risultano maggiori di Fe significa che vi sono più soggetti di quelli attesi, ossia quelle modalità risultano associate.
Commento specifico Siccome χ2calc > χ2cri rifiuto H0: vi è dipendenza tra genere e la scelta universitaria. In particolare: i maschi scelgono ingegneria, mentre le femmine scelgono psicologia. Psicologia Ingegneria Totale riga Maschi 1 (fe=3,18) 6 * (fe=3,82) 7 Femmine 4 * (fe=1,82) (fe=2,18) 4 Tot colonna 5 6 11
Esercizio 1 Verificare, attraverso il test di ipotesi adeguato, l’associazione tra tipologia di reato e disturbi di personalità. Risolvere l’esercizio indicando: Ipotesi; Disegno (indicando area di accettazione e rifiuto di H0); Valore critico e calcolato; Conclusioni. Rapina Spaccio Omicidio Tot riga Dipendente 1 7 9 Antisociale 2 4 5 11 Tot colonna 3 6 20
Disegno e frequenze attese 1 χ2 cal =3,65 χ2 cri =5,99 Rapina Spaccio Omicidio Dipendente 1 Fe=1,35 7 Fe=4,95 Fe=2,7 9 Antisociale 2 Fe=1,65 4 fe=6,05 5 fe=3,3 11 3 6 20
Soluzione esercizio 1 H0: χ2=0 H1: χ2>0 χ2cri=? Χ2cri(2)=5,99 χ2calc = 3,65 Conclusioni: Siccome χ2calc < χ2cri accetto H0. Non vi è dipendenza tra tipologia di reati e disturbi di personalità.
Esercizio 2 Verificare, attraverso il test di ipotesi adeguato, l’associazione tra genere e livello di ansia. Risolvere l’esercizio indicando: Ipotesi; Disegno (indicando area di accettazione e rifiuto di H0); Valore critico e calcolato; Conclusioni. Basso Medio Alto Tot riga Maschi 1 3 5 9 Femmine 6 Tot colonna 7 8 18
Disegno e frequenze attese 2 χ2 cri =5,99 χ2 cal =7,07 Basso Medio Alto Tot riga Maschi 1 Fe=3,5 3 Fe=1,5 5 Fe=4 9 Femmine 6 Tot colonna 7 8 18
Soluzione esercizio 2 H0: χ2=0 H1: χ2>0 χ2cri=? Χ2cri(2)=5,99 χ2calc =7,07 Conclusioni: Siccome χ2calc > χ2cri rifiuto H0. Vi è dipendenza tra il genere e disturbo di ansia. In particolare….