DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni unità statistica. Quando si considerano due soli caratteri si parla di distribuzione statistica congiunta. Questo tipo di distribuzione è rappresentabile con una tabella a doppia entrata in cui si raccolgono i dati relativi a due mutabili statistiche o una mutabile ed una variabile. La tabella della successiva slide riporta la distribuzione congiunta relativa alla lingua studiata e alla classe di iscrizione in un liceo :
Lingua (Y) Classe (X) inglesefrancesetedescospagnolo Prima Seconda Terza Quarta quinta In ciascuna casella compare una frequenza assoluta e cioè il numero di unità statistiche che presentano la modalità x del carattere X e la modalità y del carattere Y.
Leggiamo ora la tabella in un altro modo….Calcoliamo i totali di riga e otteniamo la distribuzione di X ; quelli di colonna ci danno la distribuzione di Y e il totale di entrambe le distribuzioni ci permette di conoscere il numero di unità statistiche. Lingua (Y) Classe (X) inglesefrancesetedescospagnolo Prima Seconda Terza Quarta quinta X Y
Definiamo : si dice distribuzione marginale la distribuzione dei totali di riga o di colonna. Ogni tabella a doppia entrata ha pertanto due distribuzioni marginali. Ora leggiamo la tabella in un altro modo : Lingua (Y) Classe (X) inglesefrancesetedescospagnolo Prima Seconda Terza Quarta quinta Stiamo leggendo in relazione ad una particolare colonna: abbiamo fissato una delle particolari modalità del carattere Y.
Lingua (Y) Classe (X) inglesefrancesetedescospagnolo Prima Seconda Terza Quarta quinta Stiamo leggendo in relazione ad una particolare riga: abbiamo fissato una delle particolari modalità del carattere X. Si chiama distribuzione condizionata la distribuzione che si ottiene fissando una particolare modalità di uno dei due caratteri e considerando le frequenze associate a tutte le modalità dell’altro carattere.
Da una tabella di frequenze assolute si possono derivare diverse tabelle di frequenze relative. FREQUENZE RELATIVE GLOBALI : si ottengono dividendo ogni frequenza assoluta per il numero di unità statistiche Lingua (Y) Classe (X) inglesefrancesetedescospagnolo Prima11,5%5,1%4,2%1,7% Seconda12,9%6,0%2,1%1,1% Terza11,1%4,6%2,0%1,5% Quarta9,6%5,0%2,9%1,0% quinta9,9%4,2%2,4%1,2%
Lingua (Y) Classe (X) inglesefrancesetedescospagnolo freq marg X Prima11,5%5,1%4,2%1,7%22,5% Seconda12,9%6,0%2,1%1,1%19,2% Terza11,1%4,6%2,0%1,5%19,2% Quarta9,6%5,0%2,9%1,0%18,5% quinta9,9%4,2%2,4%1,2%17,7% Freq marg Y55,0%24,9%13,6%6,5%100% Sommando le frequenze relative per riga e per colonna si ottengono le frequenze relative marginali
Se invece dividiamo ogni dato per il totale della propria riga otteniamo la TABELLA DELLE FREQUENZE PER RIGA. Lingua (Y) Classe (X) inglesefrancesetedescospagnolo TOTALI Prima51,3%22,6%18,6%7,5%100% Seconda58,2%27,0%9,7%5,1%100% Terza57,6%24,1%10,6%7,6%99,9% Quarta51,8%26,8%15,9%5,5%100% quinta56,1%23,6%13,4%7,0%100,1% Freq marg Y55,0%24,9%13,6%6,5%100% Ciascuna riga rappresenta una distribuzione relativa condizionata; l’ultima riga è la distribuzione marginale relativa del carattere Y.
Si possono quindi creare tre diverse tabelle di frequenze relative. Indicando con F(i;j) la frequenza assoluta corrispondente alla i-esima modalità del carattere X e alla j-esima modalità di Y, con r(i) la somma delle frequenze assolute della i-esima riga, c(j) la somma delle frequenze assolute della j-esima colonna e n il numero totale delle unità statistiche, si hanno tre possibilità di calcolo : 1) frequenze relative per riga : F(i,j) / r(i) ; 2) frequenze relative per colonna : F(i,j) / c(j) ; 3) frequenze relative assolute : F(i,j) / n.
INDIPENDENZA ASSOLUTA DI DUE MUTABILI STATISTICHE Una tabella a doppia entrata rappresenta una distribuzione doppia di due caratteri X e Y che possono essere tra loro indipendenti o avere tra loro qualche relazione. Si dice che un carattere X è assolutamente indipendente da un carattere Y se per ogni modalità x i le frequenze relative di tutte le modalità di Y sono uguali ( cioè le frequenze relative per colonna sono tutte identiche tra loro e identiche anche alla frequenza relativa marginale del carattere Y ). Facciamo un esempio : lanciamo contemporaneamente una moneta e un dado e registriamo l’esito T C
Calcoliamo le frequenze relative per colonna e quella marginale : T 0,50,40,70,60,50,3 C 0,50,60,30,40,50,7 x 0,5 E’ evidente che X e Y non sono indipendenti in modo assoluto, forse perché è piuttosto basso il numero dei lanci ( 60 ). L’indipendenza assoluta teorica richiederebbe una tabella così: T 0,5 C
La dipendenza assoluta è praticamente quasi impossibile da registrare : quasi sempre si individua una qualche forma di connessione tra i caratteri. La dipendenza tra caratteri, però, può essere più o meno accentuata e per “misurarla” si deve costruire un indice in grado di indicare se due caratteri sono “poco” o “molto” connessi. Vediamo come costruire tale indice sul caso di prima. Abbiamo la tabella delle frequenze osservate che indicheremo con o ij tot T C tot 10 60
Costruiamo ora una tabella delle frequenze teoriche attese che indichiamo con a ij. Questi valori rappresentano le frequenze assolute che si sarebbero dovute registrare nel caso ( teorico ) di indipendenza assoluta dei due caratteri. Vediamo come le costruiamo : consideriamo il valore atteso della i- esima riga e j-esima colonna a ij e calcoliamo la frequenza relativa per colonna ( a ij / somma della j-esima colonna ). Sappiamo che questo valore deve essere uguale alla frequenza marginale del primo carattere ( somma della i-esima riga / numero totale di unità statistiche ). In simboli : da cui si ottiene Il valore atteso è quindi uguale al prodotto del totale della sua riga per il totale della sua colonna fratto il totale delle unità statistiche.
Otteniamo quindi la seguente tabella dei valori teorici attesi tot T C tot Costruiamo ora le differenze tra le frequenze osservate e quelle attese. Queste differenze sono dette contingenze e si indicano con c ij = o ij - a ij T C
La somma delle contingenze, come avrai notato, è nulla. E questo non è un caso!! E’ sempre così. Per eliminare l’effetto di compensazione tra i segni + e – delle varie contingenze si calcolano i seguenti valori : c ij 2 / a ij = ( o ij – a ij ) 2 / a ij T 00,20,80,200,8 C 00,20,80,200,8 La somma di tutti questi valori misura la “distanza” tra la distribuzione congiunta che stiamo esaminando e quella teorica nel caso di assoluta indipendenza. Tale somma si definisce chi quadrato ( dal momento che è indicato con la lettera greca Χ chi elevata al quadrato ). Nel caso di indipendenza assoluta questo indice vale zero. Nel nostro caso vale 4.
Ci chiediamo : ma 4 “dice “che sono poco o molto dipendenti i nostri due caratteri? Il valore 4 non ci dice molto, confessiamolo….. Se il nostro chi quadrato è molto vicino allo zero, possiamo rispondere che i caratteri sono quasi indipendenti, ma, dal momento che l’indice chi quadrato non è limitato superiormente, non sappiamo valutare se 4 è un valore “alto” o no. Allora è meglio passare ad un altro indice che si dimostra essere sempre compreso tra 0 e 1 che ci dà indicazioni più precise. Questo indice si chiama indice di contingenza di Cramèr e si definisce così : dove n è il numero totale di unità statistiche e h rappresenta il minimo tra il numero delle righe e quello delle colonne della tabella.
Se l’indice di Cramèr è vicino allo zero, allora i caratteri sono “quasi” indipendenti, mentre se C è vicino all’uno allora i caratteri sono molto dipendenti l’uno dall’altro. Vediamo nel nostro caso : Χ 2 = 4 da cui otteniamo C = 4 / 60*(2-1) quindi C = 1/15. Allora i nostri caratteri sono molto vicino all’indipendenza, come si poteva immaginare!!!!