L’Analisi delle Corrispondenze
Obiettivi: Rappresentazione graficaRappresentazione grafica SintesiSintesi della struttura di associazione tra due (o più) variabili qualitative Struttura dei dati: La tabella di contingenza L’Analyse des Correpondence (J.P. Benzécri, 1973)
Profili dei Prodotti per Classe di Età Profili delle Classi di Età per Prodotto Rappresentazioni grafiche per tabelle di contingenza (M. Greenacre, 1984)
I PROFILI L’analisi delle corrispondenze lavora sulle distribuzioni condizionate (di riga e di colonna) all’interno di una tabella di contingenza. Queste distribuzioni sono chiamate profili (rispettivamente di riga e di colonna) Profili del prodotto per classi di età (G=giovani; A=adulti; V=anziani) A B C DE GG G G G A A A A AV V V VV V GA Profili delle classi di età per prodotto (G=giovani; A=adulti; V=anziani)
Rappresentazione dei profili nel simplesso GIOVANE [0 0 1] [1 0 0] [0 1 0] Triangolo equilatero (simplesso) ADULTO ANZIANO I p profili di m elementi sono rappresentati da punti in uno spazio m- dimensionale. Poiché la somma degli elementi è 1, i punti giacciono in uno spazio (m-1)-dimensionale, detto simplesso, ottenuto congiungendo a coppie gli m vertici dei vettori unitari sugli m assi perpendicolari I punti unitari sono i vertici del simplesso Il sistema di coordinate nel simplesso è detto baricentrico Caso particolare è quando le coordinate sono 3: il simpesso è un triangolo equilatero. Il sistema è detto di coordinate triangolari BA C D E media ANZIANO ADULTOGIOVANE E 0,7 0,2 0,1
Lettura di una rappresentazione in coordinate triangolari La posizione dei punti profilo dipende dai valori del profilo, in relazione ai vertici All’interno del triangolo equilatero, un punto profilo si troverà più vicino ai vertici il cui elemento corrispondente è grande La posizione dei punti profilo può essere vista come una media ponderata della posizione dei vertici profilo [a b c] con a+b+c=1 posizione del profilo = (a vertice 1) + (b vertice 2) + (c vertice 3) Esempio: prodotto E posizione di E = (0,7 giovane) + (0,1 adulto) + (0,2 anziano) Esempio: prodotto medio (distribuzione marginale) medio = (0,45 giovane) + (0,4 adulto) + (0,15 anziano) ANZIANO ADULTOGIOVANE E 0,7 0,2 0,1
Il profilo riga medio non è solo il centroide dei 3 vertici del simplesso ma è anche il centroide dei 5 profili stessi, pesati proporzionalmente al numero di rispondenti che rispondono a quel profilo-riga. Il sistema di pesi è quindi costituito dal vettore medio (distribuzione marginale) dei profili-colonna.
L’inerzia di una tabella di contingenza è n La statistica i j (f ij - f i. f.j ) 2 /f i. f.j misura la discrepanza tra le frequenze osservate e attese sotto l’ipotesi di indipendenza in una tabella di contingenza il misura anche la lontananza di un profilo (riga o colonna) dal suo profilo medio i f i. j 1/f.j (f ij /f i. - f.j ) 2 = j f.j i 1/f i. (f ij /f i. - f i. ) 2 la nozione di lontananza suggerisce la definizione di una distanza fra profili: Inerzia e distanza del Distanza del 2
la distanza euclidea è quella che si assume implicitamente fra due punti i e i’: d 2 2 (i,i’)= j (x ij - x i’j ) 2 la distanza del differisce da quella euclidea poiché ciascuna distanza è divisa per la radice quadrata del corrispondente elemento del profilo medio: d (i,i’)= j (1/ f.j )(f ij /f i. - f i’j /f i’. ) 2 poiché f.j 1, la trasformazione ingrandisce il valore delle coordinate, in particolare di quelle coordinate relative a modalità rare Distanza del 2 - 1
L’inerzia ( 2 = /n ) può essere riscritta come la media ponderata delle distanze del fra profili (riga o colonna) e il profilo medio Inerzia (e 2 ) possono essere rappresentati geometricamente come il grado di dispersione dell’insieme di punti profilo (riga o colonna), intorno alla loro media, utilizzando l’appropriato sistema di pesi Distanza del 2 - 2
Rappresentazione in coordinate triangolari e inerzia ( n) (da Greenacre, 1990) a b c e d c ac a e b d c a e b d a c e bd VAGVAG VAGVAG VAGVAG VAGVAG VV VV A A A A GG GG
In genere i profili sono rappresentati da una nube di punti in uno spazio multidimensionale Per rappresentarli graficamente occorre identificare un sottospazio prossimo ai punti profilo cosicché la loro proiezione sia la migliore approssimazione (nel senso dei minimi quadrati) della nube osservata Riduzione di dimensionalità Individuare l’asse corrispondente alla direttrice di massima inerzia della nube dei punti e poi il secondo (ortogonale) e così via
Decomposizione in valori singolari di una matrice X (n,p; n>p) ECKART&YOUNG(1936) X = 1 v1v1 u1u vpvp upup p
Ricostruzione approssimata Ricostruzione approssimata di X mediante una matrice di rango ridotto L’accuratezza dell’approssimazione di un sotto- spazio fattoriale Q-dimensionale è misurata dal tasso di inerzia:
Si dimostra che, per rappresentare gli n punti-riga: Le coordinate fattoriali è la migliore approssimazione della nube di su una retta E così via per sottospazi di dimensioni maggiori. Analogamente, per i punti colonna:
Le matrici dell’AC N (I,J) tabella di contingenza [n ij ] (i= 1, …, I; j=1, …, J) F (I,J) matrice delle frequenze relative [f ij = n ij /n ], con D I (I,I) matrice diagonale [f i. ], marginale di riga D J (J,J) matrice diagonale [f.j ], marginale di colonna D I -1 F (I,J) matrice dei profili riga F D J -1 (I,J) matrice dei profili colonna
La matrice da analizzare è la matrice dei profili riga D I -1 F L’uso della distanza del 2 si esprime nel vincolo di normalizzazione U’ D J -1 U=I Analogamente, considerando la matrice dei profili colonna FD J -1, con il vincolo V’D I -1 V=I L’AC dal punto di vista dei profili-riga (rispetto ai vertici-colonna) e quella dei profili-colonna (rispetto ai vertici-riga) sono equivalenti dal punto di vista dell’inerzia, della dimensionalità e della perdita di informazione L’AC
Le coordinate sull’ -esimo asse nei due spazi: LA TRASFORMAZIONE : LE COORDINATE FATTORIALI Da cui derivano le cosiddette formule di transizione che consentono di rappresentare i punti dello spazio delle righe nello spazio delle colonne e viceversa:
Contributi ad un asse fattoriale L’inerzia totale di una tabella misura la disomogeneità dei profili riga e dei profili colonna. Ogni riga e ogni colonna contribuiscono in relazione al loro allontanarsi dalla situazione di indipendenza, espressa dai marginali Il contributo ai singoli assi esprime l’importanza di una modalità nei confronti di del fattore. Si interpreta più facilmente in relazione all’importanza ( ) del fattore. E’ molto importante per interpretare gli assi. Per l’i-esima riga è dato da: analogamente per la j-esima colonna:
I contributi relativi (o coseni quadrati) esprimono quanto un punto è deformato dalla proiezione sull’asse fattoriale. Misurano la qualità della rappresentazione e variano fra 0 e 1 Qualche ulteriore aiuto alla lettura I punti supplementari sono righe (colonne) aggiuntive, proiettate nel sottospazio identificato dagli elementi attivi, per facilitarne l’interpretazione. I contributi relativi si calcolano anche per i punti supplementari, quelli assoluti solo per gli attivi l L*