L’Analisi delle Corrispondenze. Obiettivi: Rappresentazione graficaRappresentazione grafica SintesiSintesi della struttura di associazione tra due (o.

Slides:



Advertisements
Presentazioni simili
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
Advertisements

Equazione e grafico Per gli alunni delle terze classi
Sistema di riferimento sulla retta
LA VARIABILITA’ IV lezione di Statistica Medica.
STATISTICA DESCRITTIVA
Capitolo 8 Sistemi lineari.
Autovalori e autovettori
COORDINATE POLARI Sia P ha coordinate cartesiane
LE MATRICI.
Variabili casuali a più dimensioni
Definizione e caratteristiche
Descrizione dei dati Metodi di descrizione dei dati
CLUSTER ANALYSIS Insieme di tecniche con l’obiettivo di unire le unità di un insieme statistico in un numero finito di classi o gruppi i quali devono.
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Teoria e Tecniche del Riconoscimento
RICHIAMI ELEMENTARI DI ALGEBRA MATRICIALE
MODELLO DI REGRESSIONE LINEARE MULTIPLA
Esempio – Manipolatore Antropomorfo
Sistemi di equazioni lineari
Ricerca di minimi e massimi di funzioni
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
Metodi statistici per l'analisi del cambiamento 5/3/ Notazione (simboli) Obbiettivo: occorre che si mantengano le tracce, in merito al punteggio,
Corso di Chimica Fisica II 2013 Marina Brustolon
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Analisi delle corrispondenze
Analisi dei gruppi – Cluster Analisys
Geometria analitica Gli assi cartesiani Distanza di due punti
Spazi vettoriali astratti Somma e prodotto di n-ple Struttura di R n.
Regressione Logistica
MOMENTI DI SECONDO ORDINE
ARRAY MULTIDIMENDIONALI
Corso di POPOLAZIONE TERRITORIO E SOCIETA’ 1 AA
ANALISI FATTORIALE. Cosè lanalisi fattoriale? Statistica descrittiva Rappresentazione delle variabili in studio. Statistica confermativa vs Confermare,
Corso di POPOLAZIONE TERRITORIO E SOCIETA 1 AA LEZIONE 6.
Le rappresentazioni grafiche
LA PARABOLA.
INDICE I VALORI MEDI LA MEDIA GEOMETRICA LA MEDIA ARITMETICA
Vettori dello spazio bidimensionale (R 2)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Vettori A B VETTORE è un segmento orientato caratterizzato da: C D
Gli indici di dispersione
Le rappresentazioni grafiche
ATTIVITÀ PIANO LAUREE SCIENTIFICHE Laboratorio di Statistica
Accenni di analisi monovariata e bivariata
Come analizzare una tabella di contingenza quando il valore del chi quadrato è significativo Analisi dei residui con un esempio reale: Studenti universitari.
Claudio Arbib Università dell’Aquila Ricerca Operativa Metodo del simplesso per problemi di distribuzione single-commodity.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
UNIVERSITA’ DEGLI STUDI DI PERUGIA
MATEMATICA PER L’ECONOMIA e METODI QUANTITATIVI PER LA FINANZA a. a
Definizione Si dice che la variabile z è una funzione reale di due variabili x e y, nell’insieme piano D, quando esiste una legge di natura qualsiasi che.
Accenni di analisi monovariata e bivariata
ANALISI E INTERPRETAZIONE DATI
STATISTICHE DESCRITTIVE
TRATTAMENTO STATISTICO DEI DATI ANALITICI
analisi bidimensionale #2
Le funzioni matematiche e il piano cartesiano
I GRAFICI – INPUT 1.
DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni.
La circonferenza e l’ellisse La sezione conica è l’intersezione di un piano con un cono. La sezione cambia a seconda dell’inclinazione del piano. Se il.
Sistemi di equazioni lineari. Sistemi di primo grado di due equazioni a due incognite Risolvere un sistema significa trovare la coppia di valori x e y.
Accenni di analisi monovariata e bivariata. ANALISI MONOVARIATA Analisi delle informazioni ricavabili da una variabile alla volta, prescindendo dalle.
1 LA STATISTICA DESCRITTIVA Docente prof.sa Laura Mercuri.
Geometria analitica Gli assi cartesiani Distanza di due punti
Luoghi di punti In geometria il termine
La distribuzione normale. Oltre le distribuzioni di frequenza relative a un numero finito di casi si possono utilizzare distribuzioni con un numero di.
L’analisidei dati L’analisi dei dati Analisi mutlidimensionali: Analisi delle corrispondenze multiple Cluster Analysis.
Analisi delle osservazioni
Multidimensionale dei Dati
Multidimensionale dei Dati
Transcript della presentazione:

L’Analisi delle Corrispondenze

Obiettivi: Rappresentazione graficaRappresentazione grafica SintesiSintesi della struttura di associazione tra due (o più) variabili qualitative Struttura dei dati: La tabella di contingenza L’Analyse des Correpondence (J.P. Benzécri, 1973)

Profili dei Prodotti per Classe di Età Profili delle Classi di Età per Prodotto Rappresentazioni grafiche per tabelle di contingenza (M. Greenacre, 1984)

I PROFILI L’analisi delle corrispondenze lavora sulle distribuzioni condizionate (di riga e di colonna) all’interno di una tabella di contingenza. Queste distribuzioni sono chiamate profili (rispettivamente di riga e di colonna) Profili del prodotto per classi di età (G=giovani; A=adulti; V=anziani) A B C DE GG G G G A A A A AV V V VV V GA Profili delle classi di età per prodotto (G=giovani; A=adulti; V=anziani)

Rappresentazione dei profili nel simplesso GIOVANE [0 0 1] [1 0 0] [0 1 0] Triangolo equilatero (simplesso) ADULTO ANZIANO I p profili di m elementi sono rappresentati da punti in uno spazio m- dimensionale. Poiché la somma degli elementi è 1, i punti giacciono in uno spazio (m-1)-dimensionale, detto simplesso, ottenuto congiungendo a coppie gli m vertici dei vettori unitari sugli m assi perpendicolari I punti unitari sono i vertici del simplesso Il sistema di coordinate nel simplesso è detto baricentrico Caso particolare è quando le coordinate sono 3: il simpesso è un triangolo equilatero. Il sistema è detto di coordinate triangolari BA C D E media ANZIANO ADULTOGIOVANE E 0,7 0,2 0,1

Lettura di una rappresentazione in coordinate triangolari La posizione dei punti profilo dipende dai valori del profilo, in relazione ai vertici All’interno del triangolo equilatero, un punto profilo si troverà più vicino ai vertici il cui elemento corrispondente è grande La posizione dei punti profilo può essere vista come una media ponderata della posizione dei vertici profilo [a b c] con a+b+c=1 posizione del profilo = (a  vertice 1) + (b  vertice 2) + (c  vertice 3) Esempio: prodotto E posizione di E = (0,7  giovane) + (0,1  adulto) + (0,2  anziano) Esempio: prodotto medio (distribuzione marginale) medio = (0,45  giovane) + (0,4  adulto) + (0,15  anziano) ANZIANO ADULTOGIOVANE E 0,7 0,2 0,1

Il profilo riga medio non è solo il centroide dei 3 vertici del simplesso ma è anche il centroide dei 5 profili stessi, pesati proporzionalmente al numero di rispondenti che rispondono a quel profilo-riga. Il sistema di pesi è quindi costituito dal vettore medio (distribuzione marginale) dei profili-colonna.

L’inerzia di una tabella di contingenza è      n La statistica     i  j (f ij - f i. f.j ) 2 /f i. f.j misura la discrepanza tra le frequenze osservate e attese sotto l’ipotesi di indipendenza in una tabella di contingenza il   misura anche la lontananza di un profilo (riga o colonna) dal suo profilo medio     i f i.  j 1/f.j (f ij /f i. - f.j ) 2 =  j f.j  i 1/f i. (f ij /f i. - f i. ) 2 la nozione di lontananza suggerisce la definizione di una distanza fra profili: Inerzia e distanza del   Distanza del  2

la distanza euclidea è quella che si assume implicitamente fra due punti i e i’: d 2 2 (i,i’)=  j (x ij - x i’j ) 2 la distanza del   differisce da quella euclidea poiché ciascuna distanza è divisa per la radice quadrata del corrispondente elemento del profilo medio: d   (i,i’)=  j (1/  f.j )(f ij /f i. - f i’j /f i’. ) 2 poiché f.j  1, la trasformazione ingrandisce il valore delle coordinate, in particolare di quelle coordinate relative a modalità rare Distanza del  2 - 1

L’inerzia (  2 =   /n  ) può essere riscritta come la media ponderata delle distanze del   fra profili (riga o colonna) e il profilo medio Inerzia (e  2 ) possono essere rappresentati geometricamente come il grado di dispersione dell’insieme di punti profilo (riga o colonna), intorno alla loro media, utilizzando l’appropriato sistema di pesi Distanza del  2 - 2

Rappresentazione in coordinate triangolari e inerzia (      n)  (da Greenacre, 1990) a b c e d            c ac a e b d c a e b d a c e bd VAGVAG VAGVAG VAGVAG VAGVAG VV VV A A A A GG GG

In genere i profili sono rappresentati da una nube di punti in uno spazio multidimensionale Per rappresentarli graficamente occorre identificare un sottospazio prossimo ai punti profilo cosicché la loro proiezione sia la migliore approssimazione (nel senso dei minimi quadrati) della nube osservata Riduzione di dimensionalità Individuare l’asse corrispondente alla direttrice di massima inerzia della nube dei punti e poi il secondo (ortogonale) e così via

Decomposizione in valori singolari di una matrice X (n,p; n>p) ECKART&YOUNG(1936) X = 1 v1v1 u1u vpvp upup  p

Ricostruzione approssimata Ricostruzione approssimata di X mediante una matrice di rango ridotto L’accuratezza dell’approssimazione di un sotto- spazio fattoriale Q-dimensionale è misurata dal tasso di inerzia:

Si dimostra che, per rappresentare gli n punti-riga: Le coordinate fattoriali è la migliore approssimazione della nube di su una retta E così via per sottospazi di dimensioni maggiori. Analogamente, per i punti colonna:

Le matrici dell’AC N (I,J) tabella di contingenza [n ij ] (i= 1, …, I; j=1, …, J) F (I,J) matrice delle frequenze relative [f ij = n ij /n ], con D I (I,I) matrice diagonale [f i. ], marginale di riga D J (J,J) matrice diagonale [f.j ], marginale di colonna D I -1 F (I,J) matrice dei profili riga F D J -1 (I,J) matrice dei profili colonna

La matrice da analizzare è la matrice dei profili riga D I -1 F L’uso della distanza del  2 si esprime nel vincolo di normalizzazione U’ D J -1 U=I Analogamente, considerando la matrice dei profili colonna FD J -1, con il vincolo V’D I -1 V=I L’AC dal punto di vista dei profili-riga (rispetto ai vertici-colonna) e quella dei profili-colonna (rispetto ai vertici-riga) sono equivalenti dal punto di vista dell’inerzia, della dimensionalità e della perdita di informazione L’AC

Le coordinate sull’  -esimo asse nei due spazi: LA TRASFORMAZIONE : LE COORDINATE FATTORIALI Da cui derivano le cosiddette formule di transizione che consentono di rappresentare i punti dello spazio delle righe nello spazio delle colonne e viceversa:

Contributi ad un asse fattoriale L’inerzia totale di una tabella misura la disomogeneità dei profili riga e dei profili colonna. Ogni riga e ogni colonna contribuiscono in relazione al loro allontanarsi dalla situazione di indipendenza, espressa dai marginali Il contributo ai singoli assi esprime l’importanza di una modalità nei confronti di del fattore. Si interpreta più facilmente in relazione all’importanza (  )  del fattore. E’ molto importante per interpretare gli assi. Per l’i-esima riga è dato da: analogamente per la j-esima colonna:

I contributi relativi (o coseni quadrati) esprimono quanto un punto è deformato dalla proiezione sull’asse fattoriale. Misurano la qualità della rappresentazione e variano fra 0 e 1 Qualche ulteriore aiuto alla lettura I punti supplementari sono righe (colonne) aggiuntive, proiettate nel sottospazio identificato dagli elementi attivi, per facilitarne l’interpretazione. I contributi relativi si calcolano anche per i punti supplementari, quelli assoluti solo per gli attivi l L*