La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Multidimensionale dei Dati

Presentazioni simili


Presentazione sul tema: "Multidimensionale dei Dati"— Transcript della presentazione:

1 Multidimensionale dei Dati
L’Analisi Multidimensionale dei Dati Una Statistica da vedere Analisi generale Analisi in Componenti Principali (ACP) x1 x2 x3 xj xk xp xm Analisi delle Corrispondenze (ACB e ACM)

2 Proiezione di un punto su u
Analisi Generale Metodo grafico x1 x2 x3 O Pi u=[ ] ||u||2 = = 2 ~ Pi vettore normalizzato Proiezione di un punto su u 5,65 Pi=[ ] = = Metodo analitico

3 Analisi Generale 1 2 p X(n,p) = Ridurre X (n  p numeri)
punti Mi linee xi’ Ridurre X (n  p numeri) alla conoscenza dell’ascissa (n numeri) sull’asse u (p numeri) (ORDINATA F) 1 2 p Spazio Rp (nube di n punti) MINIMI QUADRATI

4 Analisi Generale L= (l moltiplicatore) DIAGONALIZZARE
LAGRANGIANA (l moltiplicatore) L= CONDIZIONE DI ESTREMO CONDIZIONE DI MASSIMO DIAGONALIZZARE PROIETTARE gli n punti di Rp sulla retta F passante per u1 autovettore di X’X associato al più grande autovalore l1 COORDINATE degli n punti su F:

5 Analisi Generale Il piano contiene u1 DIAGONALIZZARE
APPROSSIMAZIONE PER UN PIANO PASSANTE PER L’ORIGINE Il piano contiene u1 DIAGONALIZZARE SOTTO-SPAZIO DI APPROSSIMAZIONE A q DIMENSIONI una base ortonormale del sotto-spazio vettoriale a q dimensioni che si adatta al meglio (minimi quadrati) alla nube, e’ costituita da q autovettori che corrispondono ai q piu’ grandi autovalori di

6 Analisi Generale M X(n,p) = Spazio n (nube di p punti) j
(ORDINATA G) X(n,p) = j punti Mj colonne xj ascissa su G M v H G Spazio n (nube di p punti) 2 1 n DEFINIZIONE DELL’ORDINATA G SOTTO-SPAZIO DI APPROSSIMAZIONE A q DIMENSIONI una base ortonormale del sotto-spazio vettoriale a q dimensioni che si adatta al meglio (minimi quadrati) alla nube, e’ costituita da q autovettori che corrispondono ai q piu’ grandi autovalori della matrice (n x n) simmetrica

7 Analisi Generale X Asse fattoriale ua in  p :
Asse fattoriale va in  n : RELAZIONE TRA L’APPROSSIMAZIONE IN Rp E IN Rn X (n,p) p n v1 v2 u2 u1 1 2 RELAZIONI DI TRANSIZIONE ESPRESSIONI DELLE COORDINATE SUGLI ASSI FATTORIALI n PUNTI LINEA su u: p PUNTI COLONNA su v: Nota per i calcoli 1) DIAGONALIZZARE 2) CALCOLARE E

8 Analisi Generale SU q FATTORI RICOSTRUZIONE ESATTA MA
RICOSTRUZIONE APPROSSIMATA SU q FATTORI

9 Ortogonalità dei fattori
Analisi Generale x1 x2 x3 p dimensioni necessità di più fattori di sintesi Ortogonalità dei fattori La specificazione dei vincoli Scree-test, Eigenvalue-one, % variabilità spiegata, ... La scelta del numero di fattori

10 I PASSI DELL’ACP i a x1 x2 F1 F2 O G  Traslazione del sistema nel baricentro G (centratura var.)  Rotazione nella direzione di massimo allungamento della nube Ricerca dell'asse F1 tale che Autovalore inerzia (varianza) nella direzione di max allungamento della nube Autovettore individua la giacitura dell'asse F1 (coseni direttori dell'asse ) di max allungamento Componenti principali: Equazione spettrale:

11 i i  G Evidenziano il ruolo di un elemento nella spiegazione del fattore a- esimo Misura la qualità della rappresentazione di un punto su un asse Per analizzare le prossimità tra i punti ci si interesserà di quelli con forte CR i G ua

12 Tabella individui  variabili:
Analisi in Componenti Principali (ACP) 21,1 3, ,6 x1 x2 … xp i1 i2 in : X = …... xij 15,6 8, ,2 16,4 7, ,3 Tabella individui  variabili: Le righe rappresentano gli individui e sono in genere osservazioni, oggetti, unità statistiche; Le colonne rappresentano le variabili definite da valori numerici continui; Gli angoli tra punti-variabile possono essere interpretati in termini di correlazioni tra le stesse; Le prossimità tra punti-individuo possono essere interpretate in termini di analogie di comportamento rispetto al fenomeno osservato.

13 I PASSI DELL’ACP i a x1 x2 F1 F2 O G  Traslazione del sistema nel baricentro G (centratura var.)  Rotazione nella direzione di massimo allungamento della nube

14 Analisi in Componenti Principali (ACP)
Spazio Rp Non è detto che passi per l’origine degli assi x1 x2 x3 O Analisi nello spazio centrato Ad ogni variabile si sottrae la propria media: baricentro  Traslazione del sistema nel baricentro G  Rotazione nella direzione di massimo allungamento della nube L’ACP è un’Analisi generale su variabili centrate DIAGONALIZZARE X*  X* = [covarianza]

15 Esempio ACP: i consumi alimentari
Matrice dei dati: 16 Paesi, 10 variabili continue

16 Esempio ACP: i consumi alimentari
Statistiche delle variabili continue Affinchè sia indipendente dalle unità di misura di j si ha: DIAGONALIZZARE X*  X* = [correlazione] (Analisi Generale di X)

17 Esempio ACP: i consumi alimentari
Matrice di correlazione

18 Esempio ACP: i consumi alimentari
Autovettori

19 Coordinata del BELGIO sul primo fattore
Esempio ACP: i consumi alimentari Coordinate sui nuovi assi Es.: Belgio sul primo fattore 72,2 4,2 98,8 40, ,2 20, ,0 80,0 7,7 14,2 Cere Riso Pata Zucc Verd Vino Carn Latt Burr Uova Valori iniziali 0,30 0,35 0,11 -0,44 0,45 0,37 0,12 -0,40 -0,25 -0,04 -0,42 0,03 0,66 0,63 0, ,26 0, ,05 1,48 0,96 Primo autovettore Dati standardizzati = (-0,42  0,30) + (0,03  0,35) + (0,66  0,11) + … + (0,96  -0,04) = - 0,23 Coordinata del BELGIO sul primo fattore

20 Esempio ACP: i consumi alimentari
Coordinate sui nuovi assi

21 Esempio ACP: i consumi alimentari
La variabilità sui nuovi fattori: gli autovalori

22

23 Esempio ACP: i consumi alimentari
Le coordinate nel vecchio e nel nuovo spazio

24 Esempio ACP: i consumi alimentari
L’interpretazione dei fattori: correlazioni tra variabili iniziali e componenti principali

25 Esempio ACP: i consumi alimentari
Le coordinate delle variabili

26 Esempio ACP: i consumi alimentari (note)
DISTANZA TRA VARIABILI Spazio n O j j’ punti vicini punti a distanza media punti molti distanti

27 Esempio ACP: i consumi alimentari (note)
Spazio n Proiezione delle 4 variabili Piano Fattoriale O 1 2 3 4 La nube non è centrata su 0 Un asse è una VARIABILE ARTIFICIALE combinazione lineare di p variabili {ascissa di “j” su va} (utile per l’interpretazione degli assi) FATTORE TAGLIA: se le maggior parte delle variabili sono tra loro correlate positivamente questo equivale a dire che sono simultanemante forti o deboli

28 Esempio ACP: i consumi alimentari
Le rappresentazioni grafiche: il Cerchio delle correlazioni cereali riso patate verdure vino latte zucchero burro uova carne Fattore 1 (38.9%) Fattore 2 (23.0%) -0.5 0.5 -1.0 1.0

29 Esempio ACP: i consumi alimentari
Le rappresentazioni grafiche: il Piano degli individui Fattore 1 (38.9%) Fattore 2 (23.0%) 2 1 -1 -2 -3 -3.0 -1.5 1.5 3.0 GERMANIA FRANCIA BELGIO DANIMARCA AUSTRIA OLANDA SVEZIA IRLANDA REGNO UNITO FINLANDIA ISLANDA NORVEGIA PORTOGALLO GRECIA ITALIA SPAGNA

30

31 1) 2) L’interpretazione dei fattori e1 ~ e1 e2
Un autovalore è una misura della capacità esplicativa dei singoli fattori. Il contributo assoluto esprime l’apporto informativo di ogni unità alla variabilità dell’asse. 1) O e1 2) ~ e1 e2 e2 Due punti-unità possono trovarsi vicini nello spazio di proiezione non perché lo siano nello spazio iniziale di riferimento ma solo per gli effetti distorsivi dell’operazione di proiezione

32 Una misura della qualità della rappresentazione
Il coseno al quadrato è una misura della qualità della rappresentazione dei punti-unità sul sottospazio generato dai fattori scelti: quanto più risulta prossimo ad 1 tanto più il punto avrà conservato, in proiezione, la distanza dall’origine che aveva nello spazio iniziale, e risulterà quindi ben rappresentato. e2 e1 ~ e2 O 1 2

33 Esempio i consumi alimentari

34 ACP: Un esempio “di corsa”

35 Matrice di correlazione

36 Autovalori

37 Il cerchio delle correlazioni
-0.5 0.5 -1.0 1.0 Fattore 1 (57.3%) Fattore 2 (21.2%) 100 m 200 m 400 m 800 m 1500 m 5 km 10 km Maratona

38 La rappresentazione delle unità
Fattore 1 (57.3%) Fattore 2 (21.2%) -4 -2 2 4 -1 1 Lussemburgo Grecia Ungheria Cecoslov. Danimarca. Austria. Romania. Irlanda Norvegia Portogallo Olanda Finlandia Spagna Belgio Svizzera Svezia Polonia Francia Russia Italia USA Germania Gran Bretagna

39 Analisi delle Corrispondenze (ACB)
Obiettivo: Studiare la struttura dell’associazione tra due o più variabili qualitative. L’AC presuppone che i legami tra le variabili siano di tipo simmetrico L’AC permette di decomporre una tabella a due o più entrate in una serie di fattori ciascuno dei quali rappresenta un aspetto latente del tipo di associazione presente nei dati La rappresentazione in forma grafica dei fattori consente una interpretazione semplice della struttura dell’associazione e permette di evidenziare aspetti non direttamente rilevabili alla lettura della tabella

40 I dati dell’AC Considerati due insiemi finiti I e J, non necessariamente muniti di struttura d’ordine, per convenzione indicati con {I: i 1…I} e {J: j 1…J}, una applicazione f definisce una corrispondenza tra I e J Esempi I  insieme dei trattamenti J  insieme delle malattie Xij  n° delle volte (frequenze) che il trattamento i è stato somministrato per la malattia j 1 .……...j ….….J Medicina 1 . i I Tabelle di Contingenza - Misure omogenee Dati booleani X  xij I  insieme dei settori venditori J  insieme dei settori acquirenti Xij  valore degli scambi tra i settori i e j (per le tavole input-output IJ) ma anche - Codifica disgiuntiva - Dati testuali Economia I  insieme delle stazioni di rilevazione J  insieme delle specie Xij  1 (0) presenza (assenza ) della specie j nella stazione i Ecologia

41 matrice delle frequenze relative
AC: un esempio Prodotti Consumatori F matrice delle frequenze relative

42 Il test di indipendenza
Sotto l’ipotesi di indipendenza Test di indipendenza: VALORE DEL CHI-QUADRATO = GRADI DI LIBERTA’ = P-VALUE =

43 AC: le tabelle PROFILO RIGA PROFILO COLONNA

44 AC: un esempio Comportamento atteso Comportamento atteso

45 AC: Interpretazione geometrica
Ogni profilo riga (o colonna) può essere considerato come un vettore in uno spazio multidimensionale A differenza dell’ACP, dove ciascun punto-individuo è caratterizzato da un peso costante e pari ad 1/n, nell’AC ciascun punto è munito di una massa pari al rapporto tra il rispettivo marginale ed il totale generale della tabella, così che l’informazione relativa delle singole righe e colonne sia comunque conservata 118 / 1268 c i i Baricentro La j-esima componente del profilo medio può essere ottenuta come media delle j-esime componenti degli r profili riga, ciascuna ponderata con la corrispondente massa

46 Spazi dei profili F Profili Colonna
1 … j … p 1 … i … n 1 … j … p 1 . i n 1 . i n 1 . i n Rp-1 1 F fij fi . 1 1 1 1 Dr Profili Colonna 1 … i … p 1 i : p Il vincolo di somma ad 1 per riga o colonna porta alla perdita di una dimensione nei rispettivi spazi di riferimento Dc  Rappresentazione dei profili riga e colonna in spazi di dimensioni c-1 e r-1 f. j 1 Rn-1 1 … i … p 1 . i n  Nell’ACP l’operazione di centratura (standardizzazione) viene effettuata sulle colonne della matrice di partenza Profili Colonna 1  Nell’AC le stesse trasformazioni vengono effettuate nei due spazi: le variabili giocano ruoli simmetrici

47 Autovalore Banale Caso a tre dimensioni

48 Scelta della metrica METRICA EUCLIDEA
Eccessiva importanza alle modalità con un forte campo di variazione e minor peso a quelle per le quali variazioni sono minori METRICA DEL CHI-QUADRATO

49 non si ha alcuna perdita di informazione se si aggregano modalità
Proprietà metrica chi-quadrato EQUIVALENZA DISTRIBUTIVA Il raggruppamento di due profili riga uguali o proporzionali in un unico profilo con massa pari alla somma delle masse, non altera la configurazione dei punti in Rc né la struttura delle distanze in Rr Garantisce l’invariabilità dei risultati indipendentemente da come le variabili siano state originariamente codificate non si ha alcuna perdita di informazione se si aggregano modalità non si ha alcuna guadagno di informazione se si suddividono categorie omogenee ATTENZIONE ALLE MODALITA’ CON FREQUENZE MOLTO BASSE

50 metrica del chi-quadrato sistema di pesi per le unità
AC - Calcolo dei fattori Un qualsiasi studio multidimensionale può essere definito a partire dalla tripletta (X, M, D) AC matrice dei dati matrice dei profili (riga o colonna) metrica metrica del chi-quadrato sistema di pesi per le unità masse dei punti Proiezioni degli r punti sull’asse u Obiettivo Soluzione

51 Soluzioni AC e relazioni di transizione

52 Ricostruzione matrice
Ricostruzione della matrice Ricostruzione matrice

53 Rappresentazioni

54 Rappresentazioni baricentriche

55 Rappresentazione congiunta

56

57 Rappresentazione congiunta

58 Ausili all’interpretazione

59 Ausili all’interpretazione

60 Chi-quadrato significativo
Significatività Chi- quadrato e autovalori relativi (tassi) Chi-quadrato significativo Tassi significativi

61 Alcuni casi particolari
Effetto Guttman Caso matrici a blocchi

62 esempio: le preferenze degli spettacoli
Test di indipendenza: VALORE DEL CHI-QUADRATO = GRADI DI LIBERTA’ = P-VALUE =

63 esempio: i profili riga

64 esempio: i profili colonna

65 esempio: la diagonalizzazione

66

67 esempio: contributi spettacoli

68 esempio: contributi regioni

69 Dimensioni punti proporzionali al contributo assoluto
esempio: rappresentazione congiunta Dimensioni punti proporzionali al contributo assoluto

70 esempio: rappresentazione congiunta

71 Analisi delle Corrispondenze Multiple (ACM)
E’ uno dei più importanti metodi per l’analisi di variabili qualitative o miste; Ha un vastissimo campo di applicazione e si rivela particolarmente adatta all’analisi di dati di inchiesta ed alla descrizione di tabelle di grandi dimensioni; Le righe della tabella sono in generale individui o osservazioni; Le colonne della tabella sono le modalità delle variabili nominali (o le classi di valori delle variabili continue) e rappresentano spesso le modalità di risposta relative alle domande di un questionario.

72 Codifica disgiuntiva completa
2 1 4 3 n p R = (i) sex (2) età (3) prof (4) I dati e la codifica Questionario Codifica ridotta p variabili s modalità . . . Z = s = s1+s2+…+sp s1 sp s2 f <30 m 30-50 >50 stu imp dir pen Codifica disgiuntiva completa

73 L’indagine sui laureati in Economia

74 La matrice dei dati (Codifica ridotta)

75 La matrice dei dati (Codifica disgiuntiva completa)

76 La matrice da diagonalizzare (tabella di Burt)

77 Gli autovalori – nell’ACM si usa lo scree test

78 La lettura dei risultati
1. Gli autovalori sono una misura eccessivamente pessimistica dell’effettivo potere esplicativo dei fattori individuati; 2 I fattori vanno interpretati tenendo conto dei valori dei contributi assoluti e non delle coordinate dei punti (come avveniva in ACP) i i’ Cr(i)<Cr(i’) f(i.)<f(i’.) y(i)< y(i’) Cr(i)=Cr(i’) f(i.)y2(i)= f(i’.)y2(i’)

79 ATTENZIONE alle modalità con frequenze molto basse!!!
Qualche nota n = individui; p = variabili; s = modalità z.j = freq. della j-esima modalità Numero di autovalori s - p Tassi di inerzia Distanza di una modalità dal baricentro Inerzia di una modalità con ATTENZIONE alle modalità con frequenze molto basse!!! Inerzia totale

80 Esempio In questi casi è meglio ricodificare la variabili accorpando le classi contigue

81 La tabella dei contributi

82 La lettura dei piani fattoriali
Ogni domanda del questionario (variabile) è rappresentata da tanti punti quante sono le sue modalità di risposta Il baricentro della nube dei punti (origine degli assi) è anche il baricentro delle modalità di ciascuna variabile La prossimità tra due modalità esprime una stretta connessione (interdipendenza) dei temi che esse rappresentano Le prossimità tra modalità relative a variabili attive e supplementari vanno lette in termini di dipendenza delle seconde rispetto alle prime Se le modalità di una variabile sono ordinate, si studieranno le traiettorie seguite da questi punti, le loro forme e le loro posizioni reciproche La prossimità tra punti-unità (intervistati) evidenzia una posizione simile rispetto ai temi trattati nel questionario La prossimità tra punti-modalità e punti-unità, qualora si ricorra a rappresentazioni congiunte, rivelano l’importanza che talune caratteristiche hanno nel profilo di ciascun intervistato o di gruppi di questi

83 I Laureati in Economia della Federico II
la rappresentazione grafica 110 e lode Freq. >50% Femmine Mat. quantitative 55-60 Borse/Corsi SI Abilitazione SI Mat. classica Mat. aziendali Lavoro part-time Napoli città Studente Non occupato Altro diploma Lavoro stabile <95 Occupato stabile Maschi 36-42 Altra materia Diploma tecnico Freq. <30% Borse/Corsi NO Abilitazione NO 96-105 Altre province -1.0 -0.5 0.5 1.0 Fattore 1 -0.8 0.8 0.4 -0.4 Fattore 2

84 Ausilii all’interpretazione: l’inversione degli assi e le traiettorie

85 Ausilii all’interpretazione : la densità degli individui e il voto

86 La descrizione dei fattori con i valori-test
nj Numero di soggetti che presentano la modalità j jaj ^ Coordinata della modalità j nel caso di estrazione casuale degli nj soggetti Per nj sufficientemente grande


Scaricare ppt "Multidimensionale dei Dati"

Presentazioni simili


Annunci Google