Esame di Analisi Multivariata dei Dati Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati Introduzione all’analisi fattoriale. A cura di Matteo Forgiarini
L’analisi fattoriale è una tecnica di analisi multivariata solitamente impiegata per: semplificare e ridurre la quantità di informazioni di cui si dispone su un determinato oggetto di studio; le informazioni vengono infatti sintetizzate per poter essere comprese e gestite in modo più agevole. Individuare le dimensioni latenti – spesso chiamate fattori o componenti – sottostanti all’insieme di variabili osservato. Tali scopi sono strettamente legati e vengono raggiunti mediante l’individuazione dei fattori comuni e delle saturazioni che indicano la “forza” del legame tra le variabili osservate e i fattori individuati. Per portare a temine correttamente una analisi fattoriale occorre eseguire differenti tipologie di analisi; Dopo avere compreso la natura dei dati di cui si dispone e avere fissato gli obiettivi dell’analisi, è possibile riassumere le operazioni da svolgere in 2 macro steps: estrarre i fattori; interpretare la soluzione ottenuta.
Utilizziamo il file “Adjective list”. Il file contiene i dati relativi ad una ricerca effettuata per identificare 5 tratti di personalità mediante un questionario auto-compilato; il questionario è stato strutturato con lo scopo di raccogliere i punteggi su una scala da 0 a 10 indicanti, relativamente alle qualità espresse da ogni aggettivo, il possesso che i soggetti si riconoscono di tali qualità. Scopo della ricerca è quindi individuare le dimensioni latenti sottostanti – i fattori – che semplificano, riassumono e permettono di spiegare i punteggi osservati sulle 25 variabili. Il questionario è stato sottoposto a 300 soggetti; il file risulta quindi formato da una matrice 300 X 25: ogni riga contiene i punteggi di un soggetto per tutte le 25 variabili. Ogni colonna contiene i punteggi di una variabile per tutti i 300 soggetti. La variabile genere discrimina i soggetti maschi (1) dai soggetti di genere femminile (0).
Estrazione dei fattori Per estrarre i fattori latenti scegliamo il metodo delle “componenti principali” (Principal Component Analysis): tale metodo a partire da un numero N di variabili osservate, permette di individuare N componenti latenti ortogonali tra loro; l’insieme delle N componenti individuate permette di riprodurre interamente la matrice di varianza-covarianza delle variabili osservate.
Le componenti principali sono estratte in modo tale massimizzare la proporzione di varianza spiegata; ogni componente spiega la massima parte della varianza delle N variabili che non è ancora stata spiegata dalle componenti precedentemente estratte. La varianza spiegata da ogni componente è chiamata autovalore della componente. Risulta interessante analizzare il grafico della serie di autovalori (Scree-plot) associati ad ogni componente estratta. Come detto ogni componente è estratta in modo tale da massimizzare la varianza spiegata dalla componente rispetto alla varianza totale delle N variabili osservate. Pertanto gli autovalori hanno valore decrescente in quanto ogni componente spiega una quantità di varianza osservata necessariamente minore rispetto alle precedenti componenti estratte. In caso contrario la componente sarebbe stata estratta ad un passo precedente (!)
Selezionare l’opzione scree-plot per ottenere il grafico degli autovalori. Come vedremo, inizialmente vengono estratte le componenti con autovalore>1.
Selezionare questa opzione in modo tale che negli output le variabili siano ordinate in ordine decrescente rispetto alle saturazioni.
Riportiamo la sintassi di SPSS relativa al modello analizzato: FACTOR /VARIABLES v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 v12 v13 v14 v15 v16 v17 v18 v19 v20 v21 v22 v23 v24 v25 /MISSING LISTWISE /ANALYSIS v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 v12 v13 v14 v15 v16 v17 v18 v19 v20 v21 v22 v23 v24 v25 /PRINT INITIAL EXTRACTION /FORMAT SORT /PLOT EIGEN /CRITERIA MINEIGEN(1) ITERATE(25) /EXTRACTION PC /ROTATION NOROTATE /METHOD=CORRELATION .
Analisi degli output L’analisi degli autovalori delle componenti viene utilizzata per determinare il numero dei fattori adeguato a spiegare l’insieme delle variabili osservate. Infatti occorre escludere dal modello le componenti che presentano un autovalore minore di 1: tale componente infatti permetterebbe di spiegare una quantità di varianza inferiore alla varianza di una variabile; ricordiamo che utilizzando la PCA, la matrice di varianza-covarianza osservata presenta tutti 1 sulla diagonale principale (le variabili vengono standardizzate, pertanto hanno media=0 e varianza=1) e le componenti estratte riproducono l’intera varianza delle variabili osservate. Una componente avente un autovalore <1 renderebbe quindi il modello meno parsimonioso, non permetterebbe di semplificare i dati osservati e renderebbe la soluzione più difficile da interpretare senza apportare un significativo vantaggio in termini di potenza esplicativa.
MINEIGEN Dal grafico risulta che le prime 8 componenti hanno un autovalore >1. Possiamo quindi escludere dal modello tutte le ultime 17 componenti. Si noti che, come previsto dal metodo delle componenti principali, il numero di autovalori, che è pari al numero di componenti estratte, corrisponde al numero di variabili osservate. Ora, sapendo che la PCA permette di riprodurre interamente la matrice di var-covar osservata, è possibile calcolare la somma di tutti gli autovalori estratti.
SCREE-TEST Tracciamo una retta interpolante i peggiori autovalori. I fattori associati agli autovalori sovrastanti la retta sono i fattori da tenere.
Tot=25 Ordine di estrazione delle componenti Valori degli autovalori estratti per ogni componente % della varianza spiegata da ogni componente rispetto alla varianza totale delle 25 variabili. λ1=3.062; varianza totale osservata= =25 X 1=25; proporzione di varianza spiegata da λ1=3.062/25=0.1224 % di varianza spiegata da λ1=0.1224 X 100=12.24. Si noti che le 25 componenti complessivamente spiegano il 100% della varianza delle variabili osservate. La somma degli autovalori è quindi pari a 25. Tot=25
Come detto, inizialmente SPSS calcola la soluzione estraendo le componenti con λ>1. In questo modello le 8 componenti estratte riproducono complessivamente il 54% della varianza delle variabili osservate. Il miglior modello ottenibile rappresenta il miglior “equilibrio” tra parsimonia del modello, interpretabilità dei fattori e capacità di riprodurre la varianza osservata. (Cfr diapositive successive.) Ora, cosa possiamo dire rispetto ad ogni singola variabile osservata? Le 8 componenti come sono legate alle variabili? E quanta varianza permettono di spiegare di ogni variabile?
In questa matrice vengono riportate le saturazioni delle 8 componenti sulle 25 variabili. Come richiesto, SPSS ordina le variabili in modo tale da mettere in evidenza le saturazioni più elevate e i gruppi di variabili massimamente spiegati da un fattore; Utilizzando il metodo della ACP, le saturazioni delle soluzioni iniziali possono essere interpretate come la correlazione tra il fattore e la rispettiva variabile.
Ora, dato che le componenti estratte sono ortogonali, è possibile calcolare la proporzione di varianza spiegata (comunalità) di ciascuna variabile sommando per riga i quadrati delle saturazioni, ovvero sommando i quadrati delle correlazioni tra la variabile e ciascuna componente. Calcoliamo la comunalità della variabile “sereno”: 0,5842 + 0,1062 + 0,1842 + 0,362 + 0,0652 + 0,1762 + 0,052 + 0,1222=0,44. Le 8 componenti riescono complessivamente a spiegare il 44% della varianza della variabile “sereno”.
In questa matrice vengono riportate le comunalità delle 25 variabili In questa matrice vengono riportate le comunalità delle 25 variabili. In particolare vengono distinte: - le comunalità calcolate sulla base delle 8 componenti selezionate: ogni valore è pari alla somma dei quadrati delle saturazioni contenute nella “component matrix” precedentemente analizzata. Come stimato precedentemente utilizzando i valori delle saturazioni, la comunalità della variabile “sereno” è pari a 0,44. - le comunalità calcolate sulla base di tutte le 25 componenti: utilizzando tutte le componenti, la PCA permette di riprodurre l’intera varianza delle variabili e di avere quindi per ogni variabile una comunalità pari ad 1.
Continuiamo l’analisi della component matrix. Dall’analisi delle saturazioni risulta che 2 componenti su 8 hanno saturazioni elevate con una sola variabile; inoltre la variabile “progressista” risulta spiegata in maniera diffusa dalle componenti estratte. Il modello risulta quindi poco parsimonioso e i fattori non risultano facilmente interpretabili. Occorre ridurre il numero dei fattori per semplificare maggiormente i dati: utilizziamo i risultati dello scree test.
Inoltre sappiamo che le 25 variabili rappresentano 25 item misurati con lo scopo di individuare 5 tratti di personalità dei 300 soggetti. Anche da un punto di vista teorico appare quindi appropriato utilizzare 5 fattori. Eseguiamo nuovamente l’analisi imponendo che vengano estratte 5 componenti.
Riportiamo la sintassi del modello con 5 fattori: FACTOR /VARIABLES v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 v12 v13 v14 v15 v16 v17 v18 v19 v20 v21 v22 v23 v24 v25 /MISSING LISTWISE /ANALYSIS v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 v12 v13 v14 v15 v16 v17 v18 v19 v20 v21 v22 v23 v24 v25 /PRINT INITIAL EXTRACTION /FORMAT SORT /PLOT EIGEN /CRITERIA FACTORS(5) ITERATE(25) /EXTRACTION PC /ROTATION NOROTATE /METHOD=CORRELATION .
Complessivamente le 5 componenti spiegano il 41,15% della varianza osservata.
Estraendo 5 fattori le variabili formano 4 gruppi; la variabile “ospitale” risulta spiegata prevalentemente dalla quinta componente Proviamo ora a calcolare la comunalità della variabile sereno: 0,5842 + 0,1062 + 0,1842 + 0,0362 + 0,0652=0,39
Notiamo che rispetto al modello con 8 componenti le comunalità sono inferiori. Per esempio la variabile “sereno”, in accordo con la stima ottenuta utilizzando le saturazioni, ha una comunalità di 0,39: le 5 componenti spiegano complessivamente il 39% della sua varianza. Nel modello con 8 componenti la comunalità della stessa variabile era pari al 44%. Estraendo 5 componenti è possibile spiegare meno varianza osservata, ma il modello permette di semplificare maggiormente i dati e di ottenere fattori più facilmente interpretabili. Vedremo nella prossima esercitazione come sia possibile ruotare la soluzione per chiarire maggiormente il significato dei fattori.
Creazione ed utilizzo dei punteggi fattoriali I punteggi fattoriali esprimono i punteggi di ogni soggetto in un fattore comune estratto; insieme alle saturazioni permettono di riprodurre i punteggi dei soggetti nelle variabili osservate: Zik=Fi1ak1 + Fi2ak2 + ... + Uik Zik è il punteggio standardizzato che il soggetto i ottiene nella variabile k; Fi1 è il punteggio fattoriale del soggetto i nel fattore 1; Ak1 è la saturazione del fattore 1 per la variabile k; Uki è il punteggio standardizzato ottenuto dal soggetto i nel fattore unico della variable k. Utilizzando i punteggi fattoriali è possibile riassumere i valori delle variabili osservate e quindi eseguire analisi dei dati più sintetiche e chiare.
Selezionare l’opzione “salva come variabili” per salvare all’interno del file di SPSS i punteggi fattoriali per ogni soggetto rispetto alle 5 componenti estratte. Selezionando questa opzione, viene visualizzata la matrice di varianza-covarianza dei punteggi fattoriali di tutte le componenti.
La matrice dei coefficient i dei punteggi fattoriali permette di ruotare la matrice delle saturazioni e di ottenere i punteggi fattoriali; I coefficienti dei punteggi fattoriali permettono di stimare attraverso il metodo della regressione i punteggi fattoriali a partire dai punteggi standardizzati nelle variabili osservate.
Notiamo come tutte le covarianze tra le componenti siano 0: in accordo con la PCA infatti, nelle soluzioni iniziali tutte le componenti e quindi anche i rispettivi punteggi fattoriali sono ortogonali.
Utilizzando la variabile “genere” è possibile verificare se esista una differenza significativa tra i maschi e le femmine nei punteggi ottenuti nel fattore 1. In questo modo ci chiediamo se i due gruppi differiscono in modo significativo nei valori espressi complessivamente nelle 9 variabili che afferiscono al fattore 1. Per eseguire questa analisi utilizziamo il Test T. Utilizziamo come variabile di gruppo la variabile “genere”; Come variabile dipendente utilizziamo la variabile che contiene i punteggi fattoriali del fattore 1.
Il test risulta significativo, possiamo pertanto concludere che i punteggi fattoriali del fattore 1 differiscono in modo significativo tra maschi e femmine. Ovvero... Possiamo concludere che i maschi e le femmine differiscono in modo significativo per quanto riguarda il fattore 1.