Esame di Analisi Multivariata dei Dati

Slides:

Advertisements

Presentazioni simili

- le Medie la Moda la Mediana

Advertisements

Equazioni e calcoli chimici

Come organizzare i dati per un'analisi statistica al computer?

ESERCITAZIONE L’analisi Fattoriale.

Determinanti del primo ordine

COORDINATE POLARI Sia P ha coordinate cartesiane

6. Catene di Markov a tempo continuo (CMTC)

1 la competenza alfabetica della popolazione italiana CEDE distribuzione percentuale per livelli.

L’Analisi Fattoriale (PCA) con SPSS

Lez. 3 - Gli Indici di VARIABILITA’

Introduzione all’analisi fattoriale

Analisi Fattoriale Tecnica utilizzata per studiare, riassumere e semplificare le relazioni in un insieme di variabili.

Analisi Fattoriale Esplorativa

esponente del radicando

Algebra delle Matrici.

Analisi di covarianza L'analisi di covarianza è un'analisi a metà strada tra l'analisi di varianza e l'analisi di regressione. Nell'analisi di covarianza.

Analisi di covarianza L'analisi di covarianza è un'analisi a metà strada tra l'analisi di varianza e l'analisi di regressione. Nell'analisi di covarianza.

Analisi fattoriale L’analisi fattoriale è un procedimento matematico-statistico che, partendo dalle risposte date da un gruppo di soggetti ad una serie.

ANALISI DELLA COVARIANZA

ANALISI FATTORIALE E PSICOLOGIA

6. Catene di Markov a tempo continuo (CMTC)

Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.

Analisi fattoriale Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.

Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.

Inferenza statistica per un singolo campione

INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)

DIFFERENZA TRA LE MEDIE

Processi Aleatori : Introduzione – Parte I

8. Reti di Code Nella maggior parte dei processi produttivi risulta troppo restrittivo considerare una sola risorsa. Esempio: linea tandem arrivi 1 v.

1 Corso di Laurea in Biotecnologie Informatica (Programmazione) Problemi e algoritmi Anno Accademico 2009/2010.

MATLAB. …oggi… Programmare in Matlab Programmare in Matlab Funzioni Funzioni Cicli Cicli Operatori relazionali Operatori relazionali Indipendenza lineare,

CORSO DI MODELLI DI SISTEMI BIOLOGICI LAUREA IN INGEGNERIA CLINICA E BIOMEDICA.

Il linguaggio Fortran 90: 4. Array: Vettori e Matrici

Analisi delle corrispondenze

OPERAZIONI CON TRINOMI DI II° GRADO

Lezione 8 Numerosità del campione

Num / 36 Lezione 9 Numerosità del campione.

Lezione 4 Probabilità.

Dall’analisi Fattoriale alla regressione lineare

STATISTICA PER LE DECISIONI DI MARKETING

Elementi di Informatica di base

Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.

ANALISI FATTORIALE. Cosè lanalisi fattoriale? Statistica descrittiva Rappresentazione delle variabili in studio. Statistica confermativa vs Confermare,

L’ANALISI IN COMPONENTI PRINCIPALI

1 Ly-LAB Sistema di gestione dei dati analitici di laboratorio.

Introduzione alla Regressione Lineare e alla Correlazione.

Massimo comun divisore

Lez. 3 - Gli Indici di VARIABILITA’

Metodi matematici per economia e finanza. Prof. F. Gozzi

Scomposizione della devianza

Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.

Analisi Fattoriale Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.

Dall’Analisi Fattoriale alla Regressione Lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n° 11.

OPERAZIONI CON TRINOMI DI II° GRADO

Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a

Esame di Analisi Multivariata dei Dati

Esame di Analisi Multivariata dei Dati

ANALISI DEI DATI STATISTICI

1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati Introduzione all’analisi fattoriale.

Corso di Laurea in Scienze e Tecniche psicologiche

Analisi Multivariata dei Dati

Corso di Laurea in Scienze e tecniche psicologiche

1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati General linear model e mixed.

Metodi Quantitativi per Economia, Finanza e Management Lezioni n°7-8.

Corso di Laurea in Scienze e tecniche psicologiche

Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.

Riduzione dei Dati. Nelle scienze sociali ci si trova molto spesso di fronte a ricerche in cui vi è una sovrabbondanza di misurazioni nel tentativo di.

Analisi delle osservazioni

Transcript della presentazione:

Esame di Analisi Multivariata dei Dati Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati Introduzione all’analisi fattoriale. A cura di Matteo Forgiarini

L’analisi fattoriale è una tecnica di analisi multivariata solitamente impiegata per: semplificare e ridurre la quantità di informazioni di cui si dispone su un determinato oggetto di studio; le informazioni vengono infatti sintetizzate per poter essere comprese e gestite in modo più agevole. Individuare le dimensioni latenti – spesso chiamate fattori o componenti – sottostanti all’insieme di variabili osservato. Tali scopi sono strettamente legati e vengono raggiunti mediante l’individuazione dei fattori comuni e delle saturazioni che indicano la “forza” del legame tra le variabili osservate e i fattori individuati. Per portare a temine correttamente una analisi fattoriale occorre eseguire differenti tipologie di analisi; Dopo avere compreso la natura dei dati di cui si dispone e avere fissato gli obiettivi dell’analisi, è possibile riassumere le operazioni da svolgere in 2 macro steps: estrarre i fattori; interpretare la soluzione ottenuta.

Utilizziamo il file “Adjective list”. Il file contiene i dati relativi ad una ricerca effettuata per identificare 5 tratti di personalità mediante un questionario auto-compilato; il questionario è stato strutturato con lo scopo di raccogliere i punteggi su una scala da 0 a 10 indicanti, relativamente alle qualità espresse da ogni aggettivo, il possesso che i soggetti si riconoscono di tali qualità. Scopo della ricerca è quindi individuare le dimensioni latenti sottostanti – i fattori – che semplificano, riassumono e permettono di spiegare i punteggi osservati sulle 25 variabili. Il questionario è stato sottoposto a 300 soggetti; il file risulta quindi formato da una matrice 300 X 25: ogni riga contiene i punteggi di un soggetto per tutte le 25 variabili. Ogni colonna contiene i punteggi di una variabile per tutti i 300 soggetti. La variabile genere discrimina i soggetti maschi (1) dai soggetti di genere femminile (0).

Estrazione dei fattori Per estrarre i fattori latenti scegliamo il metodo delle “componenti principali” (Principal Component Analysis): tale metodo a partire da un numero N di variabili osservate, permette di individuare N componenti latenti ortogonali tra loro; l’insieme delle N componenti individuate permette di riprodurre interamente la matrice di varianza-covarianza delle variabili osservate.

Le componenti principali sono estratte in modo tale massimizzare la proporzione di varianza spiegata; ogni componente spiega la massima parte della varianza delle N variabili che non è ancora stata spiegata dalle componenti precedentemente estratte. La varianza spiegata da ogni componente è chiamata autovalore della componente. Risulta interessante analizzare il grafico della serie di autovalori (Scree-plot) associati ad ogni componente estratta. Come detto ogni componente è estratta in modo tale da massimizzare la varianza spiegata dalla componente rispetto alla varianza totale delle N variabili osservate. Pertanto gli autovalori hanno valore decrescente in quanto ogni componente spiega una quantità di varianza osservata necessariamente minore rispetto alle precedenti componenti estratte. In caso contrario la componente sarebbe stata estratta ad un passo precedente (!)

Selezionare l’opzione scree-plot per ottenere il grafico degli autovalori. Come vedremo, inizialmente vengono estratte le componenti con autovalore>1.

Selezionare questa opzione in modo tale che negli output le variabili siano ordinate in ordine decrescente rispetto alle saturazioni.

Riportiamo la sintassi di SPSS relativa al modello analizzato: FACTOR /VARIABLES v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 v12 v13 v14 v15 v16 v17 v18 v19 v20 v21 v22 v23 v24 v25 /MISSING LISTWISE /ANALYSIS v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 v12 v13 v14 v15 v16 v17 v18 v19 v20 v21 v22 v23 v24 v25 /PRINT INITIAL EXTRACTION /FORMAT SORT /PLOT EIGEN /CRITERIA MINEIGEN(1) ITERATE(25) /EXTRACTION PC /ROTATION NOROTATE /METHOD=CORRELATION .

Analisi degli output L’analisi degli autovalori delle componenti viene utilizzata per determinare il numero dei fattori adeguato a spiegare l’insieme delle variabili osservate. Infatti occorre escludere dal modello le componenti che presentano un autovalore minore di 1: tale componente infatti permetterebbe di spiegare una quantità di varianza inferiore alla varianza di una variabile; ricordiamo che utilizzando la PCA, la matrice di varianza-covarianza osservata presenta tutti 1 sulla diagonale principale (le variabili vengono standardizzate, pertanto hanno media=0 e varianza=1) e le componenti estratte riproducono l’intera varianza delle variabili osservate. Una componente avente un autovalore <1 renderebbe quindi il modello meno parsimonioso, non permetterebbe di semplificare i dati osservati e renderebbe la soluzione più difficile da interpretare senza apportare un significativo vantaggio in termini di potenza esplicativa.

MINEIGEN Dal grafico risulta che le prime 8 componenti hanno un autovalore >1. Possiamo quindi escludere dal modello tutte le ultime 17 componenti. Si noti che, come previsto dal metodo delle componenti principali, il numero di autovalori, che è pari al numero di componenti estratte, corrisponde al numero di variabili osservate. Ora, sapendo che la PCA permette di riprodurre interamente la matrice di var-covar osservata, è possibile calcolare la somma di tutti gli autovalori estratti.

SCREE-TEST Tracciamo una retta interpolante i peggiori autovalori. I fattori associati agli autovalori sovrastanti la retta sono i fattori da tenere.

Tot=25 Ordine di estrazione delle componenti Valori degli autovalori estratti per ogni componente % della varianza spiegata da ogni componente rispetto alla varianza totale delle 25 variabili. λ1=3.062; varianza totale osservata= =25 X 1=25; proporzione di varianza spiegata da λ1=3.062/25=0.1224 % di varianza spiegata da λ1=0.1224 X 100=12.24. Si noti che le 25 componenti complessivamente spiegano il 100% della varianza delle variabili osservate. La somma degli autovalori è quindi pari a 25. Tot=25

Come detto, inizialmente SPSS calcola la soluzione estraendo le componenti con λ>1. In questo modello le 8 componenti estratte riproducono complessivamente il 54% della varianza delle variabili osservate. Il miglior modello ottenibile rappresenta il miglior “equilibrio” tra parsimonia del modello, interpretabilità dei fattori e capacità di riprodurre la varianza osservata. (Cfr diapositive successive.) Ora, cosa possiamo dire rispetto ad ogni singola variabile osservata? Le 8 componenti come sono legate alle variabili? E quanta varianza permettono di spiegare di ogni variabile?

In questa matrice vengono riportate le saturazioni delle 8 componenti sulle 25 variabili. Come richiesto, SPSS ordina le variabili in modo tale da mettere in evidenza le saturazioni più elevate e i gruppi di variabili massimamente spiegati da un fattore; Utilizzando il metodo della ACP, le saturazioni delle soluzioni iniziali possono essere interpretate come la correlazione tra il fattore e la rispettiva variabile.

Ora, dato che le componenti estratte sono ortogonali, è possibile calcolare la proporzione di varianza spiegata (comunalità) di ciascuna variabile sommando per riga i quadrati delle saturazioni, ovvero sommando i quadrati delle correlazioni tra la variabile e ciascuna componente. Calcoliamo la comunalità della variabile “sereno”: 0,5842 + 0,1062 + 0,1842 + 0,362 + 0,0652 + 0,1762 + 0,052 + 0,1222=0,44. Le 8 componenti riescono complessivamente a spiegare il 44% della varianza della variabile “sereno”.

In questa matrice vengono riportate le comunalità delle 25 variabili In questa matrice vengono riportate le comunalità delle 25 variabili. In particolare vengono distinte: - le comunalità calcolate sulla base delle 8 componenti selezionate: ogni valore è pari alla somma dei quadrati delle saturazioni contenute nella “component matrix” precedentemente analizzata. Come stimato precedentemente utilizzando i valori delle saturazioni, la comunalità della variabile “sereno” è pari a 0,44. - le comunalità calcolate sulla base di tutte le 25 componenti: utilizzando tutte le componenti, la PCA permette di riprodurre l’intera varianza delle variabili e di avere quindi per ogni variabile una comunalità pari ad 1.

Continuiamo l’analisi della component matrix. Dall’analisi delle saturazioni risulta che 2 componenti su 8 hanno saturazioni elevate con una sola variabile; inoltre la variabile “progressista” risulta spiegata in maniera diffusa dalle componenti estratte. Il modello risulta quindi poco parsimonioso e i fattori non risultano facilmente interpretabili. Occorre ridurre il numero dei fattori per semplificare maggiormente i dati: utilizziamo i risultati dello scree test.

Inoltre sappiamo che le 25 variabili rappresentano 25 item misurati con lo scopo di individuare 5 tratti di personalità dei 300 soggetti. Anche da un punto di vista teorico appare quindi appropriato utilizzare 5 fattori. Eseguiamo nuovamente l’analisi imponendo che vengano estratte 5 componenti.

Riportiamo la sintassi del modello con 5 fattori: FACTOR /VARIABLES v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 v12 v13 v14 v15 v16 v17 v18 v19 v20 v21 v22 v23 v24 v25 /MISSING LISTWISE /ANALYSIS v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 v11 v12 v13 v14 v15 v16 v17 v18 v19 v20 v21 v22 v23 v24 v25 /PRINT INITIAL EXTRACTION /FORMAT SORT /PLOT EIGEN /CRITERIA FACTORS(5) ITERATE(25) /EXTRACTION PC /ROTATION NOROTATE /METHOD=CORRELATION .

Complessivamente le 5 componenti spiegano il 41,15% della varianza osservata.

Estraendo 5 fattori le variabili formano 4 gruppi; la variabile “ospitale” risulta spiegata prevalentemente dalla quinta componente Proviamo ora a calcolare la comunalità della variabile sereno: 0,5842 + 0,1062 + 0,1842 + 0,0362 + 0,0652=0,39

Notiamo che rispetto al modello con 8 componenti le comunalità sono inferiori. Per esempio la variabile “sereno”, in accordo con la stima ottenuta utilizzando le saturazioni, ha una comunalità di 0,39: le 5 componenti spiegano complessivamente il 39% della sua varianza. Nel modello con 8 componenti la comunalità della stessa variabile era pari al 44%. Estraendo 5 componenti è possibile spiegare meno varianza osservata, ma il modello permette di semplificare maggiormente i dati e di ottenere fattori più facilmente interpretabili. Vedremo nella prossima esercitazione come sia possibile ruotare la soluzione per chiarire maggiormente il significato dei fattori.

Creazione ed utilizzo dei punteggi fattoriali I punteggi fattoriali esprimono i punteggi di ogni soggetto in un fattore comune estratto; insieme alle saturazioni permettono di riprodurre i punteggi dei soggetti nelle variabili osservate: Zik=Fi1ak1 + Fi2ak2 + ... + Uik Zik è il punteggio standardizzato che il soggetto i ottiene nella variabile k; Fi1 è il punteggio fattoriale del soggetto i nel fattore 1; Ak1 è la saturazione del fattore 1 per la variabile k; Uki è il punteggio standardizzato ottenuto dal soggetto i nel fattore unico della variable k. Utilizzando i punteggi fattoriali è possibile riassumere i valori delle variabili osservate e quindi eseguire analisi dei dati più sintetiche e chiare.

Selezionare l’opzione “salva come variabili” per salvare all’interno del file di SPSS i punteggi fattoriali per ogni soggetto rispetto alle 5 componenti estratte. Selezionando questa opzione, viene visualizzata la matrice di varianza-covarianza dei punteggi fattoriali di tutte le componenti.

La matrice dei coefficient i dei punteggi fattoriali permette di ruotare la matrice delle saturazioni e di ottenere i punteggi fattoriali; I coefficienti dei punteggi fattoriali permettono di stimare attraverso il metodo della regressione i punteggi fattoriali a partire dai punteggi standardizzati nelle variabili osservate.

Notiamo come tutte le covarianze tra le componenti siano 0: in accordo con la PCA infatti, nelle soluzioni iniziali tutte le componenti e quindi anche i rispettivi punteggi fattoriali sono ortogonali.

Utilizzando la variabile “genere” è possibile verificare se esista una differenza significativa tra i maschi e le femmine nei punteggi ottenuti nel fattore 1. In questo modo ci chiediamo se i due gruppi differiscono in modo significativo nei valori espressi complessivamente nelle 9 variabili che afferiscono al fattore 1. Per eseguire questa analisi utilizziamo il Test T. Utilizziamo come variabile di gruppo la variabile “genere”; Come variabile dipendente utilizziamo la variabile che contiene i punteggi fattoriali del fattore 1.

Il test risulta significativo, possiamo pertanto concludere che i punteggi fattoriali del fattore 1 differiscono in modo significativo tra maschi e femmine. Ovvero... Possiamo concludere che i maschi e le femmine differiscono in modo significativo per quanto riguarda il fattore 1.