Esempio di estrazione delle componenti principali

Slides:



Advertisements
Presentazioni simili
Selezione delle caratteristiche - Principal Component Analysis
Advertisements

I TEST DI SIGNIFICATIVITA' IL TEST DI STUDENT
Come organizzare i dati per un'analisi statistica al computer?
ESERCITAZIONE L’analisi Fattoriale.
LA VARIABILITA’ IV lezione di Statistica Medica.
Capitolo 8 Sistemi lineari.
COORDINATE POLARI Sia P ha coordinate cartesiane
L’Analisi Fattoriale (PCA) con SPSS
Lez. 3 - Gli Indici di VARIABILITA’
Analisi Fattoriale Tecnica utilizzata per studiare, riassumere e semplificare le relazioni in un insieme di variabili.
Analisi Fattoriale Esplorativa
Algebra delle Matrici.
Descrizione dei dati Metodi di descrizione dei dati
Analisi fattoriale L’analisi fattoriale è un procedimento matematico-statistico che, partendo dalle risposte date da un gruppo di soggetti ad una serie.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
Inferenza statistica per un singolo campione
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
MODELLO DI REGRESSIONE LINEARE MULTIPLA
CONFRONTO TRA DUE MEDIE:
DISTRIBUZIONE CAMPIONARIA CONGIUNTA DI DUE VARIABILI (1)
Analisi della varianza (a una via)
Soluzione FEM di problemi parabolici
Sistemi di equazioni lineari
Corso di biomatematica lezione 4: La funzione di Gauss
Rotazione di un corpo rigido attorno ad un asse fisso
Teoria e Tecniche del Riconoscimento
Teoria e Tecniche del Riconoscimento
CORSO DI MODELLI DI SISTEMI BIOLOGICI LAUREA IN INGEGNERIA CLINICA E BIOMEDICA.
STATISTICA a.a PARAMETRO t DI STUDENT
Analisi delle corrispondenze
Analisi dei gruppi – Cluster Analisys
INTRODUZIONE A MATLAB.
METODI E CONTROLLI STATISTICI DI PROCESSO
MATRICI classe 3 A inf (a.s ).
Dall’analisi Fattoriale alla regressione lineare
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
ANALISI FATTORIALE. Cosè lanalisi fattoriale? Statistica descrittiva Rappresentazione delle variabili in studio. Statistica confermativa vs Confermare,
L’ANALISI IN COMPONENTI PRINCIPALI
Unità 6 Test parametrici e non parametrici Test per la verifica della normalità Funzione di ripartizione.
Unità 2 Distribuzioni di probabilità Misure di localizzazione Misure di variabilità Asimmetria e curtosi.
UNIVERSITÀ DI PISA FACOLTÀ DI INGEGNERIA CORSO DI LAUREA SPECIALISTICA IN INGEGNERIA INFORMATICA PER LA GESTIONE D’AZIENDA Tesi di laurea: Progettazione.
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Lez. 3 - Gli Indici di VARIABILITA’
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
OCSe-PISA e Veneto. PISA Programme for International Student Assessment ): fu avviato nel 1997 da parte dei paesi aderenti all’OCSE.
Gli indici di dispersione
La regressione II Cristina Zogmaister.
Esame di Analisi Multivariata dei Dati
Accenni di analisi monovariata e bivariata
1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati Introduzione all’analisi fattoriale.
Strumenti statistici in Excell
Il residuo nella predizione
IL CAMPIONE.
Analisi fattoriale Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°7.
La correlazione.
Metodi Quantitativi per Economia, Finanza e Management Lezioni n°7-8.
Intervallo di Confidenza Prof. Ing. Carla Raffaelli A.A:
DISEQUAZIONI DI II GRADO. Lo studio del segno di un trinomio Considerando che il coefficiente a sia sempre positivo cioè a>0 per risolvere le disequazioni.
ANALISI E INTERPRETAZIONE DATI
STATISTICHE DESCRITTIVE
La covarianza.
1 LA STATISTICA DESCRITTIVA Docente prof.sa Laura Mercuri.
Riduzione dei Dati. Nelle scienze sociali ci si trova molto spesso di fronte a ricerche in cui vi è una sovrabbondanza di misurazioni nel tentativo di.
La funzione CASUALE. Gli istogrammi.
L’analisidei dati L’analisi dei dati Analisi mutlidimensionali: Analisi delle corrispondenze multiple Cluster Analysis.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
Gli Indici di VARIABILITA’
Il DEFF Il DEFF (Design EFFect) è l’Effetto del Piano di
Transcript della presentazione:

Esempio di estrazione delle componenti principali Cinque domande di un questionario (scala di Likert da 1 molto contrario a 5 molto d’accordo) 1559 studenti delle scuole medie hanno risposto al questionario SPSS calcola le statistiche univariate e la matrice delle correlazioni

Le medie ci informano che le risposte non sono estreme, ma variano e si collocano abbastanza al centro dell’ambito delle risposte

Alcune correlazioni sono elevate Sono un buon inizio per un’analisi fattoriale

Definizione e calcolo delle comunanze Le comunanze sono, per ogni variabile osservata, la somma delle varianze comuni fra fattori e variabili osservate. La somma di queste varianze (standardizzate) vale 1, per ogni variabile

Estrazione delle comunanze Con un numero di fattori estratti uguale al numero delle variabili, le comunanze (somma dei quadrati delle saturazioni) sono uguali all’unità

La terza frase ha una correlazione negativa con il primo fattore Matrice fattoriale (correlazioni fra variabili osservate e variabili latenti) La terza frase ha una correlazione negativa con il primo fattore

Matrice fattoriale (correlazioni fra variabili osservate e variabili latenti) La somma dei quadrati delle saturazioni (1,780) è uguale alla varianza del fattore o autovalore

Con un numero di fattori estratti uguale al numero delle variabili, la somma degli autovalori è uguale alla varianza standardizzata delle variabili osservate (=N)

Che relazione c’è fra le componenti? La somma dei prodotti delle saturazioni è uguale a zero

La matrice di saturazioni fattoriali ha queste caratteristiche: Le n variabili osservate sono scomposte in n componenti (inferite o latenti) La somma dei loro quadrati per riga è uguale a 1 (= comunanza) La somma dei loro quadrati per colonna è uguale all’autovalore (o varianza del fattore) La prima componente è più elevata (e importante della sua seguente - forma canonica. La somma dei prodotti della riga r per la riga s è uguale al coefficiente di correlazione fra la variabile r e la variabile s La somma dei prodotti di una colonna s per una colonna r è uguale a zero (i fattori sono indipendenti)

La somma dei prodotti delle saturazioni della riga r e della riga s è uguale al coefficiente di correlazione fra le variabili r e s

Questo valore è la correlazione della variabile w1 e w3

Grafico delle cinque comunanze, suddivise secondo la ripartizione in cinque fattori (serie= fattore)

Grazie alla caratteristica degli autovalori (in forma canonica o ordine decrescente), si possono conservare solo le prime componenti principali, (per esempio, due) e trascurare le altre

Estrazione di un numero inferiori di fattori, per esempio due

Con due fattori estratti… le comunanze sono inferiori a 1, poiché si trascura la varianza associata con i fattori di minore importanza

Con due fattori estratti, si conserva l’informazione rilevante sulle prime due componenti

Con due fattori estratti, si possono rappresentare graficamente le saturazioni sui primi due fattori

Vedere parte 2a

I due fattori non sono molto comprensibili I due fattori non sono molto comprensibili. Però possono essere modificati, per renderli interpretabili

I fattori possono essere trasformati , senza perdita di informazione

… In questa direzione, per rendere le saturazioni fattoriali alte su un fattore e nulle sugli altri

Ecco il risultato finale

La trasformazione imposta ai due fattori si chiama rotazione ortogonale I valori della trasformazione hanno raramente senso per l’interpretazione. Sono però stampati da SPSS

coseno seno Vettore unitario Angolo di rotazione Kaiser è l’autore che ha proposto la rotazione Varimax (variance Maaximum) La matrice di trasformazione contiene i seni e coseni degli angoli di rotazione

Si moltiplica la matrice non ruotata per la matrice di trasformazione

Ecco il risultato finale i due fattori sono semplici e comprensibili Accettazione del proprio corpo Armonia coi familiare (o adulti)

Grafico delle comunanze con i fattori ruotati (in azzurro le varianze dei fattori abbandonati) Comunanze originali

Grafico delle cinque comunanze, suddivise secondo la ripartizione in cinque fattori (serie= fattore)

Criterio per la rotazione ortogonale (Varimax, Kaiser, 1958) Si cerca la soluzione semplice: Una variabile dovrebbe essere molto satura di un solo fattore (r >|0,40|) avere saturazioni nulle sugli altri fattori (r  0)

Rotazione obliqua Quando la rotazione degli assi non mantiene rigidi (ortogonali) gli assi di riferimento dei fattori, si ottengono le rotazioni oblique Gli assi non restano ortogonali, i fattori non sono indipendenti fra di loro, ma le saturazioni fattoriali sono più grandi e facilitano l’interpretazione dei fattori

Esempio Revisionando il questionario sulla depressione di Beck (BDI II), si scoprì che c’erano due aspetti che partecipavano del fenomeno: il versante cognitivo-affettivo e il versante comportamentale. Non aveva senso cercare una soluzione ortogonale, (non esiste un aspetto affettivo della depressione indipendente dall’aspetto comportamentale della depressione). La soluzione è stata trovata con due fattori obliqui.

Testo del Beck Depression Inventory II

Perché si chiama rotazione obliqua Perché si chiama rotazione obliqua? Ecco un esempio di sette variabili su i primi due fattori

La rotazione ortogonale non produrrebbe una soluzione ottimale, le variabili sono troppo simili fra di loro

Le variabili sono sature di entrambi i fattori, ma i due fattori sono ora obliqui, cioè correlati fra di loro, ma si adattano meglio ai punti dei fattori

La rotazione Promax produce i fattori correlati (qui r12= 0,66) La rotazione Promax è quella più utile e consigliabile, perché si basa sulla rotazione Varimax La rotazione Promax produce i fattori correlati (qui r12= 0,66)

Spss produce anche la correlazione fra i fattori obliqui Tuttavia, in questo caso la correlazione fra i due fattori è veramente trascurabile e la soluzione fattoriale non differisce molto da quella ortogonale

Esempio iniziale, con fattori iterati e rotazione promax

Il metodo di estrazione dei fattori

Metodo di estrazione: Fattori iterati Il metodo delle componenti principali è matematicamente corretto, ma statisticamente improbabile. E’ opportuno usare un altro metodo, detto dei fattori principali o iterati.

Il metodo si basa su iterazioni: Al posto delle comunanze, si inserisce il coefficiente di correlazione multiplo di ogni variabile. Si calcolano gli autovalori e le saturazioni Si calcolano le comunanze Si sostituiscono alle stime iniziali Si ripete il ciclo, finche le saturazioni osservate sono uguali a quelle ottenute con la soluzione precedente.

Esempio applicativo Le stesse cinque variabili dell’esempio iniziale, con due fattori estratte e ruotati

Gli autovalori iniziali sono uguali alla soluzione delle componenti principali, ma quelli dei fattori sono più piccoli. Il metodo di estrazione tende a eliminare la varianza delle variabili solitarie.

Il metodo dei fattori iterati (o asse principale) evidenzia la scarsa covariazione della variabile w5 con le altre variabili dell’analisi, e per questo è più realistico (saturazioni basse)

Con due fattori estratti, cambiano molto le comunanze, soprattutto per la domanda 5

Con i Fattori iterati, non si possono ottenere tanti fattori quante sono le variabili osservate, poiché vi è una riduzione della covariazione (la matrice perde il suo rango). Ma dal punto di vista statistico è più realistico questo approccio. SPSS stampa un avviso per avvisare che l’estrazione chiederà un numero più basso di fattori

La comunanza della variabile 5 (solitaria) è sparita: non fa riferimento a nessun’altra variabile

Il metodo dei Fattori principali è da consigliare, in sostituzione di quello delle componenti principali Le differenze sono tanto più elevate quanto più piccolo è il numero di variabili osservate. A al di là delle 35 variabili osservate, le differenze fra i metodi sono minime.

Il problema del numero di fattori da estrarre Criteri validi: Scree test Analisi parallela

Lo scree-test È la rappresentazione grafica degli autovalori in forma canonica (i primi, più importanti, sono sulla sinistra del grafico) Secondo Cattell, gli autovalori connessi con i fattori reali e non casuali hanno un andamento caratteristico a caduta Quelli casuali degradano lentamente

Lo scree-test Si estraggono solo quei fattori che sono sulla linea di caduta, e si trascurano quelli che degradano lentamente

Validità dello scree-test È molto usato, è facile da utilizzare, ma non sempre è efficace e veritiero. A volte il pendìo non è individuabile con facilità

L’analisi parallela Consiste nel generare dei numeri causali, uno per ogni variabile osservata e per ogni partecipante. Si estraggono gli autovalori Si ripete la simulazione molte volte La media del primo, secondo … ennesimo autovalore servono da confronto per gli autovalori della matrice reale

Esempio con cinque simulazioni Si estraggono i 14 autovalori da una matrice di 14 variabili osservate, e si riportano sul grafico, insieme a quelli corrispondenti di cinque simulazioni, ottenute sostituendo a ciascuna risposta R di un soggetto S un dato casuale (per esempio un punto zeta. Si estraggono i fattori e si tiene conto degli autovalori. Si ripete la simulazione cinque volte, ottenendo così cinque primi, cinque secondi , cinque terzi …autovalori, da confrontare con il primo, secondo, terzo… reale.

Esempio con cinque simulazioni Autovalori fuori scala nel grafico, perché sicuramente da conservare Ambito dell’incertezza Autovalori reali più piccoli di quelli casuali, sicuramente da scartare

Validità dell’analisi parallela Funziona molto bene, anche se non è entrata completamente nell’uso. Un software (Monte Carlo PCA di Marley Watkins) è disponibile gratuitamente in rete.

Grafico degli autovalori dei dati reali e simulati In questo grafico la linea fucsia indica la media degli autovalori casuali

Secondo esempio Valori reale e medie degli autovalori casuali In questo grafico la linea fucsia indica la media degli autovalori casuali

Output del programmino di Watkins I primi due autovalori dell’esempio sono superiori ai due autovalori dei dati casuali (1,78 e 1,36) ma il terzo è inferiore (0,90), Si sceglie la soluzione a due fattori (da estrarre e ruotare) Monte Carlo PCA for Parallel Analysis Version . 08/11/2011 15.57.03 Number of variables: 5 Number of subjects: 1559 Number of replications: 100 ++++++++++++++++++++++++++++++++++++++++++++++++++++++ Eigenvalue # Random Eigenvalue Standard Dev 1 1,0723 ,0157 2 1,0323 ,0147 3 0,9984 ,0102 4 0,9681 ,0112 5 0,9289 ,0176 08/12/2011 15.57.04 ******************************************************

Il 95° percentile Il software di Witkins permette di trasformare il k-esimo autovalore tratto dai dati con il k-esimo autovalore dei dati simulati. L’autovalore dei dati reali dovrebbe essere superiore al 95% degli autovalori casuali per essere considerato rappresentativo di una dimensione latente da prendere in considerazione.

Istruzione del software Select the number of variables (3-300), subjects (100-2500), and replications (1-1000). The program then: (1) generates random normal numbers for the quantity of variables and subjects selected, (2) computes the correlation matrix, (3) performs Principal Components Analyses and calculates the eigenvalues for those variables, (4) repeats the process as many times as specified in the replications field, and (5) calculates the average and standard deviation of the eigenvalues across all replications. For stable results, replicate at least 50-100 times. Use these eigenvalues as the criteria for Horn's Parallel Analysis for the number of factors or components to retain for rotation.

Segue… Horn, J. L. (1965). A rationale and test for the number of factors in factor analysis. Psychometrika, 30, 179-185. Lautenschlager, G. J. (1989). A comparison of alternatives to conducting monte carlo analyses for determining parallel analysis criteria. Multivariate Behavioral Research, 24, 365-395. Velicer, W. F., Eaton, C. A., & Fava, J. L. (2000). Construct explication through factor or component analysis: A review and evaluation of alternative procedures for determining the number of factors or components. In R. D. Goffin & E. Helmes (Eds.), Problems and solutions in human assessment: Honoring Douglas N. Jackson at seventy (pp. 41-71). Boston: Kluwer Academic Publishers. Zwick, W. R., & Velicer, W. F. (1986). Comparison of five rules for determining the number of components to retain. Psychological Bulletin, 99, 432-442.

Riferimento bibliografico Include this reference in publications which determined the number of factors to retain using this software: Watkins, M. W. (2000). Monte Carlo PCA for Parallel Analysis [computer software]. State College, PA: Ed & Psych Associates.