ANALISI IN COMPONENTI PRINCIPALI

Slides:



Advertisements
Presentazioni simili
Riduzione dei Dati. Nelle scienze sociali ci si trova molto spesso di fronte a ricerche in cui vi è una sovrabbondanza di misurazioni nel tentativo di.
Advertisements

LA MISURA IN PSICOLOGIA. Scopo del corso Il corso si propone di offrire allo studente:  un’introduzione alle tematiche connesse alla misura in psicologia.
© 2015 Giorgio Porcu - Aggiornamennto 01/12/2015 I STITUTO T ECNICO SECONDO BIENNIO T ECNOLOGIE E P ROGETTAZIONE Rappresentazione dell’ Informazione Sistemi.
Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.
Statistica descrittiva: le variabili Frequenze: tabelle e grafici Indici di posizione, di dispersione e di forma Media e varianza di dati raggruppati Correlazione.
1 Simulazione Numerica dei Fenomeni di Trasporto Necessità di introduzione dei tensori  11  12  13  23  21  22 Vogliamo descrivere in un modo che.
Elaborazione delle Immagini Operatori Puntuali Luigi Cinque
Consentono di descrivere la variabilità all’interno della distribuzione di frequenza tramite un unico valore che ne sintetizza le caratteristiche.
Il metodo STATIS (L’Hermier des Plantes, 1976; Escoufier, 1983; Lavit et al., 1994) STATIS = Structuration des Tableaux A Trois IndiceS Tecnica esplorativa.
Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a
LA STATISTICA DESCRITTIVA
Cinematica Breve riepilogo che non può sostituire il programma svolto nel biennio. Verificate di essere in grado di leggerlo e comprenderlo. Prendete nota.
Analisi monovariata: frequenze
= 2x – 3 x Definizione e caratteristiche
DALLA TABELLA DELLE OSSERVAZIONI ALLA TABELLA DELLE FREQUENZE
Distribuzioni limite La distribuzione normale
Variabili casuali a più dimensioni
Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a
RISPOSTA ALL'ECCITAZIONE NON PERIODICA NEL DOMINIO DEL TEMPO
RISPOSTA ALLA ECCITAZIONE PERIODICA: SERIE DI FOURIER
L’operazionalizzazione
GLI STRUMENTI AUSILIARI
STATISTICA Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo.
Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a
L’analisi monovariata
IL SISTEMA DI VALUTAZIONE DELLA PERFORMANCE della PROVINCIA DI PAVIA
DISTRIBUZIONI TEORICHE DI PROBABILITA’
4 < 12 5 > −3 a < b a > b a ≤ b a ≥ b
L’analisi del comportamento delle imprese (seconda parte)
Analisi delle Traiettorie: Modelli di Crescita Latente (LGM)
Cluster Analysis Definizione di Classificazione: operazione concettuale condotta adottando un solo criterio (detto fondamento della divisione) per individuare.
x : variabile indipendente
Equazioni differenziali
Corso di Laurea in Scienze e tecniche psicologiche
APPUNTI DI STATISTICA INFERENZIALE
Intervalli di Fiducia Introduzione Intervalli di fiducia per la media – Caso varianza nota Intervalli di fiducia per la media – Caso varianza non nota.
misure di eterogeneità
La Statistica Istituto Comprensivo “ M. G. Cutuli”
L’analisi monovariata
I 7 strumenti della qualità
ANALISI DEI GRUPPI I.
ANALISI DEI GRUPPI I.
ANALISI DELLE DISTRIBUZIONI STATISTICHE
Momenti e valori attesi
Statistica descrittiva
L’indagine statistica
Statistica Scienza che studia i fenomeni collettivi.
I numeri relativi DEFINIZIONE. Si dicono numeri relativi tutti i numeri interi, razionali e irrazionali dotati di segno (positivo o negativo). ESEMPI Numeri.
Impariamo a conoscere le Matrici
PROCEDURA per la misura e la relativa stima
Statistica descrittiva bivariata
Statistica descrittiva bivariata
ANALISI DEI GRUPPI I.
ANALISI DEI GRUPPI I.
Metodi Quantitativi per Economia, Finanza e Management Lezioni n°7-8
Lettura di un test statistico (1)
Relazioni dirette e inverse Calcoli percentuali Sopra e sotto cento
Lettura di un test statistico (1)
Riduzione dei Dati.
ANALISI DEI GRUPPI I.
Dip. Economia Politica e Statistica
Precorso di Statistica per le Lauree Magistrali
ANALISI DEI GRUPPI I.
FUNZIONI DI DUE VARIABILI
ANALISI DEI GRUPPI I.
Ing. Maurizio Bassani LOGISTICA - Capitolo 3 - Modulo 1
Emanuele Porazzi Emanuela Foglia COPS – Quindicesima Edizione
Dip. Economia Politica e Statistica
Il questionario: progettazione e redazione II Modulo
Gli Indici di Produttività di Divisia
Transcript della presentazione:

ANALISI IN COMPONENTI PRINCIPALI

Analisi in Componenti Principali Nelle scienze sociali ci si trova molto spesso di fronte a ricerche in cui vi è una sovrabbondanza di misurazioni nel tentativo di comprendere meglio il fenomeno che si sta studiando. Molto spesso misurazioni differenti possono avere un denominatore comune ovvero potrebbero in effetti rappresentare manifestazioni differenti con un’origine comune.

Riduzione dei Dati Diverse tecniche e varianti ricadono sotto tale denominazione. • Analisi delle Componenti Principali • Modello di Analisi dei Fattori (Fattoriale) Le analisi statistiche di riduzione dei dati possono avere un ruolo: • esplorativo • confermativo

In ambito economico-aziendale, l’ACP viene impiegata per: - la sintesi di indici di bilancio aziendale – valutazione della performance aziendale sulla base di p indici di bilancio; - la sintesi di valutazioni espresse da consumatori utenti con riferimento ad un certo bene/servizio/azienda/punto vendita/etc… - la “riduzione” della dimensionalità dell’informazione preliminare all’analisi dei gruppi (segmentazione); - la valutazione sintetica di caratteristiche territoriali quali ad esempio la valutazione della qualità della vita, etc…

Analisi delle Componenti Principali Rappresentare la complessità di un fenomeno rilevato da un numero elevato p di variabili attraverso un numero ridotto di variabili (indicatori sintetici o fattori latenti) in grado di semplificare il problema pur mantenendo il più possibile la corrispondenza con la complessità dell’insieme di dati originario. Quando le p variabili sono numerose è molto difficile riuscire a cogliere le strutture esistenti nei dati. Si pone quindi il problema di sostituire le p variabili originarie con un numero k minore di variabili “artificiali” (k < p) (COMPONENTI PRINCIPALI) che garantiscono la SINTESI con la MINOR PERDITA DI INFORMAZIONE POSSIBILE.  RIDUZIONE DELL’INFORMAZIONE INDIVIDUAZIONE “DIMENSIONI LATENTI” (ricerca di raggruppamenti di variabili fortemente correlate rappresentabili da un singola variabile non osservabile)

Matrice dei dati Matrice dei dati, unità  variabili   Matrice dei dati, unità  variabili xis rappresenta la determinazione della s-esima variabile quantitativa osservata sull’i-esima unità statistica (i=1,.., n; s=1,…, p). variabile s unità n

Matrice dei dati

Analisi delle Componenti Principali La sintesi può essere perseguita con l’ACP sostituendo le p variabili osservate con k (k<p) variabili artificiali che garantiscono la minore perdita d’informazione.   PROBLEMA: COME SCEGLIERE LE VARIABILI ARTIFICIALI CHE SINTETIZZANO, con la minor perdita d’informazione, le variabili osservate? Il problema viene risolto assumendo che le variabili artificiali siano COMBINAZIONE LINEARE delle variabili osservate. PROBLEMA: quale COMBINAZIONE LINEARE scegliere? Il CONTRIBUTO INFORMATIVO fornito da una variabile statistica è legato alla sua VARIABILITA’. Infatti una variabile statistica con ELEVATA VARIABILITA’ fornisce di solito PIU’ INFORMAZIONE di una con BASSA VARIABILITA’. Ciò accade poiché una variabile statistica con elevata variabilità tende ad essere “DISPERSA”, cioè ad assumere modalità molto differenti tra loro.

Analisi delle Componenti Principali In che modo le Componenti Principali mantengono l’informazione contenuta nella matrice dei dati e rappresentata dalla matrice di varianze e covarianze (o di correlazione)? La somma delle varianze delle variabili viene interpretata come misura della variabilità complessiva contenuta nella matrice di dati. Dalla matrice di varianze e covarianze (o di correlazione) si possono estrarre i coefficienti della combinazione lineare delle variabili (coefficienti di punteggio) che consentono di ottenere le componenti principali. Tali coefficienti di punteggio sono scelti in modo tale che la Componente Principale ottenuta come somma delle variabili originarie pesata con questi punteggi (combinazione lineare) abbia varianza massima. La somma delle varianze di tutte le Componenti Principali è uguale alla somma delle varianze delle variabili originarie. La covarianza tra due qualunque Componenti Principali è nulla. Si osserva che se le variabili originarie sono tra loro correlate, le dimensioni d’interesse sono in realtà meno di p.  

Analisi delle Componenti Principali La sintesi può avvenire se le variabili originarie sono tra loro correlate, si basa sull’idea che una parte dell’informazione é ridondante Nel procedimento di sintesi diviene necessario trascurare una parte dell’informazione originaria – in ogni caso la sintesi ha senso solo se la quantità di informazione originaria che si perde è trascurabile. Le nuove variabili (componenti principali) sono combinazioni lineari delle variabili originarie, sono tra loro ortogonali ed hanno, per convenzione, media nulla. Tra tutte le possibili combinazioni lineari che possono essere formate con quel set di n valori presi da p variabili, la singola componente principale é quella che ha la massima varianza.

Più in dettaglio, l’impiego dell’analisi in componenti principali con riferimento a p variabili consente di individuare altrettante p variabili (diverse dalle prime) ognuna combinazione lineare delle p variabili di partenza.

Le componenti principali saranno: tra loro incorrelate; ordinate in ragione della loro variabilità complessiva che esse possono sintetizzare: tali che la variabilità complessiva dei due sistemi di variabili coincida

Consideriamo per semplicità le variabili originarie trasformate come scarti dalla media in cui ak è un vettore di dimensione (1xp) ed X è di dimensione (px1). Per individuare Yk è necessario porre alcuni vincoli: Lunghezza unitaria del vettore ak, cioè 2. Ortogonalità di Yk rispetto ad Yk’ (con k’ minore di k)

Procedura di ottenimento delle componenti principali L’individuazione delle componenti principali avviene attraverso la massimizzazione di Var(Y) con i vincoli di cui sopra. Consideriamo una CP e i valori che assume sulle unità osservate con SX matrice di varianza e covarianza delle X. La quantità precedente da massimizzare è uno scalare.

La massimizzazione della quantità a’Sxa, effettuata sotto il vincolo a’a=1, avviene utilizzando il metodo dei moltiplicatori di Lagrange. Si ottiene così la I CP A questo punto la ricerca della (k+1)-esima CP successiva alla k-esima avviene con la stessa procedura e con un ulteriore vincolo di ortogonalità tra le componenti.

In generale per la k-ma CP Le p componenti principali saranno

Una importante proprietà a’kSak=Var(Yk) per costruzione, quindi Poiché Var(Yh) = 𝜆h la quota della variabilità totale spiegata dalla h-ma CP è data da 𝜆h/S 𝜆k

I coefficienti 𝜆 sono chiamati autovettori e sono la soluzione del problema di massimo vincolato prima enunciato

ACP: matrice S o matrice R Abbiamo visto come l’ACP riesce a riprodurre la somma delle varianze delle variabili originarie, attraverso le p componenti. Tale procedura, applicata su S, è tuttavia appropriata solo se le variabili originarie sono espresse nella stessa unità di misura e presentano ordini medi di grandezza simili. Nella soluzione di problemi reali abbiamo spesso a che fare con variabili espresse in diversa unità di misura: che significato ha in questo caso l’espressione traccia(S)? Tale difficoltà può essere superata se si utilizzano come variabili di partenza le variabili scarto standardizzato contenute in Z.

Yk= a’kZ Questo procedimento equivale ad assumere come punto di partenza la matrice di correlazione R anziché S. Nel complesso, usando R, alcune operazioni e interpretazioni vengono semplificate: la somma delle varianze delle variabili di partenza è uguale a p; Gli elementi di a sono direttamente confrontabili in quanto non risentono della scala o dell’unità di misura delle variabili originarie.

Il valore ahk esprime la variazione della componente dovuta ad una variazione della variabile Xk, tenuti costanti i valori delle altre variabili. Sulla base dei coefficienti ahk è possibile valutare il peso relativo della variabile Xh rispetto alla k-ma componente Yk. In generale, i risultati di una ACP condotta su R sono diversi da quelli ottenuti da S e non si può passare dagli uni agli altri attraverso una semplice trasformazione di scala delle componenti.

   X1 X2 X3 X4 X5 X6 X7

Y1=CP1=0. 196(sicuro)+0. 204(deciso)+0. 2(forte)+0. 212(socievole)+0 Y1=CP1=0.196(sicuro)+0.204(deciso)+0.2(forte)+0.212(socievole)+0.096(preciso)+ +0.111(metodico)+0.22(attivo)   Y2=CP2=-0.207(sicuro)-0.241(deciso)-0.15(forte)-0.002(socievole)+0.526(preciso)+ +0.492(metodico)+0.069(attivo)

Scelta numero componenti -Tutte le componenti principali a cui corrisponde varianza (autovalore) > 1 -Ispezione grafica dello Scree-Plot (grafico decrescente delle varianze) -Tutte le componenti principali fino al raggiungimento di una quota percentuale (fissata) di variabilità spiegata

Scelta numero componenti Varianza totale associata alle prime due componenti

Scelta numero componenti Si scelgono 2 componenti

Interpretazione delle componenti Coefficienti di punteggio delle componenti Coefficienti di correlazione tra Componenti Principali e Variabili Originarie Interpretazione geometrica delle componenti principali Interpretazione semantica delle componenti principali Valenza descrittivo-esplorativa delle componenti principali  

Interpretazione delle componenti estroversione coscienziosità Combinazioni lineari CP1= 0.196(sicuro)+0.204(deciso)+0.2(forte)+0.212(socievole)+0.096(preciso)+ 0.111(metodico)+0.22(attivo) CP2= -0.207(sicuro)-0.241(deciso)-0.15(forte)-0.002(socievole)+0.526(preciso)+ 0.492(metodico)+0.069(attivo)

CP1= 0. 196(sicuro)+0. 204(deciso)+0. 2(forte)+0. 212(socievole)+0 CP1= 0.196(sicuro)+0.204(deciso)+0.2(forte)+0.212(socievole)+0.096(preciso)+ 0.111(metodico)+0.22(attivo) CP2= -0.207(sicuro)-0.241(deciso)-0.15(forte)-0.002(socievole)+0.526(preciso)+ 0.492(metodico)+0.069(attivo)

Grafico componenti Componente 2 Componente 1 preciso metodico attivo 1,0 preciso metodico 0,5 attivo Componente 2 0,0 socievole forte sicuro deciso -0,5 -1,0 -1,0 -0,5 0,0 0,5 1,0 Componente 1

coscienziosità estroversione