Riduzione dei Dati. Nelle scienze sociali ci si trova molto spesso di fronte a ricerche in cui vi è una sovrabbondanza di misurazioni nel tentativo di.

Slides:



Advertisements
Presentazioni simili
LA MEDIA STATISTICA di Zappa Giacomo.
Advertisements

Selezione delle caratteristiche - Principal Component Analysis
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
I SISTEMI LINEARI.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Capitolo 8 Sistemi lineari.
Autovalori e autovettori
METODI EQUAZIONI DIFFERENZIALI Funzioni che mettono in relazione una variabile indipendente ( es. x), una sua funzione ( es. y = f(x) ) e la.
COORDINATE POLARI Sia P ha coordinate cartesiane
LE MATRICI.
La teoria di portafoglio: cap.7-9
Analisi Fattoriale Tecnica utilizzata per studiare, riassumere e semplificare le relazioni in un insieme di variabili.
Analisi Fattoriale Esplorativa
Algebra delle Matrici.
Analisi di covarianza L'analisi di covarianza è un'analisi a metà strada tra l'analisi di varianza e l'analisi di regressione. Nell'analisi di covarianza.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
Teoria e Tecniche del Riconoscimento
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
Capitolo 9 I numeri indici
Sistemi di equazioni lineari
Corso di biomatematica lezione 6: la funzione c2
Teoria e Tecniche del Riconoscimento
Teoria e Tecniche del Riconoscimento
Teoria e Tecniche del Riconoscimento
Studente Claudia Puzzo
Analisi delle corrispondenze
Lezione 13 Equazione di Klein-Gordon Equazione di Dirac (prima parte)
Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.
ANALISI FATTORIALE. Cosè lanalisi fattoriale? Statistica descrittiva Rappresentazione delle variabili in studio. Statistica confermativa vs Confermare,
La regressione come strumento di sintesi delle relazioni tra variabili
Scomposizione della devianza
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6 Analisi Fattoriale: le ipotesi del modello e il metodo delle component principali.
Esame di Analisi Multivariata dei Dati
COSA VUOL DIRE FARE STATISTICA
La verifica d’ipotesi Docente Dott. Nappo Daniela
1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati Introduzione all’analisi fattoriale.
IL CAMPIONE.
Riassumendo: ipotesi per OLS 1.Modello lineare 2.X e Y sono frutto di osservazioni indipendenti 3.X è di rango pieno 4.I residui hanno media = 0 5.I residui.
Metodi Quantitativi per Economia, Finanza e Management Lezioni n°7-8.
Analisi discriminante lineare - contesto
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
ANALISI DEI GRUPPI I. La Cluster analysis è uno strumento di classificazione capace di scomporre una realtà complessa di osservazioni plurime in tipologie.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Assicurazioni vita e mercato del risparmio gestito Lezione 13 Modelli media varianza con N titoli.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°13.
MATEMATICA PER L’ECONOMIA e METODI QUANTITATIVI PER LA FINANZA a. a
Alcune metodiche Relazione tra consanguineità ed isonimia (Crow & Mange, 1965) F = I / 4 Metodo delle coppie ripetute (Lasker & Kaplan, 1985) Indici di.
La covarianza.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
Sistemi di equazioni lineari. Sistemi di primo grado di due equazioni a due incognite Risolvere un sistema significa trovare la coppia di valori x e y.
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
1 LA STATISTICA DESCRITTIVA Docente prof.sa Laura Mercuri.
Lezione n° 5: Esercitazione
1 DISTRIBUZIONI DI PROBABILITÁ. 2 distribu- zione che permette di calcolare le probabilità degli eventi possibili A tutte le variabili casuali, discrete.
Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.
L’analisidei dati L’analisi dei dati Analisi mutlidimensionali: Analisi delle corrispondenze multiple Cluster Analysis.
Analisi delle osservazioni
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
Il DEFF Il DEFF (Design EFFect) è l’Effetto del Piano di
Classe II a.s. 2010/2011 Prof.ssa Rita Schettino
Teoria dei Sistemi di Trasporto Tematica 4: Elementi minimi di teoria della probabilità.
ANALISI IN COMPONENTI PRINCIPALI
Riduzione dei Dati.
Transcript della presentazione:

Riduzione dei Dati

Nelle scienze sociali ci si trova molto spesso di fronte a ricerche in cui vi è una sovrabbondanza di misurazioni nel tentativo di comprendere meglio il fenomeno che si sta studiando. Molto spesso misurazioni differenti possono avere un denominatore comune ovvero potrebbero in effetti rappresentare manifestazioni differenti con un’origine comune.

Diverse tecniche e varianti ricadono sotto tale denominazione. Analisi delle Componenti Principali Modello di Analisi dei Fattori (Fattoriale) Le analisi statistiche di riduzione dei dati possono avere un ruolo: esplorativo confermativo Riduzione dei Dati

Rappresentare la complessità di un fenomeno rilevato da un numero elevato p di variabili attraverso un numero ridotto di variabili (indicatori sintetici o fattori latenti) in grado di semplificare il problema pur mantenendo il più possibile la corrispondenza con la complessità dell’insieme di dati originario. Quando le p variabili sono numerose è molto difficile riuscire a cogliere le strutture esistenti nei dati. Si pone quindi il problema di sostituire le p variabili originarie con un numero k minore di variabili “artificiali” (k < p) (COMPONENTI PRINCIPALI) che garantiscono la SINTESI con la MINOR PERDITA DI INFORMAZIONE POSSIBILE. RIDUZIONE DELL’INFORMAZIONE INDIVIDUAZIONE “DIMENSIONI LATENTI” (ricerca di raggruppamenti di variabili fortemente correlate rappresentabili da un singola variabile non osservabile) Analisi delle Componenti Principali

variabile s Matrice dei dati, unità  variabili x is rappresenta la determinazione della s-esima variabile quantitativa osservata sull’i-esima unità statistica (i=1,.., n; s=1,…, p). unità n Matrice dei dati

Analisi delle Componenti Principali La sintesi può essere perseguita con l’ACP sostituendo le p variabili osservate con k (k<p) variabili artificiali che garantiscono la minore perdita d’informazione. PROBLEMA: COME SCEGLIERE LE VARIABILI ARTIFICIALI CHE SINTETIZZANO, con la minor perdita d’informazione, le variabili osservate? Il problema viene risolto assumendo che le variabili artificiali siano COMBINAZIONE LINEARE delle variabili osservate. PROBLEMA: quale COMBINAZIONE LINEARE scegliere? Il CONTRIBUTO INFORMATIVO fornito da una variabile statistica è legato alla sua VARIABILITA’. Infatti una variabile statistica con ELEVATA VARIABILITA’ fornisce di solito PIU’ INFORMAZIONE di una con BASSA VARIABILITA’. Ciò accade poiché una variabile statistica con elevata variabilità tende ad essere “DISPERSA”, cioè ad assumere modalità molto differenti tra loro.

In che modo le Componenti Principali mantengono l’informazione contenuta nella matrice dei dati e rappresentata dalla matrice di varianze e covarianze (o di correlazione)? La somma delle varianze delle variabili viene interpretata come misura della variabilità complessiva contenuta nella matrice di dati. Dalla matrice di varianze e covarianze (o di correlazione) si possono estrarre i coefficienti della combinazione lineare delle variabili (coefficienti di punteggio) che consentono di ottenere le componenti principali. Tali coefficienti di punteggio sono scelti in modo tale che la Componente Principale ottenuta come somma delle variabili originarie pesata con questi punteggi (combinazione lineare) abbia varianza massima. La somma delle varianze di tutte le Componenti Principali è uguale alla somma delle varianze delle variabili originarie. La covarianza tra due qualunque Componenti Principali è nulla. Si osserva che se le variabili originarie sono tra loro correlate, le dimensioni d’interesse sono in realtà meno di p. Analisi delle Componenti Principali

PUNTO DI PARTENZA MATRICE DI VARIANZE E COVARIANZE o MATRICE DI CORRELAZIONE tra p VARIABILI rilevate su n UNITA’ PUNTO DI ARRIVO CPs =a s1 X1+ a s2 X a sp Xp s=1,..,k MATRICE DEI COEFFICIENTI DI PUNTEGGIO DI k<p COMPONENTI PRINCIPALI. VARIANZA DI CIASCUNA COMPONENTE Analisi delle Componenti Principali

L’informazione contenuta nella matrice dei dati è rappresentata dalla matrice di varianze e covarianze o di correlazione (se le variabili sono standardizzate). Analisi delle Componenti Principali X 1 Xs Xp X 1 S= Xj Xp X 1 R=Xj Xp

Analisi delle Componenti Principali Varianza della nuova variabile CPs in termini matriciali CPs =a s1 X1+ a s2 X a sp Xp = a’  X (=X’a) Varianza di CPs = Varianza di (a’X) = a’Sa S matrice di varianze e covarianze di X (Var( a s1 X1+a s2 X2)=a 2 s1 Var(X1)+a 2 s2 Var(X2)+2a s1 a s2 Cov(X1, X2) se p=2) Problema: determinare il vettore a tale che a’Sa sia massima CP 1 = a’ 1 X delle variabili originarie che dà luogo al massimo valore di a 1 ’Sa 1 sotto il vincolo che a’ 1 a 1 = 1 Trovare il vettore che massimizza a 1 ’Sa 1 sotto il vincolo che a’ 1 a 1 = 1equivale a trovare il vettore che rende massima la quantità a’ 1 Sa (a 1 ’a 1 -1)

dove 1 è noto come moltiplicatore di Lagrange Sa 1 = 1 a 1 (S- 1 I) a 1 =0 det (S- 1 I) =0 Quindi é un autovalore di S e la soluzione a 1 il corrispondente autovettore normalizzato La soluzione fornisce: - la varianza di CPs = s =Varianza(CPs) (s-mo autovalore in ordine decrescente di S che soddisfa Sa= s a. Var(CPs)= a’Sa = a’ s a = s a’a= s se a’a=1) - il vettore a s (a s1 a s2 a sp ) dei coefficienti della s-ma combinazione lineare (s-mo autovettore di S)

 =Varianza(CP1), … j =Varianza(CPj) Analisi delle Componenti Principali La stessa proporzione di varianza totale è spiegata da un numero minore di variabili X 1 Xs Xp CP 1 CPs CPp X 1 Xj Xp CP 1 CPj CPp = S proporzione (percentuale) di varianza spiegata dalla v-ma o prime k CP

Analisi delle Componenti Principali CPs =a s1 X1+ a s2 X a sp Xp = a’  X (=X’a)

Analisi delle Componenti Principali CPs =a s1 X1+ a s2 X a sp Xp = a’  X (=X’a)

X1X2X3X4X5 X6 X7

Y1=CP1=0.196(sicuro)+0.204(deciso)+0.2(forte)+0.212(socievole)+0.096(preciso) (metodico)+0.22(attivo) Y2=CP2=-0.207(sicuro)-0.241(deciso)-0.15(forte)-0.002(socievole)+0.526(preciso) (metodico)+0.069(attivo)

Scelta numero componenti -Tutte le componenti principali a cui corrisponde varianza (autovalore) > 1 -Ispezione grafica dello Scree-Plot (grafico decrescente delle varianze) -Tutte le componenti principali fino al raggiungimento di una quota percentuale (fissata) di variabilità spiegata

Varianza totale associata alle prime due componenti Scelta numero componenti

Si scelgono 2 componenti Scelta numero componenti

Interpretazione delle componenti Coefficienti di punteggio delle componenti Coefficienti di correlazione tra Componenti Principali e Variabili Originarie Interpretazione geometrica delle componenti principali Interpretazione semantica delle componenti principali Valenza descrittivo-esplorativa delle componenti principali

CP1= 0.196(sicuro)+0.204(deciso)+0.2(forte)+0.212(socievole)+0.096(preciso) (metodico)+0.22(attivo) Combinazioni lineari CP2= (sicuro)-0.241(deciso)-0.15(forte)-0.002(socievole)+0.526(preciso) (metodico)+0.069(attivo) coscienziosità estroversione Interpretazione delle componenti

CP2= (sicuro)-0.241(deciso)-0.15(forte)-0.002(socievole)+0.526(preciso) (metodico)+0.069(attivo) CP1= 0.196(sicuro)+0.204(deciso)+0.2(forte)+0.212(socievole)+0.096(preciso) (metodico)+0.22(attivo)

-1,0-0,50,00,51,0 Componente 1 -1,0 -0,5 0,0 0,5 1,0 Componente 2 sicuro deciso forte socievole preciso metodico attivo Grafico componenti

estroversione coscienziosità