Riduzione dei Dati.

Slides:



Advertisements
Presentazioni simili
Analisi Fattoriale Tecnica utilizzata per studiare, riassumere e semplificare le relazioni in un insieme di variabili.
Advertisements

ANALISI FATTORIALE. Cosè lanalisi fattoriale? Statistica descrittiva Rappresentazione delle variabili in studio. Statistica confermativa vs Confermare,
Metodi Quantitativi per Economia, Finanza e Management Lezioni n°7-8.
Riduzione dei Dati. Nelle scienze sociali ci si trova molto spesso di fronte a ricerche in cui vi è una sovrabbondanza di misurazioni nel tentativo di.
Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.
I sistemi di equazioni di I grado Un sistema di equazioni DEFINIZIONE Un sistema di equazioni è un insieme di due o più equazioni, tutte nelle stesse.
Statistica descrittiva: le variabili Frequenze: tabelle e grafici Indici di posizione, di dispersione e di forma Media e varianza di dati raggruppati Correlazione.
Elaborazione delle Immagini Operatori Puntuali Luigi Cinque
Consentono di descrivere la variabilità all’interno della distribuzione di frequenza tramite un unico valore che ne sintetizza le caratteristiche.
Il metodo STATIS (L’Hermier des Plantes, 1976; Escoufier, 1983; Lavit et al., 1994) STATIS = Structuration des Tableaux A Trois IndiceS Tecnica esplorativa.
Germana Scepi Corso di Statistica Anno accademico 2016-’17 Lezione:Argomento: Gli indici di variabilità4.
Organizzazione dei dati AnnoQ [m 3 /s]
Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a
Precorso di Statistica per le Lauree Magistrali
LA STATISTICA DESCRITTIVA
Analisi monovariata: frequenze
= 2x – 3 x Definizione e caratteristiche
DALLA TABELLA DELLE OSSERVAZIONI ALLA TABELLA DELLE FREQUENZE
Lezione 2 CARATTERI DEI DATI: approfondimento (Borra-Di Ciaccio, cap
Distribuzioni limite La distribuzione normale
Variabili casuali a più dimensioni
Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a
IL METODO "MATRICIALE" DELLA FUNZIONE DI RIPARTIZIONE
GLI STRUMENTI AUSILIARI
STATISTICA Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo.
Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a
IL SISTEMA DI VALUTAZIONE DELLA PERFORMANCE della PROVINCIA DI PAVIA
DISTRIBUZIONI TEORICHE DI PROBABILITA’
L’analisi del comportamento delle imprese (seconda parte)
Analisi delle Traiettorie: Modelli di Crescita Latente (LGM)
Equazioni differenziali
Corso di Laurea in Scienze e tecniche psicologiche
APPUNTI DI STATISTICA INFERENZIALE
Intervalli di Fiducia Introduzione Intervalli di fiducia per la media – Caso varianza nota Intervalli di fiducia per la media – Caso varianza non nota.
Precorso di Statistica per le Lauree Magistrali
misure di eterogeneità
La Statistica Istituto Comprensivo “ M. G. Cutuli”
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Statistica descrittiva bivariata
ANALISI DEI GRUPPI I.
ANALISI DEI GRUPPI I.
ANALISI DELLE DISTRIBUZIONI STATISTICHE
ANALISI IN COMPONENTI PRINCIPALI
Indici di variabilità La variabilità è la ragione dell’esistenza della psicologia. Le persone hanno dei comportamenti diversi che non possono essere predetti.
Organizzazione dei dati
Momenti e valori attesi
Statistica descrittiva
Statistica Scienza che studia i fenomeni collettivi.
Impariamo a conoscere le Matrici
Statistica descrittiva bivariata
Statistica descrittiva bivariata
ANALISI DEI GRUPPI I.
ANALISI DEI GRUPPI I.
Sistemi informativi statistici
Metodi Quantitativi per Economia, Finanza e Management Lezioni n°7-8
Lettura di un test statistico (1)
ANALISI DEI DATI ANALISI FATTORIALE.
Lettura di un test statistico (1)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: le ipotesi del modello, la stima del modello.
Corso di Laurea Ingegneria Informatica Fondamenti di Informatica
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: le ipotesi del modello, la stima del modello.
ANALISI DEI GRUPPI I.
Precorso di Statistica per le Lauree Magistrali
ANALISI DEI GRUPPI I.
ANALISI DEI GRUPPI I.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9
Associazione tra due variabili
Gli Indici di Produttività di Divisia
Statistica descrittiva bivariata
Esercitazione 8 Correzione simulazione esame AMD
Transcript della presentazione:

Riduzione dei Dati

Riduzione dei Dati Nelle scienze sociali ci si trova molto spesso di fronte a ricerche in cui vi è una sovrabbondanza di misurazioni nel tentativo di comprendere meglio il fenomeno che si sta studiando. Molto spesso misurazioni differenti possono avere un denominatore comune ovvero potrebbero in effetti rappresentare manifestazioni differenti con un’origine comune.

Riduzione dei Dati Diverse tecniche e varianti ricadono sotto tale denominazione. • Analisi delle Componenti Principali • Modello di Analisi dei Fattori (Fattoriale) Le analisi statistiche di riduzione dei dati possono avere un ruolo: • esplorativo • confermativo

Analisi delle Componenti Principali Rappresentare la complessità di un fenomeno rilevato da un numero elevato p di variabili attraverso un numero ridotto di variabili (indicatori sintetici o fattori latenti) in grado di semplificare il problema pur mantenendo il più possibile la corrispondenza con la complessità dell’insieme di dati originario. Quando le p variabili sono numerose è molto difficile riuscire a cogliere le strutture esistenti nei dati. Si pone quindi il problema di sostituire le p variabili originarie con un numero k minore di variabili “artificiali” (k < p) (COMPONENTI PRINCIPALI) che garantiscono la SINTESI con la MINOR PERDITA DI INFORMAZIONE POSSIBILE.  RIDUZIONE DELL’INFORMAZIONE INDIVIDUAZIONE “DIMENSIONI LATENTI” (ricerca di raggruppamenti di variabili fortemente correlate rappresentabili da un singola variabile non osservabile)

Matrice dei dati Matrice dei dati, unità  variabili   Matrice dei dati, unità  variabili xis rappresenta la determinazione della s-esima variabile quantitativa osservata sull’i-esima unità statistica (i=1,.., n; s=1,…, p). variabile s unità n

Matrice dei dati

Analisi delle Componenti Principali La sintesi può essere perseguita con l’ACP sostituendo le p variabili osservate con k (k<p) variabili artificiali che garantiscono la minore perdita d’informazione.   PROBLEMA: COME SCEGLIERE LE VARIABILI ARTIFICIALI CHE SINTETIZZANO, con la minor perdita d’informazione, le variabili osservate? Il problema viene risolto assumendo che le variabili artificiali siano COMBINAZIONE LINEARE delle variabili osservate. PROBLEMA: quale COMBINAZIONE LINEARE scegliere? Il CONTRIBUTO INFORMATIVO fornito da una variabile statistica è legato alla sua VARIABILITA’. Infatti una variabile statistica con ELEVATA VARIABILITA’ fornisce di solito PIU’ INFORMAZIONE di una con BASSA VARIABILITA’. Ciò accade poiché una variabile statistica con elevata variabilità tende ad essere “DISPERSA”, cioè ad assumere modalità molto differenti tra loro.

Analisi delle Componenti Principali In che modo le Componenti Principali mantengono l’informazione contenuta nella matrice dei dati e rappresentata dalla matrice di varianze e covarianze (o di correlazione)? La somma delle varianze delle variabili viene interpretata come misura della variabilità complessiva contenuta nella matrice di dati. Dalla matrice di varianze e covarianze (o di correlazione) si possono estrarre i coefficienti della combinazione lineare delle variabili (coefficienti di punteggio) che consentono di ottenere le componenti principali. Tali coefficienti di punteggio sono scelti in modo tale che la Componente Principale ottenuta come somma delle variabili originarie pesata con questi punteggi (combinazione lineare) abbia varianza massima. La somma delle varianze di tutte le Componenti Principali è uguale alla somma delle varianze delle variabili originarie. La covarianza tra due qualunque Componenti Principali è nulla. Si osserva che se le variabili originarie sono tra loro correlate, le dimensioni d’interesse sono in realtà meno di p.  

Analisi delle Componenti Principali   PUNTO DI PARTENZA   MATRICE DI VARIANZE E COVARIANZE o MATRICE DI CORRELAZIONE tra p VARIABILI rilevate su n UNITA’ PUNTO DI ARRIVO CPs =as1 X1+ as2X2 + ... + aspXp s=1,..,k MATRICE DEI COEFFICIENTI DI PUNTEGGIO DI k<p COMPONENTI PRINCIPALI. VARIANZA DI CIASCUNA COMPONENTE

Analisi delle Componenti Principali L’informazione contenuta nella matrice dei dati è rappresentata dalla matrice di varianze e covarianze o di correlazione (se le variabili sono standardizzate). X1 Xs Xp X1 Xs Xp X1 S= Xj Xp X1 R=Xj Xp

Analisi delle Componenti Principali Varianza della nuova variabile CPs in termini matriciali CPs =as1 X1+ as2X2 + ... + aspXp = a’ X (=X’a) Varianza di CPs = Varianza di (a’X) = a’Sa S matrice di varianze e covarianze di X (Var(as1X1+as2X2)=a2s1Var(X1)+a2s2Var(X2)+2as1as2Cov(X1, X2) se p=2) Problema: determinare il vettore a tale che a’Sa sia massima La soluzione fornisce: - la varianza di CPs =ls=Varianza(CPs) (s-mo autovalore in ordine decrescente di S che soddisfa Sa=lsa. Var(CPs)= a’Sa = a’lsa =ls a’a=ls se a’a=1) - il vettore as (as1 as2 asp) dei coefficienti della s-ma combinazione lineare (s-mo autovettore di S)

Analisi delle Componenti Principali X1 Xs Xp CP1 CPs CPp X1 Xj Xp = S CP1 CPj CPp La stessa proporzione di varianza totale è spiegata da un numero minore di variabili    l1=Varianza(CP1), … lj=Varianza(CPj) proporzione (percentuale) di varianza spiegata dalla v-ma o prime k CP

Analisi delle Componenti Principali CPs =as1 X1+ as2X2 + ... + aspXp = a’ X (=X’a)

Analisi delle Componenti Principali CPs =as1 X1+ as2X2 + ... + aspXp = a’ X (=X’a)

   X1 X2 X3 X4 X5 X6 X7

Y1=CP1=0. 196(sicuro)+0. 204(deciso)+0. 2(forte)+0. 212(socievole)+0 Y1=CP1=0.196(sicuro)+0.204(deciso)+0.2(forte)+0.212(socievole)+0.096(preciso)+ +0.111(metodico)+0.22(attivo)   Y2=CP2=-0.207(sicuro)-0.241(deciso)-0.15(forte)-0.002(socievole)+0.526(preciso)+ +0.492(metodico)+0.069(attivo)

Scelta numero componenti -Tutte le componenti principali a cui corrisponde varianza (autovalore) > 1 -Ispezione grafica dello Scree-Plot (grafico decrescente delle varianze) -Tutte le componenti principali fino al raggiungimento di una quota percentuale (fissata) di variabilità spiegata

Scelta numero componenti Varianza totale associata alle prime due componenti

Scelta numero componenti Si scelgono 2 componenti

Interpretazione delle componenti Coefficienti di punteggio delle componenti Coefficienti di correlazione tra Componenti Principali e Variabili Originarie Interpretazione geometrica delle componenti principali Interpretazione semantica delle componenti principali Valenza descrittivo-esplorativa delle componenti principali  

Interpretazione delle componenti estroversione coscienziosità Combinazioni lineari CP1= 0.196(sicuro)+0.204(deciso)+0.2(forte)+0.212(socievole)+0.096(preciso)+ 0.111(metodico)+0.22(attivo) CP2= -0.207(sicuro)-0.241(deciso)-0.15(forte)-0.002(socievole)+0.526(preciso)+ 0.492(metodico)+0.069(attivo)

CP1= 0. 196(sicuro)+0. 204(deciso)+0. 2(forte)+0. 212(socievole)+0 CP1= 0.196(sicuro)+0.204(deciso)+0.2(forte)+0.212(socievole)+0.096(preciso)+ 0.111(metodico)+0.22(attivo) CP2= -0.207(sicuro)-0.241(deciso)-0.15(forte)-0.002(socievole)+0.526(preciso)+ 0.492(metodico)+0.069(attivo)

Grafico componenti Componente 2 Componente 1 preciso metodico attivo 1,0 preciso metodico 0,5 attivo Componente 2 0,0 socievole forte sicuro deciso -0,5 -1,0 -1,0 -0,5 0,0 0,5 1,0 Componente 1

coscienziosità estroversione