Multidimensionale dei Dati

Slides:



Advertisements
Presentazioni simili
L’Organizzazione per la cooperazione e lo sviluppo economico
Advertisements

European Union Emissions Trading Scheme (EU-ETS): Direttiva 2003/87/CE
Selezione delle caratteristiche - Principal Component Analysis
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
La storia dell’Europa.
Periodo: 1 gennaio – 31 ottobre Attività donazione Italia 1 gennaio – 31 ottobre 2001.
Unione Europea.
Analisi Fattoriale Esplorativa
Descrizione dei dati Metodi di descrizione dei dati
CLUSTER ANALYSIS Insieme di tecniche con l’obiettivo di unire le unità di un insieme statistico in un numero finito di classi o gruppi i quali devono.
Parte Ia LUnione europea. Cosè? Una struttura sovranazionale costituita da varie istituzioni che interagiscono tra loro Una sorta di proto-stato europeo.
Elementi di STATISTICA DESCRITTIVA
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
1 Giovanni Penno 09 aprile 2005 ELEMENTI DI MARKETING.
Teoria e Tecniche del Riconoscimento
MODELLO DI REGRESSIONE LINEARE MULTIPLA: USO DELLE VARIABILI DUMMY (parte 2) In alcune circostanze è opportuno inserire, come variabili esplicative, delle.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
L’Unione europea.
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Analisi delle corrispondenze
Analisi dei gruppi – Cluster Analisys
Procedure Decisionali La parte del processo di formazione di una politica con la quale le istituzioni che svolgono la funzione legislativa approvano formalmente.
Corso di POPOLAZIONE TERRITORIO E SOCIETA’ 1 AA
ANALISI FATTORIALE. Cosè lanalisi fattoriale? Statistica descrittiva Rappresentazione delle variabili in studio. Statistica confermativa vs Confermare,
Le rappresentazioni grafiche
Dr.ssa Maria Antonella Arras
Lindagine statistica (prima parte) 05/05/2014Prof.ssa Alessandra Sia.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Variabili temporali Analisi statistica
COSA VUOL DIRE FARE STATISTICA
L’analisi del contenuto Doppia funzione dell’analisi del contenuto: -Può essere un tipo di ricerca specifico -Può essere una tecnica di ricerca Come TECNICA.
1 Corso di Laurea magistrale in Psicologia Clinica, dello Sviluppo e Neuropsicologia Esame di Analisi Multivariata dei Dati Introduzione all’analisi fattoriale.
Ing. Maurizio Bassani LOGISTICA - Capitolo 3 - Modulo 1
Metodi Quantitativi per Economia, Finanza e Management Lezioni n°7-8.
1 Carlo Salvatori Banca e Finanza Università degli Studi di Parma Prof. Carlo Salvatori.
Analisi discriminante lineare - contesto
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
ANALISI DEI GRUPPI I. La Cluster analysis è uno strumento di classificazione capace di scomporre una realtà complessa di osservazioni plurime in tipologie.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Potenziamento di matematica Scoperta di un nuovo mondo.
EURODESK ITALY Padova, 11 maggio 2015 Eurodesk è dal 2014 la rete di informazione ed orientamento del nuovo programma comunitario Erasmus+ (Gioventù) ed.
DIAGNOSTICA CHIMICA PER LA AUTENTICITA’ ALIMENTARE Dott. ssa Mara Miglietta BIOTEC – AGRO C.R. Enea - Trisaia.
Esercizio 1. Quesiti esercizio 1 Distribuzione congiunta: dalla definizione di distribuzione condizionale.
Alimentazione *.
I Parte LA PRODUZIONE STATISTICA DEI DATI  Introduzione  La pianificazione  Il disegno dell’indagine  Le tecniche d’indagine  Le fasi operative 
analisi bidimensionale #2
EPG di Metodologia della ricerca e Tecniche Multivariate dei dati A.A
DEFINIRE I REQUISITI DEL CLIENTE SVILUPPARE E VALUTARE IL QUESTIONARIO IMPIEGARE IL QUESTIONARIO Dimensioni della qualità 1.Perfomance 2.Optionals 3.Affidabilità.
DIPENDENZA STATISTICA TRA DUE CARATTERI Per una stessa collettività può essere interessante studiare più caratteri presenti contemporaneamente in ogni.
L’ITALIA IN EUROPA: dati economici a confronto L’ITALIA IN EUROPA: dati economici a confronto A cura della Direzione Affari Economici e Centro Studi.
1 LA STATISTICA DESCRITTIVA Docente prof.sa Laura Mercuri.
Valutazione comparativa della disciplina di Autorizzazione Integrata Ambientale a livello europeo e nazionale: effetti sullo sviluppo industriale del Paese.
Riduzione dei Dati. Nelle scienze sociali ci si trova molto spesso di fronte a ricerche in cui vi è una sovrabbondanza di misurazioni nel tentativo di.
8 FORZE DI LAVORO, OCCUPAZIONE E DISOCCUPAZIONE L’argomento: misurazione delle variabili macroeconomiche Oggi parleremo di: indicatori del mercato aggregato.
Progetta il tuo stage in Europa Euroguidance Italy.
L’Acl nel caso America’s Cup Napoli UNIVERSITÀ DEGLI STUDI DI NAPOLI “FEDERICO II” Dipartimento di Scienze Sociali Corso di Laurea Magistrale in Comunicazione.
L’Analisi delle Corrispondenze. Obiettivi: Rappresentazione graficaRappresentazione grafica SintesiSintesi della struttura di associazione tra due (o.
X1x1 x2x2 x3x3 xjxj xkxk xpxp xmxm L’Analisi Multidimensionale dei Dati Introduzione al Data Mining estrarre informazione nascosta nei dati in modo da.
Politica Economica (DES) Parte I L ezione 2 (Francesco Giavazzi)
L’analisidei dati L’analisi dei dati Analisi mutlidimensionali: Analisi delle corrispondenze multiple Cluster Analysis.
Analisi delle osservazioni
Geografia dell’UE Simone Bozzato. Industria 1/3 del reddito è generato da attività manufatturiere che occupano il 41% della forza lavoro In forte incremento.
Multidimensionale dei Dati
Un progetto e una ricerca
Transcript della presentazione:

Multidimensionale dei Dati L’Analisi Multidimensionale dei Dati I metodi fattoriali Una Statistica da vedere Analisi generale Analisi in Componenti Principali (ACP) x1 x2 x3 xj xk xp xm Analisi delle Corrispondenze Multiple (ACM)

Proiezione di un punto su u Analisi Generale Metodo grafico x1 x2 x3 O Pi u=[1 0 1] ||u||2 = 12 + 02 + 12 = 2 ~ Pi vettore normalizzato Proiezione di un punto su u 5,65 Pi=[3 2 5] = = Metodo analitico

Ortogonalità dei fattori Analisi Generale x1 x2 x3 p dimensioni necessità di più fattori di sintesi Ortogonalità dei fattori La specificazione dei vincoli Scree-test, Eigenvalue-one, % variabilità spiegata, ... La scelta del numero di fattori

Tabella individui  variabili: Analisi in Componenti Principali (ACP) 21,1 3,2 12,6 x1 x2 … xp i1 i2 in : X = …... xij 15,6 8,4 17,2 16,4 7,2 21,3 Tabella individui  variabili: Le righe rappresentano gli individui e sono in genere osservazioni, oggetti, unità statistiche; Le colonne rappresentano le variabili definite da valori numerici continui; Gli angoli tra punti-variabile possono essere interpretati in termini di correlazioni tra le stesse; Le prossimità tra punti-individuo possono essere interpretate in termini di analogie di comportamento rispetto al fenomeno osservato.

Analisi in Componenti Principali (ACP) Spazio Rp Non è detto che passi per l’origine degli assi x1 x2 x3 O Analisi nello spazio centrato baricentro Ad ogni variabile si sottrae la propria media: L’ACP è un’Analisi generale su variabili centrate

I PASSI DELL’AMD i a x1 x2 F1 F2 O G  Traslazione del sistema nel baricentro G (centratura var.)  Rotazione nella direzione di massimo allungamento della nube Ricerca dell'asse F1 tale che Autovalore inerzia (varianza) nella direzione di max allungamento della nube Autovettore individua la giacitura dell'asse F1 (coseni direttori dell'asse ) di max allungamento Componenti principali: Equazione spettrale:

i i  G Evidenziano il ruolo di un elemento nella spiegazione del fattore a- esimo Misura la qualità della rappresentazione di un punto su un asse Per analizzare le prossimità tra i punti ci si interesserà di quelli con forte CR i G ua

Esempio ACP: i consumi alimentari Matrice dei dati: 16 Paesi, 10 variabili continue

Esempio ACP: i consumi alimentari Statistiche delle variabili continue

Esempio ACP: i consumi alimentari Matrice di correlazione

Esempio ACP: i consumi alimentari Autovettori

Coordinata del BELGIO sul primo fattore Esempio ACP: i consumi alimentari Coordinate sui nuovi assi Es.: Belgio sul primo fattore 72,2 4,2 98,8 40,4 103,2 20,9 102,0 80,0 7,7 14,2 Cere Riso Pata Zucc Verd Vino Carn Latt Burr Uova Valori iniziali 0,30 0,35 0,11 -0,44 0,45 0,37 0,12 -0,40 -0,25 -0,04 -0,42 0,03 0,66 0,63 0,14 -0,26 0,95 -1,05 1,48 0,96  Primo autovettore Dati standardizzati = (-0,42  0,30) + (0,03  0,35) + (0,66  0,11) + … + (0,96  -0,04) = - 0,23 Coordinata del BELGIO sul primo fattore

Esempio ACP: i consumi alimentari Coordinate sui nuovi assi

Esempio ACP: i consumi alimentari La variabilità sui nuovi fattori: gli autovalori

Esempio ACP: i consumi alimentari Le coordinate nel vecchio e nel nuovo spazio

Esempio ACP: i consumi alimentari L’interpretazione dei fattori: correlazioni tra variabili iniziali e componenti principali

Esempio ACP: i consumi alimentari Le coordinate delle variabili

Esempio ACP: i consumi alimentari Le rappresentazioni grafiche: il Cerchio delle correlazioni cereali riso patate verdure vino latte zucchero burro uova carne Fattore 1 (38.9%) Fattore 2 (23.0%) -0.5 0.5 -1.0 1.0

Esempio ACP: i consumi alimentari Le rappresentazioni grafiche: il Piano degli individui Fattore 1 (38.9%) Fattore 2 (23.0%) 2 1 -1 -2 -3 -3.0 -1.5 1.5 3.0 GERMANIA FRANCIA BELGIO DANIMARCA AUSTRIA OLANDA SVEZIA IRLANDA REGNO UNITO FINLANDIA ISLANDA NORVEGIA PORTOGALLO GRECIA ITALIA SPAGNA

ACP: Un esempio “di corsa”

Matrice di correlazione

Autovalori

Il cerchio delle correlazioni -0.5 0.5 -1.0 1.0 Fattore 1 (57.3%) Fattore 2 (21.2%) 100 m 200 m 400 m 800 m 1500 m 5 km 10 km Maratona

La rappresentazione delle unità Fattore 1 (57.3%) Fattore 2 (21.2%) -4 -2 2 4 -1 1 Lussemburgo Grecia Ungheria Cecoslov. Danimarca. Austria. Romania. Irlanda Norvegia Portogallo Olanda Finlandia Spagna Belgio Svizzera Svezia Polonia Francia Russia Italia USA Germania Gran Bretagna

L’interpretazione dei fattori Un autovalore la è una espressione della capacità informativa dei singoli fattori. Esso misura la variabilità della nuvola dei punti lungo l’asse  - esimo u1 O ei pi ua Il contributo assoluto Caia misura l’apporto di ogni punto alla variabilità dell’asse. cia um I punti con un contributo molto grande, es.maggiore di 0.7, vanno posti in supplementare

Una misura della qualità della rappresentazione Il coseno al quadrato è una misura della qualità della rappresentazione dei punti-unità sul sottospazio generato dai fattori scelti: quanto più risulta prossimo ad 1 tanto più il punto avrà conservato, in proiezione, la distanza dall’origine che aveva nello spazio iniziale, e risulterà quindi ben rappresentato. e2 e1 1 2 ~ e1 ~ e2 O ~ e3 e3 Due punti-unità possono trovarsi vicini nello spazio di proiezione non perché lo siano nello spazio iniziale di riferimento ma solo per gli effetti distorsivi dell’operazione di proiezione

Esempio i consumi alimentari

Analisi delle Corrispondenze Multiple (ACM) E’ uno dei più importanti metodi per l’analisi di variabili qualitative o miste; Ha un vastissimo campo di applicazione e si rivela particolarmente adatta all’analisi di dati di inchiesta ed alla descrizione di tabelle di grandi dimensioni; Le righe della tabella sono in generale individui o osservazioni; Le colonne della tabella sono le modalità delle variabili nominali (o le classi di valori delle variabili continue) e rappresentano spesso le modalità di risposta relative alle domande di un questionario.

ACM - La matrice dei dati

Codifica disgiuntiva completa 2 1 4 3 n p R = (i) sex (2) età (3) prof (4) I dati e la codifica Codifica ridotta p variabili s modalità . . . Z = 0 1 1 0 0 1 0 0 0 s = s1+s2+…+sp s1 sp s2 f <30 m 30-50 >50 stu imp dir pen Codifica disgiuntiva completa

ATTENZIONE alle modalità con frequenze molto basse!!! Qualche nota n = individui; p = variabili; s = modalità z.j = freq. della j-esima modalità Numero di autovalori s - p Tassi di inerzia Distanza di una modalità dal baricentro Inerzia di una modalità con ATTENZIONE alle modalità con frequenze molto basse!!! Inerzia totale

La lettura dei risultati 1. Gli autovalori sono una misura eccessivamente pessimistica dell’effettivo potere esplicativo dei fattori individuati; 2. Affermare che esistono affinità tra risposte equivale a dire che esistono delle unità che hanno scelto tutte, o quasi tutte, le stesse modalità. L’ACM mette in evidenza gli individui che hanno dei profili simili rispetto alle modalità osservate. Si possono quindi individuare: 2a. Le prossimità tra individui 2b. Le prossimità tra modalità di variabili differenti 3. I fattori vanno interpretati tenendo conto dei valori dei contributi assoluti e non delle coordinate dei punti (come avveniva in ACP) i i i i’ i’ i’ Cr(i)<Cr(i’) Cr(i)<Cr(i’) Cr(i)=Cr(i’) f(i.)<f(i’.) y(i)< y(i’) f(i.)y2(i)= f(i’.)y2(i’)

Esempio In questi casi è meglio ricodificare la variabili accorpando le classi contigue

L’indagine sui laureati

La matrice dei dati (Codifica ridotta)

La matrice dei dati (Codifica disgiuntiva completa)

La tabella di Burt

Gli autovalori

La tabella dei contributi

La lettura dei piani fattoriali Ogni domanda del questionario (variabile) è rappresentata da tanti punti quante sono le sue modalità di risposta Il baricentro della nube dei punti (origine degli assi) è anche il baricentro delle modalità di ciascuna variabile La prossimità tra due modalità esprime una stretta connessione (interdipendenza) dei temi che esse rappresentano Le prossimità tra modalità relative a variabili attive e supplementari vanno lette in termini di dipendenza delle seconde rispetto alle prime Se le modalità di una variabile sono ordinate, si studieranno le traiettorie seguite da questi punti, le loro forme e le loro posizioni reciproche La prossimità tra punti-unità (intervistati) evidenzia una posizione simile rispetto ai temi trattati nel questionario La prossimità tra punti-modalità e punti-unità, qualora si ricorra a rappresentazioni congiunte, rivelano l’importanza che talune caratteristiche hanno nel profilo di ciascun intervistato o di gruppi di questi

La rappresentazione grafica 110 e lode Freq. >50% Femmine Mat. quantitative 55-60 Borse/Corsi SI Abilitazione SI Mat. classica Mat. aziendali Lavoro part-time Napoli città Studente Non occupato Altro diploma Lavoro stabile <95 Occupato stabile Maschi 36-42 Altra materia Diploma tecnico Freq. <30% Borse/Corsi NO Abilitazione NO 96-105 Altre province -1.0 -0.5 0.5 1.0 Fattore 1 -0.8 0.8 0.4 -0.4 Fattore 2

I Laureati in Economia della Federico II

I Laureati in Economia della Federico II

La descrizione dei fattori con i valori-test nj Numero di soggetti che presentano la modalità j jaj ^ Coordinata della modalità j nel caso di estrazione casuale degli nj soggetti Per nj sufficientemente grande

Metodologie utilizzate Esempio: Indagine sugli Autoriparatori Verificare l’esigenza di politiche di aggiornamento tecnologico e organizzativo nel settore dell’autoriparazione alla luce delle nuove normative comunitarie in tema di salvaguardia dell’ambiente e della ristrutturazione del mercato legato alla progressiva secializzazione delle funzioni. Obiettivo Tipo di indagine Campionaria (200 unità rilevate) Strumenti di indagine Interviste ai leader di opinione + Indagine “sul campo” realizzata mediante somministrazione diretta di un questionario. Metodologie utilizzate Statistiche univariate e bivariate. Analisi delle Corrispondenze Multiple. Classificazione Automatica

Esempio: Indagine sugli Autoriparatori ACM: Variabili attive

Esempio: Indagine sugli Autoriparatori ACM: Variabili illustrative

Esempio: Indagine sugli Autoriparatori Autovalori

Esempio: Indagine sugli Autoriparatori Descrizione Fattore 1 Modalità attive

Modalità illustrative Esempio: Indagine sugli Autoriparatori Descrizione Fattore 1 Modalità illustrative

Esempio: Indagine sugli Autoriparatori Descrizione Fattore 2 Modalità attive

Modalità illustrative Esempio: Indagine sugli Autoriparatori Descrizione Fattore 2 Modalità illustrative