Il metodo STATIS (L’Hermier des Plantes, 1976; Escoufier, 1983; Lavit et al., 1994) STATIS = Structuration des Tableaux A Trois IndiceS Tecnica esplorativa.

Slides:



Advertisements
Presentazioni simili
Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo “stato”e.
Advertisements

Illustrazione semplificata F. S. Capaldo. La costruzione di un modello matematico deve partire dall’analisi del problema reale per l’individuazione degli.
VETTORI: DEFINIZIONI Se ad una grandezza fisica G si associa una direzione ed un verso si parla di vettori: ✔ Le grandezze fisiche possono essere di due.
Statistica descrittiva: le variabili Frequenze: tabelle e grafici Indici di posizione, di dispersione e di forma Media e varianza di dati raggruppati Correlazione.
1 Simulazione Numerica dei Fenomeni di Trasporto Necessità di introduzione dei tensori  11  12  13  23  21  22 Vogliamo descrivere in un modo che.
Consentono di descrivere la variabilità all’interno della distribuzione di frequenza tramite un unico valore che ne sintetizza le caratteristiche.
Organizzazione dei dati AnnoQ [m 3 /s]
Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a
Precorso di Statistica per le Lauree Magistrali
Distribuzioni limite La distribuzione normale
Variabili casuali a più dimensioni
Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a
GLI STRUMENTI AUSILIARI
STATISTICA Statistica : scienza che ha come fine lo studio quantitativo e qualitativo di un “collettivo”. L’etimologia della parola pare derivi dal vocabolo.
Corso di Analisi Statistica per le Imprese Indici di variabilità ed eterogeneità Prof. L. Neri a.a
x : variabile indipendente
L’analisi monovariata
DISTRIBUZIONI TEORICHE DI PROBABILITA’
(7x + 8x2 + 2) : (2x + 3) 8x2 + 7x + 2 2x + 3 8x2 + 7x + 2 2x + 3 4x
L’analisi del comportamento delle imprese (seconda parte)
Richiami di Algebra Matriciale
PIANIFICAZIONE DEI TRASPORTI Regressione lineare
Analisi delle Traiettorie: Modelli di Crescita Latente (LGM)
Cluster Analysis Definizione di Classificazione: operazione concettuale condotta adottando un solo criterio (detto fondamento della divisione) per individuare.
x : variabile indipendente
Indici di variabilità Gli indici di variabilità misurano
Scalari e Vettori
22) Funzioni (prima parte)
Corso di Laurea in Scienze e tecniche psicologiche
La Statistica si occupa dei modi
Precorso di Statistica per le Lauree Magistrali
La Statistica Istituto Comprensivo “ M. G. Cutuli”
Fisica: lezioni e problemi
Statistica descrittiva bivariata
L’analisi monovariata
I 7 strumenti della qualità
ANALISI DEI GRUPPI I.
ANALISI DEI GRUPPI I.
ANALISI DELLE DISTRIBUZIONI STATISTICHE
ANALISI IN COMPONENTI PRINCIPALI
Richiami di Algebra Matriciale
Corso di Analisi Statistica per le Imprese 2
Organizzazione dei dati
Corso di Analisi Statistica per le Imprese Sintesi della distribuzione di un carattere: indici di posizione Prof. L. Neri a.a
Impariamo a conoscere le Matrici
Statistica descrittiva bivariata
Scalari e Vettori
Statistica descrittiva bivariata
ANALISI DEI GRUPPI I.
ANALISI DEI GRUPPI I.
Ricerca Operativa 2a parte
Diffrazione.
Diagrammi Di Bode Prof. Laura Giarré
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: le ipotesi del modello, la stima del modello.
Riduzione dei Dati.
Capitolo 2 Cinematica unidimensionale
Approssimazione di dipolo elettrico
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: le ipotesi del modello, la stima del modello.
ANALISI DEI GRUPPI I.
Precorso di Statistica per le Lauree Magistrali
ANALISI DEI GRUPPI I.
ANALISI DEI GRUPPI I.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9
Ing. Maurizio Bassani LOGISTICA - Capitolo 3 - Modulo 1
Corso di Analisi Statistica per le Imprese Sintesi della distribuzione di un carattere: indici di posizione Prof. L. Neri a.a
Matrici e determinanti
Richiami di Algebra Matriciale
Gli Indici di Produttività di Divisia
Statistica descrittiva bivariata
Correlazione e regressione
Transcript della presentazione:

Il metodo STATIS (L’Hermier des Plantes, 1976; Escoufier, 1983; Lavit et al., 1994) STATIS = Structuration des Tableaux A Trois IndiceS Tecnica esplorativa di analisi dei dati a 3 vie: *** Tre vie = individui x variabili x occasioni OBIETTIVO: rappresentare le distanze euclidee fra configurazioni di punti relative a dati osservati in differenti occasioni Struttura di dati da analizzare: tipicamente un insieme non ordinato di matrici contenenti i valori assunti da variabili quantitative in occasioni differenti

STATIS si articola in 3 fasi Interstruttura Compromesso Intrastruttura Interstruttura: rappresentare in uno spazio geometrico appropriato, la struttura di similarità fra le matrici Compromesso: trovare una matrice che sintetizzi in modo “ottimale” le diverse matrici osservate Intrastruttura: rappresentare le unità statistiche e le variabili osservate nelle diverse occasioni

Statis affronta l’analisi di K studi statistici, ciascuno definito da una terna (X k, O k, M k ), con k=1, …, K, dove: matrice dei dati –X k è la matrice dei dati, a n righe (individui) e p colonne (variabili) metrica –O k è la metrica sistema di pesi –M k è la matrice diagonale del sistema di pesi, che nel seguito, per semplicità considereremo pari a 1/n per tutti gli individui in tutte le occasioni Si consideri il caso in cui K studi (X k, I, M) siano osservati sugli stessi n individui (indagine cross-sezionale). Ogni X k (I, J k ) è la matrice dei valori assunti da J k variabili sugli stessi n individui nelle K occasioni La tecnica X 1 =X 2 =XK =XK = 111 nnn

1.Effettuare un confronto globale dei K studi (individuare la struttura interna del fenomeno considerato nel suo complesso: interstruttura) 2.Effettuare una sintesi dei K studi (compromesso) 3.Indagare circa le differenze di comportamento degli individui, quando questo sia analizzato all’interno della struttura bidimenionale X k (  k), o quando lo si rapporti ad un comportamento “medio” identificato nel compromesso Questi 3 problemi rappresentano i 3 passi in cui si articola STATIS Tre diversi problemi: le fasi di STATIS

STATIS associa ad ogni matrice X k un elemento caratteristico O k, in questo caso (=individui/  variabili) rappresentato dalla matrice dei prodotti scalari: O k = X k X k ’, [o ii* ] =  j x ij x i*j j = 1, …, J k centrate Le J k variabili di ciascuna matrice X k sono centrate Si definisce la matrice (K,K) I di generico elemento I kk* = Covv(O k, O k* ) = Tr (O k O k* ), oppure I kk* = Rv(O k, O k* ) = Tr (O k O k* )/  Tr (O k ) 2  Tr (O k* ) 2 Covv e Rv misurano entrambi la distanza fra configurazioni di individui (elementi caratteristici). Sono le estensioni vettoriali della covarianza e del coefficiente di correlazione lineare, calcolati su coppie di variabili. Infatti, Covv è la somma del quadrato delle covarianze di ogni variabile di X k, mentre Rv è il prodotto degli O k standardizzati Preparazione dei dati

Questa fase consiste nella decomposizione spettrale della matrice dell’interstruttura I rappresentazione sottospazio fattoriale Si ottiene la rappresentazione dei K punti relativi alle K occasioni in un sottospazio fattoriale generato degli autovettori corrispondenti agli autovalori più grandi di I Indicando con    s  K gli autovalori di I e con u   u s  u K gli autovettori corrispondenti, allora: I (S) =  s  s u s u s ’ con s = 1, …, S Fornisce la migliore approssimazione di rango S di I, nel senso dei minimi quadrati Passo 1: l’interstruttura

L’interstruttura: il piano fattoriale A3A3 A1A1 A2A2       Esempio di 3 indagini effettuate sullo stesso collettivo, su temi differenti: La prossimità di 2 punti fornisce la rappresentazione grafica della somiglianza del comportamento degli individui rappresentati

Proposizione 1: Proposizione 1: La combinazione lineare  k u 1k O k ha norma massima e massimizza la somma dei quadrati dei prodotti scalari con gli elementi iniziali Motivazioni del compromesso Proposizione 2: Proposizione 2: Tutti gli elementi di u 1 hanno lo stesso segno, che può essere scelto positivo (teorema di Frobenius) Allora  k u 1k O k è semidefinita positiva e può essere vista come un elemento caratteristico O di uno studio nascosto. O è chiamato compromesso

Proposizione 3: Proposizione 3: a s è il baricentro degli a s(k) a meno di un fattore di normalizzazione, dove a s(k) è l’autovettore di O k associato all’s-esimo autovalore (con k = 1, …, K). E’ quindi possibile ottenere una rappresentazione in cui un punto- individuo del compromesso è il baricentro dei corrispondenti punti-individuo dei K studi Passo 2: il compromesso diagonalizza Si diagonalizza O per rappresentare n punti-individuo La prossimità di 2 punti esprime una somiglianza “media” di comportamento di 2 individui fra occasioni Sia v il numero di autovalori non nulli di O, in ordine decrescente, e a s (s = 1, …, v) i corrispondenti autovettori

Passo 3: l’interstruttura In questo passo si rappresentano gli individui (e le variabili) delle matrici a due vie in supplementare n.b. il numero dei punti è molto elevato: n x(K+1)individui e p x (K+1) variabili Nei casi in cui questo abbia un significato, si possono tracciare traiettorie fra punti omologhi

Lo STATIS “duale” Stesse variabili, individui differenti nelle K occasioni (caso tipico, indagini su campioni indipendenti ripetuti) : le matrici X k hanno stesso numero di colonne e numero diverso di righe L’elemento caratteristico è la matrice di varianze e covarianze delle variabili osservate in ciascuna occasione Nella fase dell’interstruttura si ottiene la rappresentazione delle distanze euclidee fra le matrici di varianze e covarianze del k-esimo e del k’-esimo studio Il compromesso è la somma ponderata delle matrici di varianze e covarianze, mentre le traiettorie rappresentano il contributo di ogni variabile alla distanza euclidea fra le matrici di varianze e covarianze

Stessi individui, stesse variabili STATISSTATIS duale Una simile situazione consente di porsi indifferente- mente all’interno dello schema di STATIS o di STATIS duale elemento caratteristico Si tratta di scegliere come elemento caratteristico la matrice dei prodotti scalari XX’, oppure quella di varianze e covarianze X’X. La scelta dipende dall’obiettivo perseguito: nel primo caso un confronto fra comportamenti di individui, nel secondo di variabili dati panel E’ il caso tipico di dati panel