Il metodo STATIS (L’Hermier des Plantes, 1976; Escoufier, 1983; Lavit et al., 1994) STATIS = Structuration des Tableaux A Trois IndiceS Tecnica esplorativa di analisi dei dati a 3 vie: *** Tre vie = individui x variabili x occasioni OBIETTIVO: rappresentare le distanze euclidee fra configurazioni di punti relative a dati osservati in differenti occasioni Struttura di dati da analizzare: tipicamente un insieme non ordinato di matrici contenenti i valori assunti da variabili quantitative in occasioni differenti
STATIS si articola in 3 fasi Interstruttura Compromesso Intrastruttura Interstruttura: rappresentare in uno spazio geometrico appropriato, la struttura di similarità fra le matrici Compromesso: trovare una matrice che sintetizzi in modo “ottimale” le diverse matrici osservate Intrastruttura: rappresentare le unità statistiche e le variabili osservate nelle diverse occasioni
Statis affronta l’analisi di K studi statistici, ciascuno definito da una terna (X k, O k, M k ), con k=1, …, K, dove: matrice dei dati –X k è la matrice dei dati, a n righe (individui) e p colonne (variabili) metrica –O k è la metrica sistema di pesi –M k è la matrice diagonale del sistema di pesi, che nel seguito, per semplicità considereremo pari a 1/n per tutti gli individui in tutte le occasioni Si consideri il caso in cui K studi (X k, I, M) siano osservati sugli stessi n individui (indagine cross-sezionale). Ogni X k (I, J k ) è la matrice dei valori assunti da J k variabili sugli stessi n individui nelle K occasioni La tecnica X 1 =X 2 =XK =XK = 111 nnn
1.Effettuare un confronto globale dei K studi (individuare la struttura interna del fenomeno considerato nel suo complesso: interstruttura) 2.Effettuare una sintesi dei K studi (compromesso) 3.Indagare circa le differenze di comportamento degli individui, quando questo sia analizzato all’interno della struttura bidimenionale X k ( k), o quando lo si rapporti ad un comportamento “medio” identificato nel compromesso Questi 3 problemi rappresentano i 3 passi in cui si articola STATIS Tre diversi problemi: le fasi di STATIS
STATIS associa ad ogni matrice X k un elemento caratteristico O k, in questo caso (=individui/ variabili) rappresentato dalla matrice dei prodotti scalari: O k = X k X k ’, [o ii* ] = j x ij x i*j j = 1, …, J k centrate Le J k variabili di ciascuna matrice X k sono centrate Si definisce la matrice (K,K) I di generico elemento I kk* = Covv(O k, O k* ) = Tr (O k O k* ), oppure I kk* = Rv(O k, O k* ) = Tr (O k O k* )/ Tr (O k ) 2 Tr (O k* ) 2 Covv e Rv misurano entrambi la distanza fra configurazioni di individui (elementi caratteristici). Sono le estensioni vettoriali della covarianza e del coefficiente di correlazione lineare, calcolati su coppie di variabili. Infatti, Covv è la somma del quadrato delle covarianze di ogni variabile di X k, mentre Rv è il prodotto degli O k standardizzati Preparazione dei dati
Questa fase consiste nella decomposizione spettrale della matrice dell’interstruttura I rappresentazione sottospazio fattoriale Si ottiene la rappresentazione dei K punti relativi alle K occasioni in un sottospazio fattoriale generato degli autovettori corrispondenti agli autovalori più grandi di I Indicando con s K gli autovalori di I e con u u s u K gli autovettori corrispondenti, allora: I (S) = s s u s u s ’ con s = 1, …, S Fornisce la migliore approssimazione di rango S di I, nel senso dei minimi quadrati Passo 1: l’interstruttura
L’interstruttura: il piano fattoriale A3A3 A1A1 A2A2 Esempio di 3 indagini effettuate sullo stesso collettivo, su temi differenti: La prossimità di 2 punti fornisce la rappresentazione grafica della somiglianza del comportamento degli individui rappresentati
Proposizione 1: Proposizione 1: La combinazione lineare k u 1k O k ha norma massima e massimizza la somma dei quadrati dei prodotti scalari con gli elementi iniziali Motivazioni del compromesso Proposizione 2: Proposizione 2: Tutti gli elementi di u 1 hanno lo stesso segno, che può essere scelto positivo (teorema di Frobenius) Allora k u 1k O k è semidefinita positiva e può essere vista come un elemento caratteristico O di uno studio nascosto. O è chiamato compromesso
Proposizione 3: Proposizione 3: a s è il baricentro degli a s(k) a meno di un fattore di normalizzazione, dove a s(k) è l’autovettore di O k associato all’s-esimo autovalore (con k = 1, …, K). E’ quindi possibile ottenere una rappresentazione in cui un punto- individuo del compromesso è il baricentro dei corrispondenti punti-individuo dei K studi Passo 2: il compromesso diagonalizza Si diagonalizza O per rappresentare n punti-individuo La prossimità di 2 punti esprime una somiglianza “media” di comportamento di 2 individui fra occasioni Sia v il numero di autovalori non nulli di O, in ordine decrescente, e a s (s = 1, …, v) i corrispondenti autovettori
Passo 3: l’interstruttura In questo passo si rappresentano gli individui (e le variabili) delle matrici a due vie in supplementare n.b. il numero dei punti è molto elevato: n x(K+1)individui e p x (K+1) variabili Nei casi in cui questo abbia un significato, si possono tracciare traiettorie fra punti omologhi
Lo STATIS “duale” Stesse variabili, individui differenti nelle K occasioni (caso tipico, indagini su campioni indipendenti ripetuti) : le matrici X k hanno stesso numero di colonne e numero diverso di righe L’elemento caratteristico è la matrice di varianze e covarianze delle variabili osservate in ciascuna occasione Nella fase dell’interstruttura si ottiene la rappresentazione delle distanze euclidee fra le matrici di varianze e covarianze del k-esimo e del k’-esimo studio Il compromesso è la somma ponderata delle matrici di varianze e covarianze, mentre le traiettorie rappresentano il contributo di ogni variabile alla distanza euclidea fra le matrici di varianze e covarianze
Stessi individui, stesse variabili STATISSTATIS duale Una simile situazione consente di porsi indifferente- mente all’interno dello schema di STATIS o di STATIS duale elemento caratteristico Si tratta di scegliere come elemento caratteristico la matrice dei prodotti scalari XX’, oppure quella di varianze e covarianze X’X. La scelta dipende dall’obiettivo perseguito: nel primo caso un confronto fra comportamenti di individui, nel secondo di variabili dati panel E’ il caso tipico di dati panel