La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Il metodo STATIS (L’Hermier des Plantes, 1976; Escoufier, 1983; Lavit et al., 1994) STATIS = Structuration des Tableaux A Trois IndiceS Tecnica esplorativa.

Presentazioni simili


Presentazione sul tema: "Il metodo STATIS (L’Hermier des Plantes, 1976; Escoufier, 1983; Lavit et al., 1994) STATIS = Structuration des Tableaux A Trois IndiceS Tecnica esplorativa."— Transcript della presentazione:

1 Il metodo STATIS (L’Hermier des Plantes, 1976; Escoufier, 1983; Lavit et al., 1994) STATIS = Structuration des Tableaux A Trois IndiceS Tecnica esplorativa di analisi dei dati a 3 vie: *** Tre vie = individui x variabili x occasioni OBIETTIVO: rappresentare le distanze euclidee fra configurazioni di punti relative a dati osservati in differenti occasioni Struttura di dati da analizzare: tipicamente un insieme non ordinato di matrici contenenti i valori assunti da variabili quantitative in occasioni differenti

2 STATIS si articola in 3 fasi Interstruttura Compromesso Intrastruttura Interstruttura: rappresentare in uno spazio geometrico appropriato, la struttura di similarità fra le matrici Compromesso: trovare una matrice che sintetizzi in modo “ottimale” le diverse matrici osservate Intrastruttura: rappresentare le unità statistiche e le variabili osservate nelle diverse occasioni

3 Statis affronta l’analisi di K studi statistici, ciascuno definito da una terna (X k, O k, M k ), con k=1, …, K, dove: matrice dei dati –X k è la matrice dei dati, a n righe (individui) e p colonne (variabili) metrica –O k è la metrica sistema di pesi –M k è la matrice diagonale del sistema di pesi, che nel seguito, per semplicità considereremo pari a 1/n per tutti gli individui in tutte le occasioni Si consideri il caso in cui K studi (X k, I, M) siano osservati sugli stessi n individui (indagine cross-sezionale). Ogni X k (I, J k ) è la matrice dei valori assunti da J k variabili sugli stessi n individui nelle K occasioni La tecnica X 1 =X 2 =XK =XK = 111 nnn

4 1.Effettuare un confronto globale dei K studi (individuare la struttura interna del fenomeno considerato nel suo complesso: interstruttura) 2.Effettuare una sintesi dei K studi (compromesso) 3.Indagare circa le differenze di comportamento degli individui, quando questo sia analizzato all’interno della struttura bidimenionale X k (  k), o quando lo si rapporti ad un comportamento “medio” identificato nel compromesso Questi 3 problemi rappresentano i 3 passi in cui si articola STATIS Tre diversi problemi: le fasi di STATIS

5 STATIS associa ad ogni matrice X k un elemento caratteristico O k, in questo caso (=individui/  variabili) rappresentato dalla matrice dei prodotti scalari: O k = X k X k ’, [o ii* ] =  j x ij x i*j j = 1, …, J k centrate Le J k variabili di ciascuna matrice X k sono centrate Si definisce la matrice (K,K) I di generico elemento I kk* = Covv(O k, O k* ) = Tr (O k O k* ), oppure I kk* = Rv(O k, O k* ) = Tr (O k O k* )/  Tr (O k ) 2  Tr (O k* ) 2 Covv e Rv misurano entrambi la distanza fra configurazioni di individui (elementi caratteristici). Sono le estensioni vettoriali della covarianza e del coefficiente di correlazione lineare, calcolati su coppie di variabili. Infatti, Covv è la somma del quadrato delle covarianze di ogni variabile di X k, mentre Rv è il prodotto degli O k standardizzati Preparazione dei dati

6 Questa fase consiste nella decomposizione spettrale della matrice dell’interstruttura I rappresentazione sottospazio fattoriale Si ottiene la rappresentazione dei K punti relativi alle K occasioni in un sottospazio fattoriale generato degli autovettori corrispondenti agli autovalori più grandi di I Indicando con    s  K gli autovalori di I e con u   u s  u K gli autovettori corrispondenti, allora: I (S) =  s  s u s u s ’ con s = 1, …, S Fornisce la migliore approssimazione di rango S di I, nel senso dei minimi quadrati Passo 1: l’interstruttura

7 L’interstruttura: il piano fattoriale A3A3 A1A1 A2A2       Esempio di 3 indagini effettuate sullo stesso collettivo, su temi differenti: La prossimità di 2 punti fornisce la rappresentazione grafica della somiglianza del comportamento degli individui rappresentati

8 Proposizione 1: Proposizione 1: La combinazione lineare  k u 1k O k ha norma massima e massimizza la somma dei quadrati dei prodotti scalari con gli elementi iniziali Motivazioni del compromesso Proposizione 2: Proposizione 2: Tutti gli elementi di u 1 hanno lo stesso segno, che può essere scelto positivo (teorema di Frobenius) Allora  k u 1k O k è semidefinita positiva e può essere vista come un elemento caratteristico O di uno studio nascosto. O è chiamato compromesso

9 Proposizione 3: Proposizione 3: a s è il baricentro degli a s(k) a meno di un fattore di normalizzazione, dove a s(k) è l’autovettore di O k associato all’s-esimo autovalore (con k = 1, …, K). E’ quindi possibile ottenere una rappresentazione in cui un punto- individuo del compromesso è il baricentro dei corrispondenti punti-individuo dei K studi Passo 2: il compromesso diagonalizza Si diagonalizza O per rappresentare n punti-individuo La prossimità di 2 punti esprime una somiglianza “media” di comportamento di 2 individui fra occasioni Sia v il numero di autovalori non nulli di O, in ordine decrescente, e a s (s = 1, …, v) i corrispondenti autovettori

10 Passo 3: l’interstruttura In questo passo si rappresentano gli individui (e le variabili) delle matrici a due vie in supplementare n.b. il numero dei punti è molto elevato: n x(K+1)individui e p x (K+1) variabili Nei casi in cui questo abbia un significato, si possono tracciare traiettorie fra punti omologhi

11 Lo STATIS “duale” Stesse variabili, individui differenti nelle K occasioni (caso tipico, indagini su campioni indipendenti ripetuti) : le matrici X k hanno stesso numero di colonne e numero diverso di righe L’elemento caratteristico è la matrice di varianze e covarianze delle variabili osservate in ciascuna occasione Nella fase dell’interstruttura si ottiene la rappresentazione delle distanze euclidee fra le matrici di varianze e covarianze del k-esimo e del k’-esimo studio Il compromesso è la somma ponderata delle matrici di varianze e covarianze, mentre le traiettorie rappresentano il contributo di ogni variabile alla distanza euclidea fra le matrici di varianze e covarianze

12 Stessi individui, stesse variabili STATISSTATIS duale Una simile situazione consente di porsi indifferente- mente all’interno dello schema di STATIS o di STATIS duale elemento caratteristico Si tratta di scegliere come elemento caratteristico la matrice dei prodotti scalari XX’, oppure quella di varianze e covarianze X’X. La scelta dipende dall’obiettivo perseguito: nel primo caso un confronto fra comportamenti di individui, nel secondo di variabili dati panel E’ il caso tipico di dati panel


Scaricare ppt "Il metodo STATIS (L’Hermier des Plantes, 1976; Escoufier, 1983; Lavit et al., 1994) STATIS = Structuration des Tableaux A Trois IndiceS Tecnica esplorativa."

Presentazioni simili


Annunci Google