La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

1 ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI NELLANALISI DISCRIMINANTE n Eliminazione di variabili con contributo discriminatorio statisticamente.

Presentazioni simili


Presentazione sul tema: "1 ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI NELLANALISI DISCRIMINANTE n Eliminazione di variabili con contributo discriminatorio statisticamente."— Transcript della presentazione:

1 1 ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI NELLANALISI DISCRIMINANTE n Eliminazione di variabili con contributo discriminatorio statisticamente non significativo: i due aspetti del problema. n LAnalisi Discriminante come Analisi della Regressione n Leliminazione di variabili con contributo discriminatorio statisticamente non significativo: il test F. n Leliminazione di variabili con contributo discriminatorio statisticamente non significativo: il test t per il confronto tra due medie. n Leliminazione di variabili con contributo discriminatorio statisticamente non significativo con procedure: backward elimination, forward selection n Leliminazione di variabili sulla base dei valori dei coefficienti standardizzati della funzione discriminante lineare. n Leliminazione di variabili via analisi delle componenti principali

2 2 Eliminazione di variabili con contributo discriminatorio statisticamente non significativo: i due aspetti del problema. n Perché scartare delle variabili? n (i) Per realizzare un modello parsimonioso. n (ii) Per un adeguato rapporto tra numerosità campionaria e numero dei parametri del modello da stimare. n (iii) Per eliminare variabili esplicative fortemente correlate con variabili già entrate nel modello il cui contributo esplicativo aggiuntivo non può che essere statisticamente non significativo. n (iv) Per eliminare variabili il cui contributo discriminatorio è comunque statisticamente non significativo. n Il problema di scelta del modello migliore (per numero e specifiche variabili incluse nel modello) comporta: n (a) Prefissato il numero p di variabili da considerare, la scelta delle p (1 p k) variabili delle k disponibili con capacità discriminatoria (cross validation o altro criterio) massima, p=1,2,…,k. Fissato p (1 p k), si tratta di comparare k!/[p!(k-p)!] modelli di funzioni discriminanti. Questa comparazione può risultare laboriosa per numero di modelli da considerare. Il migliore modello con p+1 variabili non è necessariamente costituito dalle stesse variabili del migliore modello con p variabili più una variabile aggiuntiva (i modelli non sono necessariamente nested). n (b) La scelta del numero p di variabili da considerare nel modello comparando tra loro i modelli migliori di classe p, p =1,2,…,k. Questa scelta è resa non univoca non essendo i modelli necessariamente inclusivi (nested).

3 3 Analisi Discriminante, Analisi della Regressione, Correlazione canonica n Lanalisi discriminante lineare di Fisher in presenza di soli due gruppi è riconducibile allanalisi della regressione lineare multipla considerando una variabile risposta definita da una variabile indicatrice di gruppo che assume il valore 1 se lunità statistica appartiene al primo gruppo e 0 diversamente. n In questa trasposizione la selezione delle variabili, nel caso di soli due gruppi, può avvenire con le stesse procedure viste per lanalisi della regressione lineare multipla. n Lanalisi discriminante lineare di Fisher, in presenza di g gruppi (2 g), è riconducibile allanalisi della correlazione canonica considerando g-1 variabili risposta indicatrici di gruppo di appartenenza che assumono il valore 1 se lunità statistica appartiene al j gruppo e 0 diversamente, j = 1,2,…,g-1 (Tatsuoka 1971, pagine ). n Nel caso di g gruppi (2 g), volendo affrontare il problema con lanalisi della regressione (anche con modelli probit, logit, reti neurali, modelli non lineari con approccio bayesiano,ecc.), va preliminarmente valutato se il problema conoscitivo va posto con la determinazione di g variabili indicatrici di gruppo, dove la j-esima variabile indicatrice distingue le unità statistiche del j-esimo gruppo rispetto le unità statistiche di tutti gli altri rimanenti g-1 gruppi, oppure sia più opportuno considerare g(g-1)/2 variabili indicatrici in modo da contrapporre distintamente le unità un gruppo con quelle di ciascuno dei rimanenti (g-1) gruppi, considerando di fatto g(g-1)/2 analisi discriminanti, cioè per tutte le coppie di due gruppi. n Il problema di ben definire cosa si desidera distinguere e tra chi (problema sollevato dal punto precedente) è determinante, quale problema preliminare, anche e proprio nellanalisi discriminante.

4 4 Leliminazione di variabili con contributo discriminatorio statisticamente non significativo: confronto tra modelli nested con il test F n Nel caso di soli due gruppi, considerate: n 1) le medie parziali m 1 e m 2 ; n 2) la differenza tra le medie parziali d = m 1 - m 2 ; n 3) le matrici varianza parziali (o di gruppo) S 1 e S 2 : S j = i (x i -m j )(x i -m j )/n j ; n 4) la matrice varianza within W: W= (n 1 S 1 + n 2 S 2 )/(n-2); n denotando con d p e W p le statistiche di cui al sub 2) e sub 4) nel caso di modello ridotto (solo p variabili), si possono calcolare le distanze di Mahalanobis al quadrato tra i due gruppi rispettivamente per il modello ridotto (solo p variabili) e per il modello pieno (tutte le p+q variabili): n D p 2 = d pW p -1 d p ; n D 2 p+q =(D p+q ) 2 = dW -1 d. n Le due distanze al quadrato calcolate permettono di determinare la statistica n z = [(n-k-1)/(k-p)]c 2 (D 2 p+q - D p 2 ) / (n-2+c 2 D p 2 ); con c = n 1 n 2 /n. n Assunta la normalità delle variabili rilevate e sotto lipotesi nulla (nullità nella funzione lineare discriminante dei coefficienti delle q=(k-p) variabili aggiuntive), la statistica z si distribuisce come una F di Snedercor con (k-p) e (n-k-1) gradi di libertà (Rao 1973, pag. 568, oppure, Mardia et al. Pag. 323 e teorema 3.6.2). n Lipotesi nulla viene rigettata per valori di z maggiori del valore critico: n F(k-p,n-k-1,1- ), oppure per valori piccoli di p-value (p-value <, =0.05).

5 5 Leliminazione di variabili con contributo discriminatorio statisticamente non significativo: Test t di Students per il confronto tra medie n In presenza di più gruppi, si considerano successivamente tutte le coppie possibili di due gruppi. Denotando con m i,j e m 2,j i valori medi parziali della variabile j-esima rispettivamente del primo e del secondo gruppo e con w jj la varianza della variabile j-esima dedotta dalla matrice media W delle varianze e covarianze within, si può valutare se la differenza (m i,j - m 2,j ) tra le medie di gruppo è statisticamente significativa, considerando la statistica test seguente: n t j = (m i,j - m 2,j ) / sqrt{w j,j [(1/n 1 )+(1/n 2 )]}; n e ciò per ogni singola variabile, ossia con j=1,2,…,k. n La statistica t j, per la verifica dellipotesi nulla H 0 : le medie parziali nella popolazione di riferimento sono uguali, contro lipotesi alternativa H 1 : le medie parziali nella popolazione di riferimento sono differenti, sotto ipotesi di normalità si distribuisce come una t di Students con (n 1 +n 2 -2) gradi di libertà. n Si inseriranno nel modello solo le variabili per le quali i valori della statistica test in valore assoluto risultano maggiori del valore critico t(n 1 +n 2 -2,1- /2), con usualmente pari a 0.05, oppure un p-value inferiore ad. Alternativamente si possono considerare i corrispondenti intervalli di confidenza evidenziando quelli che non contengono il valore 0. n S-Plus fornisce Intervalli di confidenza simultanei di livello 0.95, usando il metodo di Sidak. Vengono evidenziati con asterischi quelli che escludono il valore 0.

6 6 Eliminazione di variabili con contributo discriminatorio statisticamente non significativo con procedure: backward elimination, forward selection. n Il test F precedente, se si considera p = k-1, può essere impiegato per leventuale eliminazione di una variabile che non fornisce un contributo discriminatorio statisticamente significativo (F-to-Remove). n La procedura può essere impiegata successivamente per leliminazione di tutte le q = k - p (1 p k)) variabili con contributo discriminatorio statisticamente non significativo. n Il test F precedente, considerato il modello con prefissate p variabili, può essere impiegato per leventuale aggiunta al modello ridotto di una ulteriore variabile per ottenere così un modello nested con p+1, variabili aggiungendo delle k-p variabili inizialmente escluse dal modello ridotto, la variabile a cui corrisponde il più elevato p-value (purché inferiore di un valore piccolo di soglia pari ad, usualmente con =0.05) della statistica calcolata F (F-to- Enter). n La procedura può essere impiegata per linserimento successivo di variabili determinando, nel contempo, le variabili da inserire nel modello e il numero ottimo. n Ad ogni passo, passando dal modello ridotto (con p variabili) al modello successivo più esteso (con p+1 variabili), per mitigare leffetto connesso allesplorazione di modelli nested, si può valutare sempre con la statistica F (F-to-Remove) se risulta necessario rimuovere una delle p variabili precedentemente inserite nel modello. n Questultima procedura è implementata in STATGRAPHICS.

7 7 Leliminazione di variabili sulla base dei valori dei coefficienti standardizzati della funzione discriminante lineare. n Lordine di contributo nel definire la funzione discriminante lineare di una variabile (operando su variabili standardizzate) è dato dal rango, per valore assoluto, del corrispondente coefficiente, pertanto si possono selezionare soltanto quelle variabili con un valore sufficientemente elevato del corrispondente coefficiente.

8 8 Eliminazione di variabili via analisi delle componenti principali n Delle k variabili esplicative, le prime componenti principali colgono la variabilità strutturale; le ultime componenti principali costituiscono perturbazione. n Nella scelta delle variabili, si eliminano quelle variabili che sono più fortemente correlate (positivamente o negativamente) con le ultime componenti principali (quelle corrispondenti ad autovalori poco elevati). Si eliminano cioè le variabili che presentano i più elevati coefficienti in valore assoluto che non siano già state precedentemente eliminate fino alla riduzione di numero di variabili desiderata.

9 9 Valutazioni preliminari n Prefissate le variabili del modello, alcune valutazioni preliminari allanalisi discriminante riguardano: n La valutazione dellipotesi di omoschedasticità. Nel caso di rifiuto dellipotesi nulla di omoschedasticità (ipotesi di Homogeneity of Covariances H 0 : 1 = 2 =…= g, contro lipotesi alternativa H 1 : non tutte le varianze parziali sono uguali) verificata con le statistiche: Box. M, adj. M. –S-Plus prevede più modelli di matrice varianza media within fino al modello eteroschedastico. n La valutazione della uguaglianza delle medie parziali (ipotesi nulla H 0 : 1 = 2 =…= g, contro lipotesi alternativa H 1 : non tutte le medie parziali sono uguali) condizionatamente alla assunzione di omoschedasticità. –S-Plus esegue i seguenti tests for the equality of means dei gruppi nel loro insieme (assumendo lipotesi di omoschedasticità): –Wilks lambda, –Pillai trace, –Hoteling-Lawley trace, –Roy greatest root (upper bound). n La valutazione della uguaglianza delle medie parziali (ipotesi nulla) considerando singolarmente tutte le coppie distinte di due gruppi, sempre condizionatamente alla assunzione di omoschedasticità. –S-Plus esegue il seguente test for the equality of means per coppie di gruppi (assumendo lipotesi di omoschedasticità): –Hotellings T squared test : T 2 = [n 1 n 2 /(n 1 +n 2 )](m 1 -m 2 )W -1 (m 1 -m 2 ).

10 10 Valutazioni preliminari (continuazione). n STATGRAPHICS esegue solo lanalisi discriminante (canonica) di Fisher basata sugli autovalori ed autovettori di W -1 B. Valuta la significatività delle successive funzioni discriminanti lineari, di numero pari al minimo tra il numero delle variabili e il numero dei gruppi meno 1 (più precisamente tante quanti sono gli autovalori di W -1 B non nulli). n Più precisamente in presenza di m (m=numero autovalori non nulli di W -1 B) funzioni discriminanti, viene sottoposto a verifica di ipotesi il contributo discriminatorio delle ultime j funzioni discriminanti j = m-1,m-2,…,1, cioè al netto del contributo discriminatorio delle prime m-j funzioni discriminanti. n Si utilizza la statistica di Bartlett (approssimazione della statistica lambda di Wilks, vedi Mardia et al. 1982, pagina 84) decomponibile additivamente come somma dei contributi discriminatori di ciascuna successiva funzione discriminante (si veda, ad esempio, Tatsuoka 1971, pagina 164).

11 11 Wilks lambda test n Teorema n Se: n A ha f.d. Wishart p (I,m); n B ha f.d. Wishart p (I,n); n con A e B stocasticamente indipendenti ed m p, n allora la statistica: n = |A|/|A+B| = |I+A -1 B| -1 ; n ha f.d. Lambda di Wilks: (p,m,n), con parametri p, m ed n (Mardia et al. pagine ). n Corollario n Sotto lipotesi di Normalità, poste: n B = matrice varianza between; n W = matrice varianza within; n sotto lipotesi nulla H 0 : 1 = 2 =…= g | 1 = 2 =…= g, la statistica: n z = |W|/|W+B|= |I+W -1 B| -1 ; n ha f.d. di Wilks con parametri k, n-g e g-1, n con: n k = numero dei regressori, n n = numerosità campionaria, n g = numero dei gruppi. n Denotando con p, sono gli autovalori non nulli della matrice W -1 B, si ha: n z = |W|/|W+B| = i (1+ i ) -1 (Mardia et al. Pagina 83).

12 12 Statistica (approssimazione del lambda di Wilks) di Bartlett n La statistica v di Bartlett è definita come segue: n v = -[n-1-(k+g)/2]ln(1/ ) = -[n-1-(k+g)/2]ln( ) = [n-1-(k+g)/2]ln(1/ ); n con statistica di Wilks. n Poiché risulta: n = [(1+ 1 ) (1+ 2 ) (1+ m )] -1 ; n 1/ = (1+ 1 ) (1+ 2 ) (1+ m ); n segue: n v = [n-1-(k+g)/2][(1+ 1 )+(1+ 2 )+…+(1+ m )]. n Sotto lipotesi di normalità e lipotesi nulla H 0 : 1 = 2 =…= g | 1 = 2 =…= g, n posto: n v i = [n-1-(k+g)/2][(1+ i ), i = 1,2,…,m = min{k,(g-1)}; n la statistica: n v, ha approssimativamente f.d. chi-quadrato con k(g-1) gradi di libertà; n v - v 1, ha approssimativamente f.d. chi-quadrato con (k-1)(g-2) gradi di libertà; n v - v 1 - v 2, ha approssimativamente f.d. chi-quadrato con (k-2)(g-3) gradi di libertà; n ecc..

13 13 Two-sample Hotelling T 2 statistic n Sotto ipotesi di Normalità e sotto lipotesi nulla n H 0 : 1 = 2 | 1 = 2, n la statistica: n z = (n 1 n 2 /n)(m 1 -m 2 )W -1 (m 1 -m 2 ); n ha f.d. T 2 di Hotelling con k ed n-2 gradi di libertà. n Si noti che posto: n D 2 = (m 1 -m 2 )W -1 (m 1 -m 2 ); n sempre Sotto ipotesi di Normalità e sotto lipotesi nulla n H 0 : 1 = 2 | 1 = 2, n la statistica: n w = {[n 1 n 2 (n-k-1))]/[n(n-2)k]}D 2 = {(n-k-1)/[(n-2)k]}z; n ha f.d. F di Snedecor con k e (n-k-1) gradi di libertà. n Mardia et al., 1982, pagine 76-77; oppure Tatsuoka,1971, pag. 82.

14 14 Boxs M Likelihood Ratio Test n In ipotesi di Normalità e sotto lipotesi nulla H 0 : 1 = 2 =…= g, n il test basato basato sul rapporto di verosimiglianza (Likelihood Ratio Test ) risulta pari a: n M = i n i log(| S i -1 W |). n La statistica M si distribuisce come un chi-quadrato con k(k+1)(g-1)/2 gradi di libertà (Mardia et al.,1982, Pag. 140). n In particolare per numerosità di singoli gruppi ridotte Box ha proposto il seguente aggiustamento della statistica M: n adj.M = i (n i -1)log(| S ui -1 W u |), n con n S ui =[n i /(n i -1)] S i ; n W u =[n/(n-g)] W ; n = 1-[(2k 2 +3k-1)/6(k+1)(g-1)][ i 1/(n i -1) - 1/(n-g)]. n La statistica adj.M si distribuisce come un chi-quadrato con k(k+1)(g-1)/2 gradi di libertà (Mardia et al.,1982, Pag. 140).

15 15 BIBLIOGRAFIA n M.M. Tatsuoka, 1971, Multivariate Analysis, John Wiley. n K.V. Mardia, et al., 1982, Multivariate Analysis, John Wiley. n N.R. Draper and H. Smith, 1981, Applied Regression Analysis, John Wiley. n G.J. McLachlan, 1992, Discriminant Analysis and Statistical Pattern Recognition, John Wiley. n C.m. Bishop, 1995, Neural Networks for Pattern Recognition, Clarendon Press. n B.D. Ripley, 1996, Pattern Recognition and Neural Networks. Cambridge University Press.


Scaricare ppt "1 ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI NELLANALISI DISCRIMINANTE n Eliminazione di variabili con contributo discriminatorio statisticamente."

Presentazioni simili


Annunci Google