ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI NELL’ANALISI DISCRIMINANTE Eliminazione di variabili con contributo discriminatorio statisticamente.

ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI NELL’ANALISI DISCRIMINANTE
Eliminazione di variabili con contributo discriminatorio statisticamente non significativo: i due aspetti del problema. L’Analisi Discriminante come Analisi della Regressione L’eliminazione di variabili con contributo discriminatorio statisticamente non significativo: il test F. L’eliminazione di variabili con contributo discriminatorio statisticamente non significativo: il test t per il confronto tra due medie. L’eliminazione di variabili con contributo discriminatorio statisticamente non significativo con procedure: backward elimination, forward selection L’eliminazione di variabili sulla base dei valori dei coefficienti standardizzati della funzione discriminante lineare. L’eliminazione di variabili via analisi delle componenti principali

Eliminazione di variabili con contributo discriminatorio statisticamente non significativo: i due aspetti del problema. Perché scartare delle variabili? (i) Per realizzare un modello parsimonioso. (ii) Per un adeguato rapporto tra numerosità campionaria e numero dei parametri del modello da stimare. (iii) Per eliminare variabili esplicative fortemente correlate con variabili già entrate nel modello il cui contributo esplicativo aggiuntivo non può che essere statisticamente non significativo. (iv) Per eliminare variabili il cui contributo discriminatorio è comunque statisticamente non significativo. Il problema di scelta del modello migliore (per numero e specifiche variabili incluse nel modello) comporta: (a) Prefissato il numero p di variabili da considerare, la scelta delle p (1 p  k) variabili delle k disponibili con capacità discriminatoria (cross validation o altro criterio) massima, p=1,2,…,k. Fissato p (1 p  k), si tratta di comparare k!/[p!(k-p)!] modelli di funzioni discriminanti. Questa comparazione può risultare laboriosa per numero di modelli da considerare. Il migliore modello con p+1 variabili non è necessariamente costituito dalle stesse variabili del migliore modello con p variabili più una variabile aggiuntiva (i modelli non sono necessariamente nested). (b) La scelta del numero p di variabili da considerare nel modello comparando tra loro i modelli migliori di classe p, p =1,2,…,k. Questa scelta è resa non univoca non essendo i modelli necessariamente inclusivi (nested).

Analisi Discriminante, Analisi della Regressione, Correlazione canonica
L’analisi discriminante lineare di Fisher in presenza di soli due gruppi è riconducibile all’analisi della regressione lineare multipla considerando una variabile risposta definita da una variabile indicatrice di gruppo che assume il valore 1 se l’unità statistica appartiene al primo gruppo e 0 diversamente. In questa trasposizione la selezione delle variabili, nel caso di soli due gruppi, può avvenire con le stesse procedure viste per l’analisi della regressione lineare multipla. L’analisi discriminante lineare di Fisher, in presenza di g gruppi (2  g), è riconducibile all’analisi della correlazione canonica considerando g-1 variabili risposta indicatrici di gruppo di appartenenza che assumono il valore 1 se l’unità statistica appartiene al j gruppo e 0 diversamente, j = 1,2,…,g-1 (Tatsuoka 1971, pagine ). Nel caso di g gruppi (2  g), volendo affrontare il problema con l’analisi della regressione (anche con modelli probit, logit, reti neurali, modelli non lineari con approccio bayesiano,ecc.), va preliminarmente valutato se il problema conoscitivo va posto con la determinazione di g variabili indicatrici di gruppo, dove la j-esima variabile indicatrice distingue le unità statistiche del j-esimo gruppo rispetto le unità statistiche di tutti gli altri rimanenti g-1 gruppi, oppure sia più opportuno considerare g(g-1)/2 variabili indicatrici in modo da contrapporre distintamente le unità un gruppo con quelle di ciascuno dei rimanenti (g-1) gruppi, considerando di fatto g(g-1)/2 analisi discriminanti, cioè per tutte le coppie di due gruppi. Il problema di ben definire cosa si desidera distinguere e tra chi (problema sollevato dal punto precedente) è determinante, quale problema preliminare, anche e proprio nell’analisi discriminante.

L’eliminazione di variabili con contributo discriminatorio statisticamente non significativo: confronto tra modelli nested con il test F Nel caso di soli due gruppi, considerate: 1) le medie parziali m1 e m2; 2) la differenza tra le medie parziali d = m1 - m2; 3) le matrici varianza parziali (o di gruppo) S1 e S2: Sj= i(xi -mj)(xi -mj)’/nj; 4) la matrice varianza within W: W= (n1S1 + n2S2)/(n-2); denotando con dp e Wp le statistiche di cui al sub 2) e sub 4) nel caso di modello ridotto (solo p variabili), si possono calcolare le distanze di Mahalanobis al quadrato tra i due gruppi rispettivamente per il modello ridotto (solo p variabili) e per il modello pieno (tutte le p+q variabili): Dp2 = dp’Wp-1dp; D2p+q =(Dp+q)2 = d’W-1d. Le due distanze al quadrato calcolate permettono di determinare la statistica z = [(n-k-1)/(k-p)]c2(D2p+q - Dp2) / (n-2+c2Dp2); con c = n1n2/n. Assunta la normalità delle variabili rilevate e sotto l’ipotesi nulla (nullità nella funzione lineare discriminante dei coefficienti delle q=(k-p) variabili aggiuntive), la statistica z si distribuisce come una F di Snedercor con (k-p) e (n-k-1) gradi di libertà (Rao 1973, pag. 568, oppure, Mardia et al. Pag. 323 e teorema 3.6.2). L’ipotesi nulla viene rigettata per valori di z maggiori del valore critico: F(k-p,n-k-1,1-), oppure per valori piccoli di p-value (p-value < , =0.05).

L’eliminazione di variabili con contributo discriminatorio statisticamente non significativo: Test t di Student’s per il confronto tra medie In presenza di più gruppi, si considerano successivamente tutte le coppie possibili di due gruppi. Denotando con mi,j e m2,j i valori medi parziali della variabile j-esima rispettivamente del primo e del secondo gruppo e con wjj la varianza della variabile j-esima dedotta dalla matrice media W delle varianze e covarianze within, si può valutare se la differenza (mi,j - m2,j) tra le medie di gruppo è statisticamente significativa, considerando la statistica test seguente: tj = (mi,j - m2,j) / sqrt{wj,j[(1/n1)+(1/n2)]}; e ciò per ogni singola variabile, ossia con j=1,2,…,k. La statistica tj, per la verifica dell’ipotesi nulla H0: le medie parziali nella popolazione di riferimento sono uguali, contro l’ipotesi alternativa H1: le medie parziali nella popolazione di riferimento sono differenti, sotto ipotesi di normalità si distribuisce come una t di Student’s con (n1+n2-2) gradi di libertà. Si inseriranno nel modello solo le variabili per le quali i valori della statistica test in valore assoluto risultano maggiori del valore critico t(n1+n2-2,1-/2), con usualmente  pari a 0.05, oppure un p-value inferiore ad . Alternativamente si possono considerare i corrispondenti intervalli di confidenza evidenziando quelli che non contengono il valore 0. S-Plus fornisce Intervalli di confidenza simultanei di livello 0.95, usando il metodo di Sidak. Vengono evidenziati con asterischi quelli che escludono il valore 0.

Eliminazione di variabili con contributo discriminatorio statisticamente non significativo con procedure: backward elimination, forward selection. Il test F precedente, se si considera p = k-1, può essere impiegato per l’eventuale eliminazione di una variabile che non fornisce un contributo discriminatorio statisticamente significativo (F-to-Remove). La procedura può essere impiegata successivamente per l’eliminazione di tutte le q = k - p (1 p  k)) variabili con contributo discriminatorio statisticamente non significativo. Il test F precedente, considerato il modello con prefissate p variabili, può essere impiegato per l’eventuale aggiunta al modello ridotto di una ulteriore variabile per ottenere così un modello nested con p+1, variabili aggiungendo delle k-p variabili inizialmente escluse dal modello ridotto, la variabile a cui corrisponde il più elevato p-value (purché inferiore di un valore piccolo di soglia pari ad , usualmente con  =0.05) della statistica calcolata F (F-to-Enter). La procedura può essere impiegata per l’inserimento successivo di variabili determinando, nel contempo, le variabili da inserire nel modello e il numero “ottimo”. Ad ogni passo, passando dal modello ridotto (con p variabili) al modello successivo più esteso (con p+1 variabili), per mitigare l’effetto connesso all’esplorazione di modelli nested, si può valutare sempre con la statistica F (F-to-Remove) se risulta necessario rimuovere una delle p variabili precedentemente inserite nel modello. Quest’ultima procedura è implementata in STATGRAPHICS.

L’eliminazione di variabili sulla base dei valori dei coefficienti standardizzati della funzione discriminante lineare. L’ordine di contributo nel definire la funzione discriminante lineare di una variabile (operando su variabili standardizzate) è dato dal rango, per valore assoluto, del corrispondente coefficiente, pertanto si possono selezionare soltanto quelle variabili con un valore sufficientemente elevato del corrispondente coefficiente.

Eliminazione di variabili via analisi delle componenti principali
Delle k variabili esplicative, le prime componenti principali colgono la variabilità strutturale; le ultime componenti principali costituiscono perturbazione. Nella scelta delle variabili, si eliminano quelle variabili che sono più fortemente correlate (positivamente o negativamente) con le ultime componenti principali (quelle corrispondenti ad autovalori poco elevati). Si eliminano cioè le variabili che presentano i più elevati coefficienti in valore assoluto che non siano già state precedentemente eliminate fino alla riduzione di numero di variabili desiderata.

Valutazioni preliminari
Prefissate le variabili del modello, alcune valutazioni preliminari all’analisi discriminante riguardano: La valutazione dell’ipotesi di omoschedasticità. Nel caso di rifiuto dell’ipotesi nulla di omoschedasticità (ipotesi di Homogeneity of Covariances H0: 1= 2 =…= g, contro l’ipotesi alternativa H1: non tutte le varianze parziali sono uguali) verificata con le statistiche: Box. M, adj. M. S-Plus prevede più modelli di matrice varianza media within fino al modello eteroschedastico. La valutazione della uguaglianza delle medie parziali (ipotesi nulla H0: 1= 2 =…= g, contro l’ipotesi alternativa H1: non tutte le medie parziali sono uguali) condizionatamente alla assunzione di omoschedasticità. S-Plus esegue i seguenti tests for the equality of means dei gruppi nel loro insieme (assumendo l’ipotesi di omoschedasticità): Wilks lambda, Pillai trace, Hoteling-Lawley trace, Roy greatest root (upper bound). La valutazione della uguaglianza delle medie parziali (ipotesi nulla) considerando singolarmente tutte le coppie distinte di due gruppi, sempre condizionatamente alla assunzione di omoschedasticità. S-Plus esegue il seguente test for the equality of means per coppie di gruppi (assumendo l’ipotesi di omoschedasticità): Hotelling’s T squared test : T2 = [n1n2/(n1+n2)](m1-m2)’W-1(m1-m2).

Valutazioni preliminari (continuazione).
STATGRAPHICS esegue solo l’analisi discriminante (canonica) di Fisher basata sugli autovalori ed autovettori di W-1B. Valuta la significatività delle successive funzioni discriminanti lineari, di numero pari al minimo tra il numero delle variabili e il numero dei gruppi meno 1 (più precisamente tante quanti sono gli autovalori di W-1B non nulli). Più precisamente in presenza di m (m=numero autovalori non nulli di W-1B) funzioni discriminanti, viene sottoposto a verifica di ipotesi il contributo discriminatorio delle ultime j funzioni discriminanti j = m-1,m-2,…,1, cioè al netto del contributo discriminatorio delle prime m-j funzioni discriminanti. Si utilizza la statistica di Bartlett (approssimazione della statistica lambda di Wilks, vedi Mardia et al. 1982, pagina 84) decomponibile additivamente come somma dei contributi discriminatori di ciascuna successiva funzione discriminante (si veda, ad esempio, Tatsuoka 1971, pagina 164).

Wilks’ lambda test Teorema Se: A ha f.d. Wishartp(I,m);
B ha f.d. Wishartp(I,n); con A e B stocasticamente indipendenti ed mp, allora la statistica:  = |A|/|A+B| = |I+A-1B|-1; ha f.d. Lambda di Wilks: (p,m,n), con parametri p, m ed n (Mardia et al. pagine ). Corollario Sotto l’ipotesi di Normalità, poste: B = matrice varianza between; W = matrice varianza within; sotto l’ipotesi nulla H0: 1= 2 =…= g | 1= 2 =…= g, la statistica: z = |W|/|W+B|= |I+W-1B|-1; ha f.d. di Wilks con parametri k, n-g e g-1, con: k = numero dei regressori, n = numerosità campionaria, g = numero dei gruppi. Denotando con 1 2 ...  p, sono gli autovalori non nulli della matrice W-1B, si ha: z = |W|/|W+B| = i(1+ i)-1 (Mardia et al. Pagina 83).

Statistica (approssimazione del lambda di Wilks) di Bartlett
La statistica v di Bartlett è definita come segue: v = -[n-1-(k+g)/2]ln(1/) = -[n-1-(k+g)/2]ln() = [n-1-(k+g)/2]ln(1/); con  statistica di Wilks. Poiché risulta:  = [(1+ 1) (1+ 2)••• (1+ m)]-1; 1/ = (1+ 1) (1+ 2)••• (1+ m); segue: v = [n-1-(k+g)/2][(1+1)+(1+2)+…+(1+m)]. Sotto l’ipotesi di normalità e l’ipotesi nulla H0: 1= 2 =…= g | 1= 2 =…= g, posto: vi = [n-1-(k+g)/2][(1+i), i = 1,2,…,m = min{k,(g-1)}; la statistica: v, ha approssimativamente f.d. chi-quadrato con k(g-1) gradi di libertà; v - v1 , ha approssimativamente f.d. chi-quadrato con (k-1)(g-2) gradi di libertà; v - v1 - v2, ha approssimativamente f.d. chi-quadrato con (k-2)(g-3) gradi di libertà; ecc..

Two-sample Hotelling T2 statistic
Sotto ipotesi di Normalità e sotto l’ipotesi nulla H0: 1= 2 | 1= 2, la statistica: z = (n1n2/n)(m1-m2)’W-1(m1-m2); ha f.d. T2 di Hotelling con k ed n-2 gradi di libertà. Si noti che posto: D2 = (m1-m2)’W-1(m1-m2); sempre Sotto ipotesi di Normalità e sotto l’ipotesi nulla w = {[n1n2(n-k-1))]/[n(n-2)k]}D2 = {(n-k-1)/[(n-2)k]}z; ha f.d. F di Snedecor con k e (n-k-1) gradi di libertà. Mardia et al., 1982, pagine 76-77; oppure Tatsuoka,1971, pag. 82.

Box’s M Likelihood Ratio Test
In ipotesi di Normalità e sotto l’ipotesi nulla H0: 1= 2 =…= g, il test basato basato sul rapporto di verosimiglianza (Likelihood Ratio Test ) risulta pari a: M = i nilog(| Si-1W |). La statistica M si distribuisce come un chi-quadrato con k(k+1)(g-1)/2 gradi di libertà (Mardia et al.,1982, Pag. 140). In particolare per numerosità di singoli gruppi ridotte Box ha proposto il seguente aggiustamento della statistica M: adj.M =  i (ni-1)log(| Sui-1Wu |), con Sui =[ni/(ni-1)] Si ; Wu=[n/(n-g)] W ;  = 1-[(2k2+3k-1)/6(k+1)(g-1)][i1/(ni-1) - 1/(n-g)]. La statistica adj.M si distribuisce come un chi-quadrato con k(k+1)(g-1)/2 gradi di libertà (Mardia et al.,1982, Pag. 140).

BIBLIOGRAFIA M.M. Tatsuoka, 1971, Multivariate Analysis, John Wiley.
K.V. Mardia, et al., 1982, Multivariate Analysis, John Wiley. N.R. Draper and H. Smith, 1981, Applied Regression Analysis, John Wiley. G.J. McLachlan, 1992, Discriminant Analysis and Statistical Pattern Recognition, John Wiley. C.m. Bishop, 1995, Neural Networks for Pattern Recognition, Clarendon Press. B.D. Ripley, 1996, Pattern Recognition and Neural Networks. Cambridge University Press.

ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI NELL’ANALISI DISCRIMINANTE Eliminazione di variabili con contributo discriminatorio statisticamente.

Presentazioni simili

Presentazione sul tema: "ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI NELL’ANALISI DISCRIMINANTE Eliminazione di variabili con contributo discriminatorio statisticamente."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI NELL’ANALISI DISCRIMINANTE Eliminazione di variabili con contributo discriminatorio statisticamente.

Presentazioni simili

Presentazione sul tema: "ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI NELL’ANALISI DISCRIMINANTE Eliminazione di variabili con contributo discriminatorio statisticamente."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back