ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI NELL’ANALISI DISCRIMINANTE Eliminazione di variabili con contributo discriminatorio statisticamente.

Slides:



Advertisements
Presentazioni simili
Tecniche di analisi dei dati e impostazione dell’attività sperimentale
Advertisements

Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Come organizzare i dati per un'analisi statistica al computer?
LA VARIABILITA’ IV lezione di Statistica Medica.
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
Variabili casuali a più dimensioni
Fondamenti della Misurazione
Analisi dei dati per i disegni ad un fattore
La regressione lineare trivariata
ANALISI DELLA COVARIANZA
C – Indici di Asimmetria e Curtosi
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 10.
Regressione logistica
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
redditività var. continua classi di redditività ( < 0 ; >= 0)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
Inferenza statistica per un singolo campione
IL MODELLO DI REGRESSIONE MULTIPLA
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
MODELLO DI REGRESSIONE LINEARE MULTIPLA
Analisi della varianza (a una via)
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
BIOINGEGNERIA S. Salinari Lezione 4.
STATISTICA PER LE DECISIONI DI MARKETING
“Analisi delle serie storiche e applicazioni”
Tecniche descrittive Utilizzano modelli matematici per semplificare le relazioni fra le variabili in studio Il fine è la descrizione semplificata del fenomeno.
ANALISI FATTORIALE. Cosè lanalisi fattoriale? Statistica descrittiva Rappresentazione delle variabili in studio. Statistica confermativa vs Confermare,
STATISTICA PER LE DECISIONI DI MARKETING
Test parametrici I test studiati nelle lezioni precedenti (test- t, test-z) consentono la verifica di ipotesi relative al valore di specifici parametri.
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Selezione.
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.
DATA MINING PER IL MARKETING
LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Esempio (d)istruttivo.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: la stima del modello e la sua valutazione, metodi automatici.
La verifica d’ipotesi Docente Dott. Nappo Daniela
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Un insieme limitato di misure permette di calcolare soltanto i valori di media e deviazione standard del campione, ed s. E’ però possibile valutare.
Corso di Analisi Statistica per le Imprese
Strumenti statistici in Excell
IL CAMPIONE.
Corso di Laurea in Scienze e Tecniche psicologiche
redditività var. continua classi di redditività ( < 0 ; >= 0)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°10 Regressione lineare multipla: la valutazione del modello, metodi automatici di selezione.
Analisi Multivariata dei Dati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9.
La statistica F Permette di confrontare due varianze, per stabilire se sono o no uguali. Simile al valore t di Student o al chi quadrato, l’F di Fisher.
Analisi discriminante lineare - contesto
ANALISI DEI GRUPPI I. La Cluster analysis è uno strumento di classificazione capace di scomporre una realtà complessa di osservazioni plurime in tipologie.
REGRESSIONE LINEARE Relazione tra una o più variabili risposta e una o più variabili esplicative, al fine di costruire una regola decisionale che permetta.
Esercizio Regressione DATI Per un campione casuale di 82 clienti di un'insegna della GDO, sono disponibili le seguenti variabili, riferite ad un mese di.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
ANALISI DELLA VARIANZA (ANOVA)
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
L’analisi di regressione e correlazione Prof. Luigi Piemontese.
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Distribuzioni limite La distribuzione normale Si consideri una variabile casuale rappresentata mediante una combinazione lineare di altre variabili casuali.
INTRODUZIONE ALL’ANALISI DELLA VARIANZA
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Varianza.
Transcript della presentazione:

ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI NELL’ANALISI DISCRIMINANTE Eliminazione di variabili con contributo discriminatorio statisticamente non significativo: i due aspetti del problema. L’Analisi Discriminante come Analisi della Regressione L’eliminazione di variabili con contributo discriminatorio statisticamente non significativo: il test F. L’eliminazione di variabili con contributo discriminatorio statisticamente non significativo: il test t per il confronto tra due medie. L’eliminazione di variabili con contributo discriminatorio statisticamente non significativo con procedure: backward elimination, forward selection L’eliminazione di variabili sulla base dei valori dei coefficienti standardizzati della funzione discriminante lineare. L’eliminazione di variabili via analisi delle componenti principali

Eliminazione di variabili con contributo discriminatorio statisticamente non significativo: i due aspetti del problema. Perché scartare delle variabili? (i) Per realizzare un modello parsimonioso. (ii) Per un adeguato rapporto tra numerosità campionaria e numero dei parametri del modello da stimare. (iii) Per eliminare variabili esplicative fortemente correlate con variabili già entrate nel modello il cui contributo esplicativo aggiuntivo non può che essere statisticamente non significativo. (iv) Per eliminare variabili il cui contributo discriminatorio è comunque statisticamente non significativo. Il problema di scelta del modello migliore (per numero e specifiche variabili incluse nel modello) comporta: (a) Prefissato il numero p di variabili da considerare, la scelta delle p (1 p  k) variabili delle k disponibili con capacità discriminatoria (cross validation o altro criterio) massima, p=1,2,…,k. Fissato p (1 p  k), si tratta di comparare k!/[p!(k-p)!] modelli di funzioni discriminanti. Questa comparazione può risultare laboriosa per numero di modelli da considerare. Il migliore modello con p+1 variabili non è necessariamente costituito dalle stesse variabili del migliore modello con p variabili più una variabile aggiuntiva (i modelli non sono necessariamente nested). (b) La scelta del numero p di variabili da considerare nel modello comparando tra loro i modelli migliori di classe p, p =1,2,…,k. Questa scelta è resa non univoca non essendo i modelli necessariamente inclusivi (nested).

Analisi Discriminante, Analisi della Regressione, Correlazione canonica L’analisi discriminante lineare di Fisher in presenza di soli due gruppi è riconducibile all’analisi della regressione lineare multipla considerando una variabile risposta definita da una variabile indicatrice di gruppo che assume il valore 1 se l’unità statistica appartiene al primo gruppo e 0 diversamente. In questa trasposizione la selezione delle variabili, nel caso di soli due gruppi, può avvenire con le stesse procedure viste per l’analisi della regressione lineare multipla. L’analisi discriminante lineare di Fisher, in presenza di g gruppi (2  g), è riconducibile all’analisi della correlazione canonica considerando g-1 variabili risposta indicatrici di gruppo di appartenenza che assumono il valore 1 se l’unità statistica appartiene al j gruppo e 0 diversamente, j = 1,2,…,g-1 (Tatsuoka 1971, pagine 177-183). Nel caso di g gruppi (2  g), volendo affrontare il problema con l’analisi della regressione (anche con modelli probit, logit, reti neurali, modelli non lineari con approccio bayesiano,ecc.), va preliminarmente valutato se il problema conoscitivo va posto con la determinazione di g variabili indicatrici di gruppo, dove la j-esima variabile indicatrice distingue le unità statistiche del j-esimo gruppo rispetto le unità statistiche di tutti gli altri rimanenti g-1 gruppi, oppure sia più opportuno considerare g(g-1)/2 variabili indicatrici in modo da contrapporre distintamente le unità un gruppo con quelle di ciascuno dei rimanenti (g-1) gruppi, considerando di fatto g(g-1)/2 analisi discriminanti, cioè per tutte le coppie di due gruppi. Il problema di ben definire cosa si desidera distinguere e tra chi (problema sollevato dal punto precedente) è determinante, quale problema preliminare, anche e proprio nell’analisi discriminante.

L’eliminazione di variabili con contributo discriminatorio statisticamente non significativo: confronto tra modelli nested con il test F Nel caso di soli due gruppi, considerate: 1) le medie parziali m1 e m2; 2) la differenza tra le medie parziali d = m1 - m2; 3) le matrici varianza parziali (o di gruppo) S1 e S2: Sj= i(xi -mj)(xi -mj)’/nj; 4) la matrice varianza within W: W= (n1S1 + n2S2)/(n-2); denotando con dp e Wp le statistiche di cui al sub 2) e sub 4) nel caso di modello ridotto (solo p variabili), si possono calcolare le distanze di Mahalanobis al quadrato tra i due gruppi rispettivamente per il modello ridotto (solo p variabili) e per il modello pieno (tutte le p+q variabili): Dp2 = dp’Wp-1dp; D2p+q =(Dp+q)2 = d’W-1d. Le due distanze al quadrato calcolate permettono di determinare la statistica z = [(n-k-1)/(k-p)]c2(D2p+q - Dp2) / (n-2+c2Dp2); con c = n1n2/n. Assunta la normalità delle variabili rilevate e sotto l’ipotesi nulla (nullità nella funzione lineare discriminante dei coefficienti delle q=(k-p) variabili aggiuntive), la statistica z si distribuisce come una F di Snedercor con (k-p) e (n-k-1) gradi di libertà (Rao 1973, pag. 568, oppure, Mardia et al. Pag. 323 e teorema 3.6.2). L’ipotesi nulla viene rigettata per valori di z maggiori del valore critico: F(k-p,n-k-1,1-), oppure per valori piccoli di p-value (p-value < , =0.05).

L’eliminazione di variabili con contributo discriminatorio statisticamente non significativo: Test t di Student’s per il confronto tra medie In presenza di più gruppi, si considerano successivamente tutte le coppie possibili di due gruppi. Denotando con mi,j e m2,j i valori medi parziali della variabile j-esima rispettivamente del primo e del secondo gruppo e con wjj la varianza della variabile j-esima dedotta dalla matrice media W delle varianze e covarianze within, si può valutare se la differenza (mi,j - m2,j) tra le medie di gruppo è statisticamente significativa, considerando la statistica test seguente: tj = (mi,j - m2,j) / sqrt{wj,j[(1/n1)+(1/n2)]}; e ciò per ogni singola variabile, ossia con j=1,2,…,k. La statistica tj, per la verifica dell’ipotesi nulla H0: le medie parziali nella popolazione di riferimento sono uguali, contro l’ipotesi alternativa H1: le medie parziali nella popolazione di riferimento sono differenti, sotto ipotesi di normalità si distribuisce come una t di Student’s con (n1+n2-2) gradi di libertà. Si inseriranno nel modello solo le variabili per le quali i valori della statistica test in valore assoluto risultano maggiori del valore critico t(n1+n2-2,1-/2), con usualmente  pari a 0.05, oppure un p-value inferiore ad . Alternativamente si possono considerare i corrispondenti intervalli di confidenza evidenziando quelli che non contengono il valore 0. S-Plus fornisce Intervalli di confidenza simultanei di livello 0.95, usando il metodo di Sidak. Vengono evidenziati con asterischi quelli che escludono il valore 0.

Eliminazione di variabili con contributo discriminatorio statisticamente non significativo con procedure: backward elimination, forward selection. Il test F precedente, se si considera p = k-1, può essere impiegato per l’eventuale eliminazione di una variabile che non fornisce un contributo discriminatorio statisticamente significativo (F-to-Remove). La procedura può essere impiegata successivamente per l’eliminazione di tutte le q = k - p (1 p  k)) variabili con contributo discriminatorio statisticamente non significativo. Il test F precedente, considerato il modello con prefissate p variabili, può essere impiegato per l’eventuale aggiunta al modello ridotto di una ulteriore variabile per ottenere così un modello nested con p+1, variabili aggiungendo delle k-p variabili inizialmente escluse dal modello ridotto, la variabile a cui corrisponde il più elevato p-value (purché inferiore di un valore piccolo di soglia pari ad , usualmente con  =0.05) della statistica calcolata F (F-to-Enter). La procedura può essere impiegata per l’inserimento successivo di variabili determinando, nel contempo, le variabili da inserire nel modello e il numero “ottimo”. Ad ogni passo, passando dal modello ridotto (con p variabili) al modello successivo più esteso (con p+1 variabili), per mitigare l’effetto connesso all’esplorazione di modelli nested, si può valutare sempre con la statistica F (F-to-Remove) se risulta necessario rimuovere una delle p variabili precedentemente inserite nel modello. Quest’ultima procedura è implementata in STATGRAPHICS.

L’eliminazione di variabili sulla base dei valori dei coefficienti standardizzati della funzione discriminante lineare. L’ordine di contributo nel definire la funzione discriminante lineare di una variabile (operando su variabili standardizzate) è dato dal rango, per valore assoluto, del corrispondente coefficiente, pertanto si possono selezionare soltanto quelle variabili con un valore sufficientemente elevato del corrispondente coefficiente.

Eliminazione di variabili via analisi delle componenti principali Delle k variabili esplicative, le prime componenti principali colgono la variabilità strutturale; le ultime componenti principali costituiscono perturbazione. Nella scelta delle variabili, si eliminano quelle variabili che sono più fortemente correlate (positivamente o negativamente) con le ultime componenti principali (quelle corrispondenti ad autovalori poco elevati). Si eliminano cioè le variabili che presentano i più elevati coefficienti in valore assoluto che non siano già state precedentemente eliminate fino alla riduzione di numero di variabili desiderata.

Valutazioni preliminari Prefissate le variabili del modello, alcune valutazioni preliminari all’analisi discriminante riguardano: La valutazione dell’ipotesi di omoschedasticità. Nel caso di rifiuto dell’ipotesi nulla di omoschedasticità (ipotesi di Homogeneity of Covariances H0: 1= 2 =…= g, contro l’ipotesi alternativa H1: non tutte le varianze parziali sono uguali) verificata con le statistiche: Box. M, adj. M. S-Plus prevede più modelli di matrice varianza media within fino al modello eteroschedastico. La valutazione della uguaglianza delle medie parziali (ipotesi nulla H0: 1= 2 =…= g, contro l’ipotesi alternativa H1: non tutte le medie parziali sono uguali) condizionatamente alla assunzione di omoschedasticità. S-Plus esegue i seguenti tests for the equality of means dei gruppi nel loro insieme (assumendo l’ipotesi di omoschedasticità): Wilks lambda, Pillai trace, Hoteling-Lawley trace, Roy greatest root (upper bound). La valutazione della uguaglianza delle medie parziali (ipotesi nulla) considerando singolarmente tutte le coppie distinte di due gruppi, sempre condizionatamente alla assunzione di omoschedasticità. S-Plus esegue il seguente test for the equality of means per coppie di gruppi (assumendo l’ipotesi di omoschedasticità): Hotelling’s T squared test : T2 = [n1n2/(n1+n2)](m1-m2)’W-1(m1-m2).

Valutazioni preliminari (continuazione). STATGRAPHICS esegue solo l’analisi discriminante (canonica) di Fisher basata sugli autovalori ed autovettori di W-1B. Valuta la significatività delle successive funzioni discriminanti lineari, di numero pari al minimo tra il numero delle variabili e il numero dei gruppi meno 1 (più precisamente tante quanti sono gli autovalori di W-1B non nulli). Più precisamente in presenza di m (m=numero autovalori non nulli di W-1B) funzioni discriminanti, viene sottoposto a verifica di ipotesi il contributo discriminatorio delle ultime j funzioni discriminanti j = m-1,m-2,…,1, cioè al netto del contributo discriminatorio delle prime m-j funzioni discriminanti. Si utilizza la statistica di Bartlett (approssimazione della statistica lambda di Wilks, vedi Mardia et al. 1982, pagina 84) decomponibile additivamente come somma dei contributi discriminatori di ciascuna successiva funzione discriminante (si veda, ad esempio, Tatsuoka 1971, pagina 164).

Wilks’ lambda test Teorema Se: A ha f.d. Wishartp(I,m); B ha f.d. Wishartp(I,n); con A e B stocasticamente indipendenti ed mp, allora la statistica:  = |A|/|A+B| = |I+A-1B|-1; ha f.d. Lambda di Wilks: (p,m,n), con parametri p, m ed n (Mardia et al. pagine 138-140). Corollario Sotto l’ipotesi di Normalità, poste: B = matrice varianza between; W = matrice varianza within; sotto l’ipotesi nulla H0: 1= 2 =…= g | 1= 2 =…= g, la statistica: z = |W|/|W+B|= |I+W-1B|-1; ha f.d. di Wilks con parametri k, n-g e g-1, con: k = numero dei regressori, n = numerosità campionaria, g = numero dei gruppi. Denotando con 1 2 ...  p, sono gli autovalori non nulli della matrice W-1B, si ha: z = |W|/|W+B| = i(1+ i)-1 (Mardia et al. Pagina 83).

Statistica (approssimazione del lambda di Wilks) di Bartlett La statistica v di Bartlett è definita come segue: v = -[n-1-(k+g)/2]ln(1/) = -[n-1-(k+g)/2]ln() = [n-1-(k+g)/2]ln(1/); con  statistica di Wilks. Poiché risulta:  = [(1+ 1) (1+ 2)••• (1+ m)]-1; 1/ = (1+ 1) (1+ 2)••• (1+ m); segue: v = [n-1-(k+g)/2][(1+1)+(1+2)+…+(1+m)]. Sotto l’ipotesi di normalità e l’ipotesi nulla H0: 1= 2 =…= g | 1= 2 =…= g, posto: vi = [n-1-(k+g)/2][(1+i), i = 1,2,…,m = min{k,(g-1)}; la statistica: v, ha approssimativamente f.d. chi-quadrato con k(g-1) gradi di libertà; v - v1 , ha approssimativamente f.d. chi-quadrato con (k-1)(g-2) gradi di libertà; v - v1 - v2, ha approssimativamente f.d. chi-quadrato con (k-2)(g-3) gradi di libertà; ecc..

Two-sample Hotelling T2 statistic Sotto ipotesi di Normalità e sotto l’ipotesi nulla H0: 1= 2 | 1= 2, la statistica: z = (n1n2/n)(m1-m2)’W-1(m1-m2); ha f.d. T2 di Hotelling con k ed n-2 gradi di libertà. Si noti che posto: D2 = (m1-m2)’W-1(m1-m2); sempre Sotto ipotesi di Normalità e sotto l’ipotesi nulla w = {[n1n2(n-k-1))]/[n(n-2)k]}D2 = {(n-k-1)/[(n-2)k]}z; ha f.d. F di Snedecor con k e (n-k-1) gradi di libertà. Mardia et al., 1982, pagine 76-77; oppure Tatsuoka,1971, pag. 82.

Box’s M Likelihood Ratio Test In ipotesi di Normalità e sotto l’ipotesi nulla H0: 1= 2 =…= g, il test basato basato sul rapporto di verosimiglianza (Likelihood Ratio Test ) risulta pari a: M = i nilog(| Si-1W |). La statistica M si distribuisce come un chi-quadrato con k(k+1)(g-1)/2 gradi di libertà (Mardia et al.,1982, Pag. 140). In particolare per numerosità di singoli gruppi ridotte Box ha proposto il seguente aggiustamento della statistica M: adj.M =  i (ni-1)log(| Sui-1Wu |), con Sui =[ni/(ni-1)] Si ; Wu=[n/(n-g)] W ;  = 1-[(2k2+3k-1)/6(k+1)(g-1)][i1/(ni-1) - 1/(n-g)]. La statistica adj.M si distribuisce come un chi-quadrato con k(k+1)(g-1)/2 gradi di libertà (Mardia et al.,1982, Pag. 140).

BIBLIOGRAFIA M.M. Tatsuoka, 1971, Multivariate Analysis, John Wiley. K.V. Mardia, et al., 1982, Multivariate Analysis, John Wiley. N.R. Draper and H. Smith, 1981, Applied Regression Analysis, John Wiley. G.J. McLachlan, 1992, Discriminant Analysis and Statistical Pattern Recognition, John Wiley. C.m. Bishop, 1995, Neural Networks for Pattern Recognition, Clarendon Press. B.D. Ripley, 1996, Pattern Recognition and Neural Networks. Cambridge University Press.