La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI NEI MODELLI DI REGRESSIONE LINEARE n Ipotesi e proprietà dello stimatore Ordinary Least Squares.

Presentazioni simili


Presentazione sul tema: "ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI NEI MODELLI DI REGRESSIONE LINEARE n Ipotesi e proprietà dello stimatore Ordinary Least Squares."— Transcript della presentazione:

1 ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI NEI MODELLI DI REGRESSIONE LINEARE n Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS) n Stimatore della varianza comune non nota 2 e f.d. dello stimatore OLS n Stimatore della varianza comune non nota 2 nel caso di modello nullo n Eliminazione delle variabili statisticamente non significative n Tests statistici per la selezione delle variabili n Il test F per la selezione delle variabili n Procedure operative per la selezione delle variabili: backward elimination, forward selection, stepwise selection. n Un criterio per leliminazione delle variabili esplicative ridondanti n Eliminazione di variabili via analisi delle componenti principali

2 Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS) n Per le variabili risposta y i |x i, i=1,2,…,n, complessivamente considerate nel vettore y|X, sotto le seguenti ipotesi: n 1) modello (parametrico) lineare: E(y|X, ) = X ; n 2) indipendenza condizionale; n 3) medesima varianza non dipendente da : VAR(y|X, ) = 2 I n ; n lo stimatore Ordinary Least Squares OLS = (XX) -1 Xy, ha valore medio e varianza rispettivamente: n E( OLS ) = ; n VAR( OLS ) = ( 2 /n)(XX/n) -1. n Se si assume anche lulteriore aggiuntiva ipotesi: n 4) la legge di distribuzione condizionale comune delle variabili risposta y i |x i, i=1,2,…,n, è Normale (ipotesi di normalità); n lo stimatore OLS coincide con lo stimatore di massima verosimiglianza ML ed ha f.d. Normale k-variata; n Diversamente, data la linearità dello stimatore, per il teorema del limite centrale, esso ha solo asintoticamente funzione di distribuzione Normale k-variata; in questo caso, per n elevato (grandi campioni) la sua f.d. sarà approssimativamente Normale k-variata.

3 Stimatore della varianza comune non nota 2 e sua f.d. n Lo stimatore corretto della varianza comune non nota 2 è dato da: n (1) s k 2 = (y-X OLS ) (y-X OLS )/(n-k). n Sotto lassunzione di normalità della legge di distribuzione condizionata comune delle variabili risposta, la statistica: n (2) z = (n-k) s k 2 / 2, n si distribuisce come un chi-quadrato con n-k gradi di libertà. n Essendo 2 non nota, e dunque solo stimabile con la (1), sempre sotto lassunzione di normalità, considerando i singoli stimatori OLS (j), il loro valore medio (j) e la stima della loro varianza j 2 = diag[s k 2 (XX) -1 ], j = 1,2,…,k, la statistica: n [ OLS (j) - (j)] /, n ha funzione di distribuzione t di Students con n-k gradi di libertà, j = 1,2,…,k.

4 Stimatore della varianza comune non nota 2 nel caso di modello nullo n Nel caso di modello nullo (in assenza di dipendenza delle variabili risposta dalle covariate (regressori o variabili indipendenti)), posto m = y1 n /n, lo stimatore della varianza comune non nota 2 è dato da: n s 0 2 =(y-m1 n )(y-m1 n )/(n-1). n In questo caso, sotto lassunzione di Normalità della legge di distribuzione condizionata comune delle variabili risposta, la statistica: n z = (n-1) s 0 2 / 2, n si distribuisce come un (chi-quadrato) con n-1 gradi di libertà.

5 Eliminazione delle variabili statisticamente non significative n Perché scartare delle variabili? n (i) Per realizzare un modello parsimonioso. n (ii) Per avere un adeguato rapporto tra la dimensione del campione e il numero di parametri del modello da stimare. n (iii) Per eliminare variabili esplicative fortemente correlate con variabili già entrate nel modello il cui contributo esplicativo aggiuntivo non può che essere statisticamente irrilevante (non significativo). n (iv) Per eliminare variabili il cui contributo esplicativo è comunque statisticamente irrilevante. n Il problema di scelta del modello migliore comporta: n (1) Prefissato il numero p di variabili da selezionare, la scelta delle p (1 p k) variabili delle k disponibili con coefficiente di correlazione multiplo al quadrato (o rapporto di determinazione) massimo, p=1,2,…,k. Fissato p (1 p k), si tratta di comparare k!/[p!(k-p)!] modelli di regressione. Questa comparazione può risultare laboriosa per numero di modelli da considerare. Il migliore modello con p+1 variabili non è necessariamente costituito dalle stesse variabili del migliore modello con p variabili più una variabile aggiuntiva (i modelli non sono necessariamente nested). n (2) La scelta del numero p di variabili da considerare nel modello comparando tra loro i modelli migliori. Questa scelta è resa non univoca non essendo i modelli necessariamente inclusivi (nested).

6 Tests statistici per la selezione delle variabili: tests sui valori dei coefficienti di regressione stimati (test t e test chi- quadrato) n La selezione delle p variabili (0 p k), da ritenere statisticamente significative nella modellazione lineare della dipendenza della variabile risposta dalle covariate, sotto ipotesi di normalità e stima della varianza non nota 2, può avvenire nei seguenti modi: n 1- Con verifica dellipotesi di nullità (H 0 : j =0, contro H 1 : j 0) di ogni singolo coefficiente di regressione. In tal caso si fa riferimento alla statistica determinata sotto lipotesi nulla: [ OLS (j) - 0]/sqrt( j 2 ), che ha f.d. t di Students con n-k gradi di libertà, j=1,2,…,k. Si rifiuta lipotesi nulla per valori elevati del valore assoluto della statistica (o per valori piccoli di p-value della statistica in valore assoluto). n 2- Con verifica dellipotesi di nullità (H 0 : q =0, contro H 1 : non tutti i singoli i di q sono nulli) di un gruppo di coefficienti di regressione, data la partizione: = ( p, q), con: p+q=k. In tal caso si fa riferimento alla statistica di Wald (forma quadratica) determinata sotto lipotesi nulla: w = ( q-OLS )[VAR( q-OLS )] -1 ( q-OLS ), che ha f.d. chi-quadrato con q gradi di libertà, se 2 è noto (Mardia et al., teorema 3.2.1); diversamente, sostituendo 2 con la sua stima s 2 p+q, risulta solo asintoticamente con f.d. chi-quadrato con q gradi di libertà.

7 Test sulla variazione della somma dei residui al quadrato: Il test F n 3- Considerato un modello lineare con un numero fissato di variabili già accettate (ritenute statisticamente significative) x p (1 p k) (modello ridotto), si tratta di verificare lipotesi di decremento non significativo (ipotesi nulla) della somma dei residui al quadrato (RSS: Residual Sum of Squares) conseguente allinserimento aggiuntivo di una o più ulteriori variabili esplicative (ulteriori covariate) x q (1 q k-p) (modello esteso). In questo caso ponendo: n x p+q = (x p, x q ); n RSS(x p ) = (y-X p p-OLS )(y-X p p-OLS ); n RSS(x p+q ) = (y-X p+q (p+q)-OLS )(y-X p+q (p+q)-OLS ); n si fa riferimento alla statistica: n z = {[RSS(x p ) - RSS(x p+q )]/q} / [RSS(x p+q )/(n-p-q)], n che, sotto lipotesi di normalità, ha f.d. F di Snedecor con gradi di libertà q ed [n-(p+q)]. n Si rigetta lipotesi nulla per valori di z maggiori del valore critico F(q,(n-p-q),(1- )), con usualmente =0.05, oppure con p-value minore di una soglia piccola prefissata (minore di ). n Il test F permette di comparare modelli necessariamente nested.

8 Procedure operative per la selezione delle variabili: backward elimination, forward selection, stepwise selection. n Dal test F suddetto, operando successivamente con q = 1, si ottengono le procedure di selezione seguenti: n Backward Elimination; n Forward Selection; n Stepwise Selection. n Vedi, ad esempio, Draper and Smith, Applied Regression Analysis, John Wiley & Sons, Inc.

9 Un criterio per leliminazione delle variabili esplicative ridondanti basato sui rapporti di determinazione tra variabili esplicative. n In presenza di multicollinearità si può pensare di determinare le p variabili delle k variabili esplicative inizialmente considerate che più sono in grado di spiegare le singole rimanenti k-p variabili. n Per ogni scelta di p variabili raccolte nel vettore x p, che, senza perdere in generalità, possiamo pensare siano le prime p variabili delle k considerate, si possono considerare i k-p rapporti di determinazione r 2 (x j,x p ), ottenibili con j = p+1,…,k, per le singole rimanenti k-p variabili e fare corrispondere a tale scelta, delle possibili, il rapporto di determinazione minimo: n Delle scelte possibili di p variabili, si sceglierà quella per la quale il rapporto di determinazione minimo è massimo.

10 Eliminazione di variabili via analisi delle componenti principali n Delle k variabili esplicative, le prime componenti principali colgono la variabilità strutturale; le ultime componenti principali costituiscono perturbazione. n Nella scelta delle variabili, si eliminano quelle variabili che sono più fortemente correlate (positivamente o negativamente) con le ultime componenti principali (quelle corrispondenti ad autovalori poco elevati). Si eliminano cioè le variabili che presentano i più elevati coefficienti in valore assoluto che non siano già state precedentemente eliminate fino alla riduzione desiderata del numero di variabili.


Scaricare ppt "ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI NEI MODELLI DI REGRESSIONE LINEARE n Ipotesi e proprietà dello stimatore Ordinary Least Squares."

Presentazioni simili


Annunci Google