LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Metodi diagnostici
Limiti del modello lineare tipo 1. Osservazioni influenti/anomale: distorsione nelle stime 2. Errori correlati o eteroschedastici 3. Distribuzione non normale degli errori: la distribuzione t di Student NON è più valida in piccoli campioni Metodi diagnostici: Utilizzano i residui Si focalizzano sul problema 1, anche se possono dare utili informazioni su 2 e 3 (v. slides) Sono un output standard del software (ad es. SPSS e Excel)
Analisi dei residui Inconveniente: i residui «standardizzati» in realtà non lo sono: non hanno varianza costante var = 1 – h ii Un residuo (standardizzato) elevato può essere dovuto a un’anomalia nei dati ma anche a una varianza più grande degli altri (maggiore variabilità campionaria) I residui sono il punto di partenza per identificare le unità con adattamento scadente o problemi nei dati. Però i residui variano su una scala che dipende da Y
Il residuo studentizzato di cancellazione è ottenuto eliminando l’unità i dal modello mostra l’effetto di tale unità sulla previsione (l’unità i non contribuisce alla stima dei parametri) Inconveniente: la stima s al denominatore è calcolata usando anche il residuo e i se e i è (molto) grande, ad es. perché y i è anomalo, anche s tenderà a essere grande (e quindi r i piccolo)
Esempio dati trade: log(Y) – log(X) Per esercizio: v. output e commento risultati
Esempio dati trade: log(Y) – log(X) Sembrerebbe tutto ok Qual è il grado di affidabilità di queste diagnostiche per l’individuazione di osservazioni anomale?
Esempio dati con outliers (v. sito del corso) y = x + erroreN(0, 16) Ci aspettiamo che tutte le diagnostiche non segnalino particolari problemi
Modello y = x + erroreN(0, 16) Tutti i residui (standard./stud.) sono compresi tra -3 e + 3
Modello y = x + erroreN(0, 16) 1 valore y contaminato Ci aspettiamo che tutte le diagnostiche mostrino l’anomalia del dato contaminato
Modello y = x + erroreN(0, 16) 1 valore y contaminato L’anomalia dell’unità contaminata è evidente L’effetto sul residuo di cancellazione è maggiore (più che doppio)
Modello y = x + erroreN(0, 16) 10 valori y contaminati R 2 comparabile a quello con 1 outlier Cosa succede ai residui?
L’analisi dei residui non segnala valori anomali (cfr. dati non contaminati): mascheramento Conclusione: l’analisi dei residui non è affidabile (nonostante sia un output standard del software) Soluzione: regressione robusta Modello y = x + erroreN(0, 16) 10 valori y contaminati
Statistica robusta Obiettivo: trovare una funzione che descriva la maggior parte delle osservazioni e non sia influenzata dalla presenza di valori atipici: Obiettivo: trovare una funzione che descriva la maggior parte delle osservazioni e non sia influenzata dalla presenza di valori atipici: –Min. somma dei valori assoluti dei residui (MAD) –Min. mediana dei quadrati dei residui (LMS) –Min. la somma del 50% dei residui al quadrato più piccoli (LTS)
Stimatori robusti Stimatore Minimi Quadrati (OLS) Stimatore LMS Stimatore LTS