Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoBonfilia Spinelli Modificato 10 anni fa
1
LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Metodi diagnostici
2
Limiti del modello lineare tipo 1. Osservazioni influenti/anomale: distorsione nelle stime 2. Errori correlati o eteroschedastici 3. Distribuzione non normale degli errori: la distribuzione t di Student NON è più valida in piccoli campioni Metodi diagnostici: Utilizzano i residui Si focalizzano sul problema 1, anche se possono dare utili informazioni su 2 e 3 (v. slides) Sono un output standard del software (ad es. SPSS e Excel)
3
Analisi dei residui Inconveniente: i residui «standardizzati» in realtà non lo sono: non hanno varianza costante var = 1 – h ii Un residuo (standardizzato) elevato può essere dovuto a un’anomalia nei dati ma anche a una varianza più grande degli altri (maggiore variabilità campionaria) I residui sono il punto di partenza per identificare le unità con adattamento scadente o problemi nei dati. Però i residui variano su una scala che dipende da Y
4
Il residuo studentizzato di cancellazione è ottenuto eliminando l’unità i dal modello mostra l’effetto di tale unità sulla previsione (l’unità i non contribuisce alla stima dei parametri) Inconveniente: la stima s al denominatore è calcolata usando anche il residuo e i se e i è (molto) grande, ad es. perché y i è anomalo, anche s tenderà a essere grande (e quindi r i piccolo)
5
Esempio dati trade: log(Y) – log(X) Per esercizio: v. output e commento risultati
6
Esempio dati trade: log(Y) – log(X) Sembrerebbe tutto ok Qual è il grado di affidabilità di queste diagnostiche per l’individuazione di osservazioni anomale?
7
Esempio dati con outliers (v. sito del corso) y = 0.5 + 4x + erroreN(0, 16) Ci aspettiamo che tutte le diagnostiche non segnalino particolari problemi
8
Modello y = 0.5 + 4x + erroreN(0, 16) Tutti i residui (standard./stud.) sono compresi tra -3 e + 3
9
Modello y = 0.5 + 4x + erroreN(0, 16) 1 valore y contaminato Ci aspettiamo che tutte le diagnostiche mostrino l’anomalia del dato contaminato
10
Modello y = 0.5 + 4x + erroreN(0, 16) 1 valore y contaminato L’anomalia dell’unità contaminata è evidente L’effetto sul residuo di cancellazione è maggiore (più che doppio)
11
Modello y = 0.5 + 4x + erroreN(0, 16) 10 valori y contaminati R 2 comparabile a quello con 1 outlier Cosa succede ai residui?
12
L’analisi dei residui non segnala valori anomali (cfr. dati non contaminati): mascheramento Conclusione: l’analisi dei residui non è affidabile (nonostante sia un output standard del software) Soluzione: regressione robusta Modello y = 0.5 + 4x + erroreN(0, 16) 10 valori y contaminati
13
Statistica robusta Obiettivo: trovare una funzione che descriva la maggior parte delle osservazioni e non sia influenzata dalla presenza di valori atipici: Obiettivo: trovare una funzione che descriva la maggior parte delle osservazioni e non sia influenzata dalla presenza di valori atipici: –Min. somma dei valori assoluti dei residui (MAD) –Min. mediana dei quadrati dei residui (LMS) –Min. la somma del 50% dei residui al quadrato più piccoli (LTS)
14
Stimatori robusti Stimatore Minimi Quadrati (OLS) Stimatore LMS Stimatore LTS
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.