La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA.

Presentazioni simili


Presentazione sul tema: "LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA."— Transcript della presentazione:

1 LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Metodi diagnostici

2 Limiti del modello lineare tipo 1. Osservazioni influenti/anomale: distorsione nelle stime 2. Errori correlati o eteroschedastici 3. Distribuzione non normale degli errori: la distribuzione t di Student NON è più valida in piccoli campioni Metodi diagnostici: Utilizzano i residui Si focalizzano sul problema 1, anche se possono dare utili informazioni su 2 e 3 (v. slides) Sono un output standard del software (ad es. SPSS e Excel)

3 Analisi dei residui Inconveniente: i residui «standardizzati» in realtà non lo sono: non hanno varianza costante  var = 1 – h ii Un residuo (standardizzato) elevato può essere dovuto a un’anomalia nei dati ma anche a una varianza più grande degli altri (maggiore variabilità campionaria) I residui sono il punto di partenza per identificare le unità con adattamento scadente o problemi nei dati. Però i residui variano su una scala che dipende da Y

4 Il residuo studentizzato di cancellazione è ottenuto eliminando l’unità i dal modello  mostra l’effetto di tale unità sulla previsione (l’unità i non contribuisce alla stima dei parametri) Inconveniente: la stima s al denominatore è calcolata usando anche il residuo e i  se e i è (molto) grande, ad es. perché y i è anomalo, anche s tenderà a essere grande (e quindi r i piccolo)

5 Esempio dati trade: log(Y) – log(X) Per esercizio: v. output e commento risultati

6 Esempio dati trade: log(Y) – log(X) Sembrerebbe tutto ok Qual è il grado di affidabilità di queste diagnostiche per l’individuazione di osservazioni anomale?

7 Esempio dati con outliers (v. sito del corso) y = 0.5 + 4x + erroreN(0, 16) Ci aspettiamo che tutte le diagnostiche non segnalino particolari problemi

8 Modello y = 0.5 + 4x + erroreN(0, 16) Tutti i residui (standard./stud.) sono compresi tra -3 e + 3

9 Modello y = 0.5 + 4x + erroreN(0, 16) 1 valore y contaminato Ci aspettiamo che tutte le diagnostiche mostrino l’anomalia del dato contaminato

10 Modello y = 0.5 + 4x + erroreN(0, 16) 1 valore y contaminato L’anomalia dell’unità contaminata è evidente L’effetto sul residuo di cancellazione è maggiore (più che doppio)

11 Modello y = 0.5 + 4x + erroreN(0, 16) 10 valori y contaminati R 2 comparabile a quello con 1 outlier Cosa succede ai residui?

12 L’analisi dei residui non segnala valori anomali (cfr. dati non contaminati): mascheramento Conclusione: l’analisi dei residui non è affidabile (nonostante sia un output standard del software) Soluzione: regressione robusta Modello y = 0.5 + 4x + erroreN(0, 16) 10 valori y contaminati

13 Statistica robusta Obiettivo: trovare una funzione che descriva la maggior parte delle osservazioni e non sia influenzata dalla presenza di valori atipici: Obiettivo: trovare una funzione che descriva la maggior parte delle osservazioni e non sia influenzata dalla presenza di valori atipici: –Min. somma dei valori assoluti dei residui (MAD) –Min. mediana dei quadrati dei residui (LMS) –Min. la somma del 50% dei residui al quadrato più piccoli (LTS)

14 Stimatori robusti Stimatore Minimi Quadrati (OLS) Stimatore LMS Stimatore LTS


Scaricare ppt "LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA."

Presentazioni simili


Annunci Google