LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA.

Slides:



Advertisements
Presentazioni simili
Come organizzare i dati per un'analisi statistica al computer?
Advertisements

LA VARIABILITA’ IV lezione di Statistica Medica.
Intervalli di confidenza
Proprietà degli stimatori
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
Fondamenti della Misurazione
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
Lez. 3 - Gli Indici di VARIABILITA’
Analisi dei dati per i disegni ad un fattore
La regressione lineare trivariata
Analisi preliminari dei dati
Regressione lineare Esercitazione 24/01/04.
C – Indici di Asimmetria e Curtosi
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
redditività var. continua classi di redditività ( < 0 ; >= 0)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°10.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
Inferenza statistica per un singolo campione
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
MODELLO DI REGRESSIONE LINEARE MULTIPLA
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Alcune domande agli autori Lo studio affronta un argomento scientifico e/o clinico importante? Lo studio è originale? Lo studio è volto a provare le ipotesi.
STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Linee guida per la Chimica Analitica Statistica chemiometrica
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Sintesi della lezione Il concetto di variabilità Campo di variazione Differenza interquartile La varianza La deviazione standard Scostamenti medi VARIABILITA’
STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Selezione.
DATA MINING PER IL MARKETING
DATA MINING PER IL MARKETING
DATA MINING PER IL MARKETING
LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Esempio (d)istruttivo.
DATA MINING PER IL MARKETING
Metodi Quantitativi per Economia, Finanza e Management Lezione n°11 Regressione lineare multipla: Analisi di influenza. Case Study.
DATA MINING PER IL MARKETING
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: la stima del modello e la sua valutazione, metodi automatici.
La regressione II Cristina Zogmaister.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.
Lezione B.10 Regressione e inferenza: il modello lineare
DATA MINING PER IL MARKETING
Strumenti statistici in Excell
Il residuo nella predizione
IL CAMPIONE.
Assicurazioni vita e mercato del risparmio gestito Lezione 17 Stimatori bayesiani e allocazione del portafoglio.
Def : uno stimatore è una statistica T n le cui determinazioni servono a fornire delle stime del parametro ignoto  della v.c. X in cui sono state effettuate.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
La distribuzione campionaria della media
Altri concetti sulla regressione. Multicollinearità Varianza comune fra le VI: se è molto elevata produce stime instabili. Ci sono degli indici per indicare.
TRATTAMENTO STATISTICO DEI DATI ANALITICI
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Introduzione all’inferenza
Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Varianza.
Transcript della presentazione:

LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Metodi diagnostici

Limiti del modello lineare tipo 1. Osservazioni influenti/anomale: distorsione nelle stime 2. Errori correlati o eteroschedastici 3. Distribuzione non normale degli errori: la distribuzione t di Student NON è più valida in piccoli campioni Metodi diagnostici: Utilizzano i residui Si focalizzano sul problema 1, anche se possono dare utili informazioni su 2 e 3 (v. slides) Sono un output standard del software (ad es. SPSS e Excel)

Analisi dei residui Inconveniente: i residui «standardizzati» in realtà non lo sono: non hanno varianza costante  var = 1 – h ii Un residuo (standardizzato) elevato può essere dovuto a un’anomalia nei dati ma anche a una varianza più grande degli altri (maggiore variabilità campionaria) I residui sono il punto di partenza per identificare le unità con adattamento scadente o problemi nei dati. Però i residui variano su una scala che dipende da Y

Il residuo studentizzato di cancellazione è ottenuto eliminando l’unità i dal modello  mostra l’effetto di tale unità sulla previsione (l’unità i non contribuisce alla stima dei parametri) Inconveniente: la stima s al denominatore è calcolata usando anche il residuo e i  se e i è (molto) grande, ad es. perché y i è anomalo, anche s tenderà a essere grande (e quindi r i piccolo)

Esempio dati trade: log(Y) – log(X) Per esercizio: v. output e commento risultati

Esempio dati trade: log(Y) – log(X) Sembrerebbe tutto ok Qual è il grado di affidabilità di queste diagnostiche per l’individuazione di osservazioni anomale?

Esempio dati con outliers (v. sito del corso) y = x + erroreN(0, 16) Ci aspettiamo che tutte le diagnostiche non segnalino particolari problemi

Modello y = x + erroreN(0, 16) Tutti i residui (standard./stud.) sono compresi tra -3 e + 3

Modello y = x + erroreN(0, 16) 1 valore y contaminato Ci aspettiamo che tutte le diagnostiche mostrino l’anomalia del dato contaminato

Modello y = x + erroreN(0, 16) 1 valore y contaminato L’anomalia dell’unità contaminata è evidente L’effetto sul residuo di cancellazione è maggiore (più che doppio)

Modello y = x + erroreN(0, 16) 10 valori y contaminati R 2 comparabile a quello con 1 outlier Cosa succede ai residui?

L’analisi dei residui non segnala valori anomali (cfr. dati non contaminati): mascheramento Conclusione: l’analisi dei residui non è affidabile (nonostante sia un output standard del software) Soluzione: regressione robusta Modello y = x + erroreN(0, 16) 10 valori y contaminati

Statistica robusta Obiettivo: trovare una funzione che descriva la maggior parte delle osservazioni e non sia influenzata dalla presenza di valori atipici: Obiettivo: trovare una funzione che descriva la maggior parte delle osservazioni e non sia influenzata dalla presenza di valori atipici: –Min. somma dei valori assoluti dei residui (MAD) –Min. mediana dei quadrati dei residui (LMS) –Min. la somma del 50% dei residui al quadrato più piccoli (LTS)

Stimatori robusti Stimatore Minimi Quadrati (OLS) Stimatore LMS Stimatore LTS