LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA.

Slides:

Advertisements

Presentazioni simili

Come organizzare i dati per un'analisi statistica al computer?

Advertisements

LA VARIABILITA’ IV lezione di Statistica Medica.

Intervalli di confidenza

Proprietà degli stimatori

Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.

Fondamenti della Misurazione

Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.

Lez. 3 - Gli Indici di VARIABILITA’

Analisi dei dati per i disegni ad un fattore

La regressione lineare trivariata

Analisi preliminari dei dati

Regressione lineare Esercitazione 24/01/04.

C – Indici di Asimmetria e Curtosi

Progetto Pilota 2 Lettura e interpretazione dei risultati

Metodi Quantitativi per Economia, Finanza e Management Lezione n°5

Metodi Quantitativi per Economia, Finanza e Management Lezione n°8

Metodi Quantitativi per Economia, Finanza e Management Lezione n°9.

Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.

redditività var. continua classi di redditività ( < 0 ; >= 0)

Metodi Quantitativi per Economia, Finanza e Management Lezione n°10.

Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)

Inferenza statistica per un singolo campione

INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)

MODELLO DI REGRESSIONE LINEARE MULTIPLA

Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.

Alcune domande agli autori Lo studio affronta un argomento scientifico e/o clinico importante? Lo studio è originale? Lo studio è volto a provare le ipotesi.

STATISTICA a.a METODO DEI MINIMI QUADRATI REGRESSIONE

Lezione 8 Numerosità del campione

Num / 36 Lezione 9 Numerosità del campione.

Linee guida per la Chimica Analitica Statistica chemiometrica

STATISTICA PER LE DECISIONI DI MARKETING

STATISTICA PER LE DECISIONI DI MARKETING

STATISTICA PER LE DECISIONI DI MARKETING

STATISTICA PER LE DECISIONI DI MARKETING

STATISTICA PER LE DECISIONI DI MARKETING

STATISTICA PER LE DECISIONI DI MARKETING

STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA

Sintesi della lezione Il concetto di variabilità Campo di variazione Differenza interquartile La varianza La deviazione standard Scostamenti medi VARIABILITA’

STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Selezione.

DATA MINING PER IL MARKETING

DATA MINING PER IL MARKETING

DATA MINING PER IL MARKETING

LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Esempio (d)istruttivo.

DATA MINING PER IL MARKETING

Metodi Quantitativi per Economia, Finanza e Management Lezione n°11 Regressione lineare multipla: Analisi di influenza. Case Study.

DATA MINING PER IL MARKETING

Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: la stima del modello e la sua valutazione, metodi automatici.

La regressione II Cristina Zogmaister.

Metodi Quantitativi per Economia, Finanza e Management Lezione n°3.

Lezione B.10 Regressione e inferenza: il modello lineare

DATA MINING PER IL MARKETING

Strumenti statistici in Excell

Il residuo nella predizione

Assicurazioni vita e mercato del risparmio gestito Lezione 17 Stimatori bayesiani e allocazione del portafoglio.

Def : uno stimatore è una statistica T n le cui determinazioni servono a fornire delle stime del parametro ignoto  della v.c. X in cui sono state effettuate.

Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.

Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.

La distribuzione campionaria della media

Altri concetti sulla regressione. Multicollinearità Varianza comune fra le VI: se è molto elevata produce stime instabili. Ci sono degli indici per indicare.

TRATTAMENTO STATISTICO DEI DATI ANALITICI

DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso

Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.

DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso

DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso

INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE

Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.

DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso

Introduzione all’inferenza

Psicometria modulo 1 Scienze tecniche e psicologiche Prof. Carlo Fantoni Dipartimento di Scienze della Vita Università di Trieste Varianza.

Transcript della presentazione:

LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Metodi diagnostici

Limiti del modello lineare tipo 1. Osservazioni influenti/anomale: distorsione nelle stime 2. Errori correlati o eteroschedastici 3. Distribuzione non normale degli errori: la distribuzione t di Student NON è più valida in piccoli campioni Metodi diagnostici: Utilizzano i residui Si focalizzano sul problema 1, anche se possono dare utili informazioni su 2 e 3 (v. slides) Sono un output standard del software (ad es. SPSS e Excel)

Analisi dei residui Inconveniente: i residui «standardizzati» in realtà non lo sono: non hanno varianza costante  var = 1 – h ii Un residuo (standardizzato) elevato può essere dovuto a un’anomalia nei dati ma anche a una varianza più grande degli altri (maggiore variabilità campionaria) I residui sono il punto di partenza per identificare le unità con adattamento scadente o problemi nei dati. Però i residui variano su una scala che dipende da Y

Il residuo studentizzato di cancellazione è ottenuto eliminando l’unità i dal modello  mostra l’effetto di tale unità sulla previsione (l’unità i non contribuisce alla stima dei parametri) Inconveniente: la stima s al denominatore è calcolata usando anche il residuo e i  se e i è (molto) grande, ad es. perché y i è anomalo, anche s tenderà a essere grande (e quindi r i piccolo)

Esempio dati trade: log(Y) – log(X) Per esercizio: v. output e commento risultati

Esempio dati trade: log(Y) – log(X) Sembrerebbe tutto ok Qual è il grado di affidabilità di queste diagnostiche per l’individuazione di osservazioni anomale?

Esempio dati con outliers (v. sito del corso) y = x + erroreN(0, 16) Ci aspettiamo che tutte le diagnostiche non segnalino particolari problemi

Modello y = x + erroreN(0, 16) Tutti i residui (standard./stud.) sono compresi tra -3 e + 3

Modello y = x + erroreN(0, 16) 1 valore y contaminato Ci aspettiamo che tutte le diagnostiche mostrino l’anomalia del dato contaminato

Modello y = x + erroreN(0, 16) 1 valore y contaminato L’anomalia dell’unità contaminata è evidente L’effetto sul residuo di cancellazione è maggiore (più che doppio)

Modello y = x + erroreN(0, 16) 10 valori y contaminati R 2 comparabile a quello con 1 outlier Cosa succede ai residui?

L’analisi dei residui non segnala valori anomali (cfr. dati non contaminati): mascheramento Conclusione: l’analisi dei residui non è affidabile (nonostante sia un output standard del software) Soluzione: regressione robusta Modello y = x + erroreN(0, 16) 10 valori y contaminati

Statistica robusta Obiettivo: trovare una funzione che descriva la maggior parte delle osservazioni e non sia influenzata dalla presenza di valori atipici: Obiettivo: trovare una funzione che descriva la maggior parte delle osservazioni e non sia influenzata dalla presenza di valori atipici: –Min. somma dei valori assoluti dei residui (MAD) –Min. mediana dei quadrati dei residui (LMS) –Min. la somma del 50% dei residui al quadrato più piccoli (LTS)

Stimatori robusti Stimatore Minimi Quadrati (OLS) Stimatore LMS Stimatore LTS