Metodi Quantitativi per Economia, Finanza e Management Lezione n°10
Il modello di regressione lineare 1.Introduzione ai modelli di regressione – Case Study 2.Obiettivi 3.Le ipotesi del modello 4.La stima del modello 5.La valutazione del modello 6.Commenti
Indicatori di bontà del Modello Il modello di regressione lineare La stima del modello Y X Y X Y X R-SQUARE=0.7 F con p-value piccolo R-SQUARE=0.7 F con p-value piccolo R-SQUARE=0.7 F con p-value piccolo
OUTLIERS ? INFLUENTI ? Il modello di regressione lineare Lanalisi di Influenza
Osservazione anomala rispetto alla variabilità di Y non attira a sé il modello in maniera significativa OUTLIER Il modello di regressione lineare Lanalisi di Influenza
Osservazione anomala rispetto alla variabilità di Y attira a sé il modello in maniera significativa OUTLIER Il modello di regressione lineare Lanalisi di Influenza
Valutazione dellimpatto delle singole osservazioni osservazioni outlier che creano distorsione nella stima del modello - plot dei residui - plot X/Y osservazioni influenti che contribuiscono in modo sproporzionato alla stima del modello - plot dei residui - statistiche di influenza Il modello di regressione lineare Lanalisi di Influenza
Leverage H: i-esimo elemento della diagonale della matrice di proiezione. misura quanto unosservazione è lontana dal centro dei dati (ma tende a segnalare troppe oss influenti e tratta tutti i regressori nello stesso modo) oss influente se lev H>2*(p+1)/n Distanza di Cook: misura la variazione simultanea dei coefficienti quando unosservazione viene rimossa oss influente se D>1 Il modello di regressione lineare Statistiche di Influenza
Plot delle statistiche di influenza attenzione alle osservazioni nel quadrante in alto a destra D lev H INFLUENTI - DINFLUENTI – SIA D CHE LEVERAGE H INFLUENTI - LEVERAGE H Il modello di regressione lineare Statistiche di Influenza
Il modello di regressione lineare Statistiche di Influenza Root MSE55693R-Square Dependent Mean32431Adj R-Sq Coeff Var Parameter Estimates VariableLabelDFParameter Estimate Standard Error t ValuePr > |t| Intercept <.0001 PAG_ORDPagato in contrassegno <.0001 PAG_MESPagato con rate mensili <.0001 TOT_ORDTotale ordini <.0001 LISTANumero di liste di appartenenza SESSOSesso CENResidenza Centro SUDResidenza Sud <.0001
Il modello di regressione lineare Statistiche di Influenza
Il modello di regressione lineare Statistiche di Influenza DATA REGRESS1 (DROP = COOK H REDD_PRE RES_STUD); SET RESID_0; WHERE COOK < & H < 0.015; PROC REG DATA=REGRESS1; MODEL REDD=PAG_ORD PAG_MES TOT_ORD LISTA SESSO CEN SUD ; PAINT RSTUDENT.> 2 / SYMBOL='O'; PAINT RSTUDENT.<-2 / SYMBOL='O'; PLOT RSTUDENT.*P.; PLOT P.*REDD; PLOT COOKD.*H.; RUN;
Il modello di regressione lineare Statistiche di Influenza
Il modello di regressione lineare Statistiche di Influenza
Il modello di regressione lineare Statistiche di Influenza Root MSE52693R-Square Dependent Mean30935Adj R-Sq Coeff Var Parameter Estimates VariableLabelDFParameter Estimate Standard Error t ValuePr > |t| Intercept <.0001 PAG_ORDPagato in contrassegno <.0001 PAG_MESPagato con rate mensili <.0001 TOT_ORDTotale ordini <.0001 LISTANumero di liste di appartenenza SESSOSesso CENResidenza Centro SUDResidenza Sud <.0001
Si vuole verificare bontà delle stime adattamento del modello ai dati impatto delle singole osservazioni impatto dei regressori Strumenti test statistici indicatori di performance analisi dei residui analisi degli outliers analisi di influenza valutazione dei coefficienti e correlazioni parziali Il modello di regressione lineare La Valutazione del modello
Factor Analysis
If the information is spread among many correlated variables: we may have several different problems. Apparent information; Miss- understanding; Difficulties in the interpretation phase; Robustness of the results; Efficiency of the estimates; Degrees of freedom; ….. Factor Analysis
Quando le variabili considerate sono numerose spesso risultano tra loro correlate => numerosità e correlazione tra variabili porta a difficoltà di analisi Perché sintetizzare? Se linformazione è condivisa tra più variabili correlate tra loro, è ridondante utilizzarle tutte. La sintesi semplifica le analisi successive ma comporta una perdita di informazione, si deve evitare, di perdere informazioni rilevanti.
Factor Analysis
Analisi fattoriale Quando le variabili considerate sono numerose spesso risultano tra loro correlate. Numerosità e correlazione tra variabili porta a difficoltà di analisi => ridurre il numero (semplificando lanalisi) evitando, però, di perdere informazioni rilevanti. LAnalisi Fattoriale è una tecnica statistica multivariata per lanalisi delle correlazioni esistenti tra variabili quantitative. A partire da una matrice di dati : X (nxp), con n osservazioni e p variabili originarie, consente di sintetizzare linformazione in un set ridotto di variabili trasformate (i fattori latenti).
Analisi fattoriale Perché sintetizzare mediante limpiego della tecnica? Se linformazione è dispersa tra più variabili correlate tra loro, le singole variabili faticano da sole a spiegare il fenomeno oggetto di studio, mentre combinate tra loro risultano molto più esplicative. Esempio: lattrattività di una città da cosa è data? Dalle caratteristiche del contesto, dalla struttura demografica della popolazione, dalla qualità della vita, dalla disponibilità di fattori quali capitale, forza lavoro, know-how, spazi, energia, materie prime, infrastrutture, ecc. I fattori latenti sono concetti che abbiamo in mente ma che non possiamo misurare direttamente.