Metodi Quantitativi per Economia, Finanza e Management Lezione n° 10.

Slides:



Advertisements
Presentazioni simili
Tecniche di analisi dei dati e impostazione dell’attività sperimentale
Advertisements

Come organizzare i dati per un'analisi statistica al computer?
Dipartimento di Economia
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
La regressione lineare trivariata
Analisi di covarianza L'analisi di covarianza è un'analisi a metà strada tra l'analisi di varianza e l'analisi di regressione. Nell'analisi di covarianza.
Analisi di covarianza L'analisi di covarianza è un'analisi a metà strada tra l'analisi di varianza e l'analisi di regressione. Nell'analisi di covarianza.
Scopo della lezione Regressione lineare multipla Cos’è
Dipartimento di Economia
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n° 8.
Analisi fattoriale Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Regressione logistica
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
redditività var. continua classi di redditività ( < 0 ; >= 0)
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°7.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°10.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
ALCUNI METODI STATISTICI PER LA SELEZIONE DELLE VARIABILI NELL’ANALISI DISCRIMINANTE Eliminazione di variabili con contributo discriminatorio statisticamente.
MODELLO DI REGRESSIONE LINEARE MULTIPLA: USO DELLE VARIABILI DUMMY (parte 2) In alcune circostanze è opportuno inserire, come variabili esplicative, delle.
IL MODELLO DI REGRESSIONE MULTIPLA
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
MODELLO DI REGRESSIONE LINEARE MULTIPLA
ALBERI DECISIONALI prima parte
La logica della regressione
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un.
Dall’analisi Fattoriale alla regressione lineare
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°6.
Regressione logistica
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Selezione.
Sottospazi vettoriali
LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Esempio (d)istruttivo.
Scomposizione della devianza
DATA MINING PER IL MARKETING
Metodi Quantitativi per Economia, Finanza e Management Lezione n°11 Regressione lineare multipla: Analisi di influenza. Case Study.
Dall’Analisi Fattoriale alla Regressione Lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n° 11.
DATA MINING PER IL MARKETING
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: la stima del modello e la sua valutazione, metodi automatici.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Introduzione alla regressione multipla
Metodi Quantitativi per Economia, Finanza e Management Lezione n°13 Regressione Logistica: La stima e l’interpretazione del del modello.
Regressione logistica
La regressione II Cristina Zogmaister.
Strumenti statistici in Excell
Metodi Quantitativi per Economia, Finanza e Management Lezione n°10 Regressione lineare multipla: la valutazione del modello, metodi automatici di selezione.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°7.
REGRESSIONE LINEARE Relazione tra una o più variabili risposta e una o più variabili esplicative, al fine di costruire una regola decisionale che permetta.
Regressione lineare - Esercizi
Regressione lineare - Esercizi Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°9.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Altri concetti sulla regressione. Multicollinearità Varianza comune fra le VI: se è molto elevata produce stime instabili. Ci sono degli indici per indicare.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°13.
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°10 Regressione lineare multipla: la valutazione del modello, multicollinearità, metodi.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: le ipotesi del modello, la stima del modello.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: le ipotesi del modello, la stima del modello.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: le ipotesi del modello, la stima del modello.
Transcript della presentazione:

Metodi Quantitativi per Economia, Finanza e Management Lezione n° 10

Equazione di regressione lineare multipla i-esima oss. su Y i-esima oss. su X 1 errore relativo alli-esima oss. intercettacoefficiente di X1 La matrice X=[1,X 1,…,X p ] è detta matrice del disegno. Il modello di regressione lineare Le ipotesi del modello

Poche variabili capacità previsiva fit parsimonia interpretabilità Criteri di selezione valutazioni soggettive confronto tra tutti i possibili modelli algoritmi di selezione automatica Tante variabili capacità previsiva fit parsimonia interpretabilità Il modello di regressione lineare La selezione dei regressori

Procedura di calcolo automatico che seleziona il sottoinsieme di variabili ottimo tra quelli possibili forward selection inserisce nellequazione una variabile per volta, basandosi sul contributo del regressore inserito alla spiegazione della variabilità di Y backward selection rimuove dallequazione una variabile per volta, basandosi sulla perdita di capacità esplicativa della variabilità di Y conseguente alleliminazione del regressore forward+backward selection (stepwise selection) ogni variabile può entrare/uscire dal modello Il modello di regressione lineare La selezione dei regressori

X 1,…,X p non sono vettori linearmente indipendenti forte correlazione tra i regressori (o alcuni di essi) La varianza dello stimatore dei minimi quadrati tende ad esplodere Problema di stabilità delle stime Il modello di regressione lineare La Multicollinearità

Y X1 X2 Il modello di regressione lineare La Multicollinearità

Y X1 X2 Il modello di regressione lineare La Multicollinearità

Per verificare la presenza di multicollinearità regressione lineare di X j sui rimanenti p-1 regressori - R j ² misura la quota di varianza di X j spiegata dai rimanenti p-1 regressori valori alti=multicollininearità. - Variance Inflation Index (VIF j ) VIF j = 1 / (1 – R j ²) misura il grado di relazione lineare tra X j e i rimanenti p-1 regressori valori alti=multicollininearità. Il modello di regressione lineare La Multicollinearità R2VIF

Soluzioni rimozione delle variabili correlate selezione di una variabile rappresentativa dal gruppo di variabili legate da relazione lineare analisi delle componenti principali trasformazione dei regressori in componenti non correlate (nella nuova regressione andranno incluse tutte le componenti principali) Il modello di regressione lineare La Multicollinearità

Il modello di regressione lineare La Multicollinearità Parameter Estimates VariableLabelDFDF Parameter Estimate Standard Error t ValuePr > |t|Standardized Estimate Variance Inflation Intercept < PAG_ORDPagato in contrassegno < PAG_MESPagato con rate mensili < TOT_ORDTotale ordini < LISTANumero di liste di appartenenza SESSOSesso CENResidenza Centro SUDResidenza Sud <

Il modello di regressione lineare La Multicollinearità Root MSE52693R-Square Dependent Mean30935Adj R-Sq Coeff Var Parameter Estimates VariableLabelDFParameter Estimate Standard Error t ValuePr > |t|Variance Inflation Intercept < Factor < Factor Factor < Factor < Factor Factor < Factor

Il modello di regressione lineare La Multicollinearità Root MSE52679R-Square Dependent Mean30935Adj R-Sq Coeff Var Parameter Estimates VariableLabelDFDF Parameter Estimate Standard Error t ValuePr > |t | Standardized Estimate Variance Inflation Intercept < Factor < Factor < Factor < Factor <

Si vuole verificare bontà delle stime adattamento del modello ai dati impatto delle singole osservazioni impatto dei regressori Strumenti test statistici indicatori di performance analisi dei residui analisi degli outliers analisi di influenza valutazione dei coefficienti e correlazioni parziali Il modello di regressione lineare La Valutazione del modello

Factor Analysis

If the information is spread among many correlated variables: we may have several different problems. Apparent information; Miss- understanding; Difficulties in the interpretation phase; Robustness of the results; Efficiency of the estimates; Degrees of freedom; ….. Factor Analysis

Quando le variabili considerate sono numerose spesso risultano tra loro correlate => numerosità e correlazione tra variabili porta a difficoltà di analisi Perché sintetizzare? Se linformazione è condivisa tra più variabili correlate tra loro, è ridondante utilizzarle tutte. La sintesi semplifica le analisi successive ma comporta una perdita di informazione, si deve evitare, di perdere informazioni rilevanti.

Factor Analysis Facebook

Factor Analysis Facebook Final Factors

Analisi fattoriale Quando le variabili considerate sono numerose spesso risultano tra loro correlate. Numerosità e correlazione tra variabili porta a difficoltà di analisi => ridurre il numero (semplificando lanalisi) evitando, però, di perdere informazioni rilevanti. LAnalisi Fattoriale è una tecnica statistica multivariata per lanalisi delle correlazioni esistenti tra variabili quantitative. A partire da una matrice di dati : X (nxp), con n osservazioni e p variabili originarie, consente di sintetizzare linformazione in un set ridotto di variabili trasformate (i fattori latenti).

Analisi fattoriale Perché sintetizzare mediante limpiego della tecnica? Se linformazione è dispersa tra più variabili correlate tra loro, le singole variabili faticano da sole a spiegare il fenomeno oggetto di studio, mentre combinate tra loro risultano molto più esplicative. Esempio: lattrattività di una città da cosa è data? Dalle caratteristiche del contesto, dalla struttura demografica della popolazione, dalla qualità della vita, dalla disponibilità di fattori quali capitale, forza lavoro, know-how, spazi, energia, materie prime, infrastrutture, ecc. I fattori latenti sono concetti che abbiamo in mente ma che non possiamo misurare direttamente.

Analisi fattoriale Le ipotesi del Modello Fattoriale Variabili Quantitative x 1, x 2,......, x i, x p Info x i = Info condivisa + Info specifica Var x i = Communality + Var specifica x i = f(CF 1,....,CF k ) +UF i i = 1, , p k << p CF i = Common Factor i UF i = Unique Factor i Corr (UF i, UF j ) = 0 per i ^= j Corr (CF i, CF j ) = 0 per i ^= j Corr (CF i, UF j ) = 0 per ogni i,j

Analisi fattoriale Factor Loadings & Factor Score Coefficients x i = l i1 CF 1 + l i2 CF l ik CF k + UFi l i1, l i2, ,l ik factor loadings i = 1, , psignificato fattori CF j = s j1 x 1 + s j2 x s jp x p s j1, s j2, ,s jp factor score coeff. j = 1,....., k << pcostruzione fattori

Analisi fattoriale Metodo delle Componenti Principali Uno dei metodi di stima dei coefficienti (i LOADINGS) è il Metodo delle Componenti Principali. Utilizzare tale metodo significa ipotizzare che il patrimonio informativo specifico delle variabili manifeste sia minimo, mentre sia massimo quello condiviso, spiegabile dai fattori comuni. Per la stima dei loadings si ricorre agli autovalori e agli autovettori della matrice di correlazione R: di fatto i loadings coincidono con le correlazioni tra le variabili manifeste e le componenti principali.

I fattori calcolati mediante il metodo delle CP sono combinazioni lineari delle variabili originarie Sono tra loro ortogonali (non correlate) Complessivamente spiegano la variabilità delle p variabili originarie Sono elencate in ordine decrescente rispetto alla variabilità spiegata Analisi fattoriale Metodo delle Componenti Principali CP j = s j1 x 1 + s j2 x s jp x p

Il numero massimo di componenti principali è pari al numero delle variabili originarie (p). La prima componente principale è una combinazione lineare delle p variabili originarie ed è caratterizzata da varianza più elevata, e così via fino allultima componente, combinazione sempre delle p variabili originarie, ma a varianza minima. Se la correlazione tra le p variabili è elevata, un numero k<<p (k molto inferiore a p) di componenti principali è sufficiente rappresenta in modo adeguato i dati originari, perché riassume una quota elevata della varianza totale. Analisi fattoriale Metodo delle Componenti Principali

I problemi di una analisi di questo tipo sono: a)-quante componenti considerare 1.metodo degli autovalori >1 2.rapporto tra numero di componenti e variabili; 3.percentuale di varianza spiegata; 4.le comunalità 5.lo scree plot; 6.interpretabilità delle componenti e loro rilevanza nella esecuzione dellanalisi successive b)-come interpretarle 1.correlazioni tra componenti principali e variabili originarie 2.rotazione delle componenti Analisi fattoriale

Analisi Fattoriale Sono stati individuati 20 attributi caratterizzanti il prodotto-biscotto È stato chiesto allintervistato di esprimere un giudizio in merito allimportanza che ogni attributo esercita nellatto di acquisto 1.Qualità degli ingredienti 2.Genuinità 3.Leggerezza 4.Sapore/Gusto 5.Caratteristiche Nutrizionali 6.Attenzione a Bisogni Specifici 7.Lievitazione Naturale 8.Produzione Artigianale 9.Forma/Stampo 10.Richiamo alla Tradizione 11.Grandezza della Confezione (Peso Netto) 12.Funzionalità della Confezione 13.Estetica della Confezione 14.Scadenza 15.Nome del Biscotto 16.Pubblicità e Comunicazione 17.Promozione e Offerte Speciali 18.Consigli per lUtilizzo 19.Prezzo 20.Notorietà della Marca

Analisi fattoriale

1. The ratio between the number of components and the variables: One out of Three 20 original variables 6-7 Factors

2. The percentage of the explained variance: Between 60%-75%

Factor Analysis 3. The scree plot : The point at which the scree begins

4. Eigenvalue: Eigenvalues>1

Factor Analysis

Analisi Fattoriale

5. Communalities: The quote of explained variability for each input variable must be satisfactory In the example the overall explained variability (which represents the mean value) is