Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoAmadore Papa Modificato 11 anni fa
1
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 10
2
Equazione di regressione lineare multipla i-esima oss. su Y i-esima oss. su X 1 errore relativo alli-esima oss. intercettacoefficiente di X1 La matrice X=[1,X 1,…,X p ] è detta matrice del disegno. Il modello di regressione lineare Le ipotesi del modello
3
Poche variabili capacità previsiva fit parsimonia interpretabilità Criteri di selezione valutazioni soggettive confronto tra tutti i possibili modelli algoritmi di selezione automatica Tante variabili capacità previsiva fit parsimonia interpretabilità Il modello di regressione lineare La selezione dei regressori
4
Procedura di calcolo automatico che seleziona il sottoinsieme di variabili ottimo tra quelli possibili forward selection inserisce nellequazione una variabile per volta, basandosi sul contributo del regressore inserito alla spiegazione della variabilità di Y backward selection rimuove dallequazione una variabile per volta, basandosi sulla perdita di capacità esplicativa della variabilità di Y conseguente alleliminazione del regressore forward+backward selection (stepwise selection) ogni variabile può entrare/uscire dal modello Il modello di regressione lineare La selezione dei regressori
5
X 1,…,X p non sono vettori linearmente indipendenti forte correlazione tra i regressori (o alcuni di essi) La varianza dello stimatore dei minimi quadrati tende ad esplodere Problema di stabilità delle stime Il modello di regressione lineare La Multicollinearità
6
Y X1 X2 Il modello di regressione lineare La Multicollinearità
7
Y X1 X2 Il modello di regressione lineare La Multicollinearità
8
Per verificare la presenza di multicollinearità regressione lineare di X j sui rimanenti p-1 regressori - R j ² misura la quota di varianza di X j spiegata dai rimanenti p-1 regressori valori alti=multicollininearità. - Variance Inflation Index (VIF j ) VIF j = 1 / (1 – R j ²) misura il grado di relazione lineare tra X j e i rimanenti p-1 regressori valori alti=multicollininearità. Il modello di regressione lineare La Multicollinearità R2VIF 0.11.11 0.21.25 0.31.43 0.41.67 0.52.00 0.62.50 0.73.33 0.85.00 0.910.00 0.9520.00 0.9850.00 0.99100.00
9
Soluzioni rimozione delle variabili correlate selezione di una variabile rappresentativa dal gruppo di variabili legate da relazione lineare analisi delle componenti principali trasformazione dei regressori in componenti non correlate (nella nuova regressione andranno incluse tutte le componenti principali) Il modello di regressione lineare La Multicollinearità
10
Il modello di regressione lineare La Multicollinearità Parameter Estimates VariableLabelDFDF Parameter Estimate Standard Error t ValuePr > |t|Standardized Estimate Variance Inflation Intercept 1-146242205.46539-6.63<.000100 PAG_ORDPagato in contrassegno11.154190.0548221.05<.00010.368972.96182 PAG_MESPagato con rate mensili12.568760.0956726.85<.00010.275831.01781 TOT_ORDTotale ordini114434674.2608021.41<.00010.374062.94467 LISTANumero di liste di appartenenza1872.661801052.556420.830.40710.008451.00196 SESSOSesso13192.818461889.029311.690.09110.017261.00599 CENResidenza Centro1-6320.888552462.17857-2.570.0103-0.027921.14079 SUDResidenza Sud1-179231971.41534-9.09<.0001-0.101081.19214
11
Il modello di regressione lineare La Multicollinearità Root MSE52693R-Square0.6204 Dependent Mean30935Adj R-Sq0.6197 Coeff Var170.33339 Parameter Estimates VariableLabelDFParameter Estimate Standard Error t ValuePr > |t|Variance Inflation Intercept 130935869.9175135.56<.00010 Factor1 161162870.0360970.30<.00011.00000 Factor2 1-295.62943870.03609-0.340.73401.00000 Factor3 124154870.0360927.76<.00011.00000 Factor4 13446.48124870.036093.96<.00011.00000 Factor5 1861.78906870.036090.990.32201.00000 Factor6 1-13861870.03609-15.93<.00011.00000 Factor7 173.57034870.036090.080.93261.00000
12
Il modello di regressione lineare La Multicollinearità Root MSE52679R-Square0.6203 Dependent Mean30935Adj R-Sq0.6199 Coeff Var170.28930 Parameter Estimates VariableLabelDFDF Parameter Estimate Standard Error t ValuePr > |t | Standardized Estimate Variance Inflation Intercept 130935869.6923835.57<.000100 Factor1 161162869.8109270.32<.00010.715831.00000 Factor3 124154869.8109227.77<.00010.282691.00000 Factor4 13446.48124869.810923.96<.00010.040341.00000 Factor6 1-13861869.81092-15.94<.0001-0.162231.00000
13
Si vuole verificare bontà delle stime adattamento del modello ai dati impatto delle singole osservazioni impatto dei regressori Strumenti test statistici indicatori di performance analisi dei residui analisi degli outliers analisi di influenza valutazione dei coefficienti e correlazioni parziali Il modello di regressione lineare La Valutazione del modello
14
Factor Analysis
17
If the information is spread among many correlated variables: we may have several different problems. Apparent information; Miss- understanding; Difficulties in the interpretation phase; Robustness of the results; Efficiency of the estimates; Degrees of freedom; ….. Factor Analysis
18
Quando le variabili considerate sono numerose spesso risultano tra loro correlate => numerosità e correlazione tra variabili porta a difficoltà di analisi Perché sintetizzare? Se linformazione è condivisa tra più variabili correlate tra loro, è ridondante utilizzarle tutte. La sintesi semplifica le analisi successive ma comporta una perdita di informazione, si deve evitare, di perdere informazioni rilevanti.
19
Factor Analysis Facebook
20
Factor Analysis Facebook Final Factors
21
Analisi fattoriale Quando le variabili considerate sono numerose spesso risultano tra loro correlate. Numerosità e correlazione tra variabili porta a difficoltà di analisi => ridurre il numero (semplificando lanalisi) evitando, però, di perdere informazioni rilevanti. LAnalisi Fattoriale è una tecnica statistica multivariata per lanalisi delle correlazioni esistenti tra variabili quantitative. A partire da una matrice di dati : X (nxp), con n osservazioni e p variabili originarie, consente di sintetizzare linformazione in un set ridotto di variabili trasformate (i fattori latenti).
22
Analisi fattoriale Perché sintetizzare mediante limpiego della tecnica? Se linformazione è dispersa tra più variabili correlate tra loro, le singole variabili faticano da sole a spiegare il fenomeno oggetto di studio, mentre combinate tra loro risultano molto più esplicative. Esempio: lattrattività di una città da cosa è data? Dalle caratteristiche del contesto, dalla struttura demografica della popolazione, dalla qualità della vita, dalla disponibilità di fattori quali capitale, forza lavoro, know-how, spazi, energia, materie prime, infrastrutture, ecc. I fattori latenti sono concetti che abbiamo in mente ma che non possiamo misurare direttamente.
23
Analisi fattoriale Le ipotesi del Modello Fattoriale Variabili Quantitative x 1, x 2,......, x i,......... x p Info x i = Info condivisa + Info specifica Var x i = Communality + Var specifica x i = f(CF 1,....,CF k ) +UF i i = 1,........., p k << p CF i = Common Factor i UF i = Unique Factor i Corr (UF i, UF j ) = 0 per i ^= j Corr (CF i, CF j ) = 0 per i ^= j Corr (CF i, UF j ) = 0 per ogni i,j
24
Analisi fattoriale Factor Loadings & Factor Score Coefficients x i = l i1 CF 1 + l i2 CF 2 +.... + l ik CF k + UFi l i1, l i2,........,l ik factor loadings i = 1,........., psignificato fattori CF j = s j1 x 1 + s j2 x 2 +.............. + s jp x p s j1, s j2,........,s jp factor score coeff. j = 1,....., k << pcostruzione fattori
25
Analisi fattoriale Metodo delle Componenti Principali Uno dei metodi di stima dei coefficienti (i LOADINGS) è il Metodo delle Componenti Principali. Utilizzare tale metodo significa ipotizzare che il patrimonio informativo specifico delle variabili manifeste sia minimo, mentre sia massimo quello condiviso, spiegabile dai fattori comuni. Per la stima dei loadings si ricorre agli autovalori e agli autovettori della matrice di correlazione R: di fatto i loadings coincidono con le correlazioni tra le variabili manifeste e le componenti principali.
26
I fattori calcolati mediante il metodo delle CP sono combinazioni lineari delle variabili originarie Sono tra loro ortogonali (non correlate) Complessivamente spiegano la variabilità delle p variabili originarie Sono elencate in ordine decrescente rispetto alla variabilità spiegata Analisi fattoriale Metodo delle Componenti Principali CP j = s j1 x 1 + s j2 x 2 +.............. + s jp x p
27
Il numero massimo di componenti principali è pari al numero delle variabili originarie (p). La prima componente principale è una combinazione lineare delle p variabili originarie ed è caratterizzata da varianza più elevata, e così via fino allultima componente, combinazione sempre delle p variabili originarie, ma a varianza minima. Se la correlazione tra le p variabili è elevata, un numero k<<p (k molto inferiore a p) di componenti principali è sufficiente rappresenta in modo adeguato i dati originari, perché riassume una quota elevata della varianza totale. Analisi fattoriale Metodo delle Componenti Principali
28
I problemi di una analisi di questo tipo sono: a)-quante componenti considerare 1.metodo degli autovalori >1 2.rapporto tra numero di componenti e variabili; 3.percentuale di varianza spiegata; 4.le comunalità 5.lo scree plot; 6.interpretabilità delle componenti e loro rilevanza nella esecuzione dellanalisi successive b)-come interpretarle 1.correlazioni tra componenti principali e variabili originarie 2.rotazione delle componenti Analisi fattoriale
29
Analisi Fattoriale Sono stati individuati 20 attributi caratterizzanti il prodotto-biscotto È stato chiesto allintervistato di esprimere un giudizio in merito allimportanza che ogni attributo esercita nellatto di acquisto 1.Qualità degli ingredienti 2.Genuinità 3.Leggerezza 4.Sapore/Gusto 5.Caratteristiche Nutrizionali 6.Attenzione a Bisogni Specifici 7.Lievitazione Naturale 8.Produzione Artigianale 9.Forma/Stampo 10.Richiamo alla Tradizione 11.Grandezza della Confezione (Peso Netto) 12.Funzionalità della Confezione 13.Estetica della Confezione 14.Scadenza 15.Nome del Biscotto 16.Pubblicità e Comunicazione 17.Promozione e Offerte Speciali 18.Consigli per lUtilizzo 19.Prezzo 20.Notorietà della Marca
30
Analisi fattoriale
31
1. The ratio between the number of components and the variables: One out of Three 20 original variables 6-7 Factors
32
2. The percentage of the explained variance: Between 60%-75%
33
Factor Analysis 3. The scree plot : The point at which the scree begins
34
4. Eigenvalue: Eigenvalues>1
35
Factor Analysis
36
Analisi Fattoriale
37
5. Communalities: The quote of explained variability for each input variable must be satisfactory In the example the overall explained variability (which represents the mean value) is 0.61057
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.