La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Il modello di regressione lineare multivariato

Presentazioni simili


Presentazione sul tema: "Il modello di regressione lineare multivariato"— Transcript della presentazione:

1 Il modello di regressione lineare multivariato
Capitolo 4 Il modello di regressione lineare multivariato Richiami al modello di regressione lineare semplice Il modello di regressione lineare multipla Violazione delle ipotesi e analisi dei residui Modelli con variabile dipendente dicotomica Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

2 L’analisi di regressione
Obiettivo: investigare sulle relazioni empiriche tra variabili per analizzare le cause che possono spiegare un dato fenomeno I modelli utilizzati sono basati su funzioni lineari nei parametri del tipo Y = α + β X Alcune funzioni non lineari sono riconducibili a lineari attraverso opportune trasformazioni delle variabili: Y = α Xβ  log Y = log α + β log X Anche in caso di relazioni non lineari e non linearizzabili una prima analisi fondata su forme funzionali lineari è un utile punto di partenza per passare poi a eventuali modelli più complessi Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

3 L’analisi di regressione
Regressione semplice: una sola variabile indipendente o esplicativa; Regressione multipla: più di una variabile indipendente Esempio: effetti sulle vendite di un supermercato derivanti da una azione di promozione Da un campione di supermercati si rilevano le vendite settimanali e la spesa settimanale per promozione  regressione semplice Se si ritiene che anche altre cause influiscano sulle vendite si rilevano anche altre variabili  regressione multipla Obiettivi conoscitivi: c’è una relazione significativa tra il volume delle vendite e la spesa per promozione (e le altre variabili) ? Sulla base di tale relazione come prevedere il volume delle vendite a seguito di una spesa settimanale per promozione di 1500 euro ? Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

4 Le fasi di un’analisi di regressione lineare
- Si ipotizza una relazione funzionale lineare tra una variabile oggetto di studio (variabile dipendente o risposta) e una o più altre variabili (indipendenti o esplicative) - Si stimano i parametri di tale relazione funzionale sulla base dei dati campionari a disposizione - Si effettuano i test statistici sulla significatività dei parametri e si valuta la bontà dell’adattamento del modello ai dati Si effettuano altre analisi di conferma sulla validità delle assunzioni su cui si basa la stima del modello (linearità e altro) Eventualmente, sulla base del modello stimato e di valori ipotizzati per le variabili indipendenti si stimano i valori previsti per la variabile dipendente Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

5 Il modello di regressione lineare semplice - Richiami
Su un campione di n unità sono osservati i valori relativi a due variabili: Y variabile dipendente o variabile risposta X variabile indipendente o variabile esplicativa Esempio: Y volume delle vendite; X spesa per promozione Campione di supermercati: Diagramma di dispersione: Vendite (x100 euro) Spesa prom (x10 euro) 43.2 48 132 134 155 122 76 13 100.9 80 187.4 99 185 77 60.7 50 82.9 44 61.3 25 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

6 Il modello di regressione lineare semplice
Relazione lineare ipotizzata: i = 1, 2,…, n α e β: parametri del modello di regressione α: intercetta; β: coefficiente di regressione u: termine di errore (discrepanze tra valori osservati di Y e quelli derivanti da una relazione esatta con X). Comprende: - errori di specificazione (alla spiegazione esatta di Y in genere concorrono moltissime variabili esplicative, ma solo la principale di esse – o le principali nel caso della regressione multipla – sono inseribili nel modello); - errori di misura o di risposta presenti nella variabile Y Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

7 Le ipotesi del modello i = 1, 2,…, n ui: variabili casuali che si
ipotizzano: - distribuite normalmente - a media E(ui) = 0 - varianza costante E(ui2) = σ2u - covarianza nulla E(ui , uj) = 0 X è assunta non affetta da errore di misura Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

8 La retta di regressione stimata
In base alle n osservazioni campionarie: stime dei parametri α e β del modello di regressione, indicate con a e b Stimati i parametri, la relazione che lega le due variabili corrisponde a una particolare retta nel piano: retta di regressione stimata dove: indica l’ordinata teorica corrispondente ad un dato valore di X il coefficiente a - o intercetta - rappresenta l’ordinata all’origine della retta il coefficiente di regressione b è il coefficiente angolare della retta Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

9 La stima dei parametri | ei ei : residui campionari
La retta stimata è tanto più adatta a descrivere la relazione tra le due variabili quanto più i punti osservati sono vicini a tale retta, ovvero quanto minori sono i “residui campionari” Esempio: Yi | ei ei : residui campionari Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

10 La stima dei parametri Criterio dei minimi quadrati (OLS): a e b sono scelti in modo da minimizzare la somma dei quadrati dei residui campionari Le derivate parziali di f(a,b) rispetto ai parametri a e b : Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

11 La stima dei parametri Dalla risoluzione del sistema di equazioni si ottengono le seguenti stime dei parametri: Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

12 Esempio – Stima dei parametri
Dati dell’esempio precedente: stime dei parametri Parametri Stima a b il coefficiente di regressione ci dice che a seguito di un incremento unitario della variabile X (una decina di euro settim. di spesa di promozione) la variabile Y subisce un incremento di 0.94 (centinaia di euro di vendite: 94 euro) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

13 Distribuzioni dei parametri
Punto di partenza: gli stimatori a e b sono esprimibili come funzioni lineari di Yi Dove: e Ne consegue: che gli stimatori a e b hanno distribuzione di probabilità normale e che E(a) = α ; E(b) = β stimatori corretti Ne derivano le espressioni di Var(a) e Var(b): Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

14 Distribuzioni dei parametri
Distribuzione di probabilità degli stimatori a e b: Da cui le seguenti variabili standardizzate: Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

15 Distribuzioni dei parametri
Varianza dell’errore σ2u ignota; suo stimatore corretto s2: Dalle distribuzioni normali standardizzate alle distribuzioni t di Student: Denominatori: errori standard dei parametri Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

16 Inferenza sui singoli parametri
Test di significatività per b : H0: β = 0 H1: β ≠ 0 (H0: la variabile esplicativa X non ha nessuna influenza sulla variabile risposta Y) La statistica test: rapporto tra stima e suo errore standard si respinge H0 β =0 si accetta H0 β =0 no Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

17 Esempio – Stime e inferenza
Dati dell’esempio precedente: test sulle stime dei parametri Stima (1) Errore standard (2) t (3)=(1)/(2) p-value (Pr > |t|) Intercetta 43.566 25.839 1.686 0.130 Spesa_prom 0.937 0.327 2.868 0.021 il p-value ci dice che il test è significativo: il suo valore ha staccato un’area di probabilità pari a 0,021 sulla coda della distribuzione; ci troviamo quindi nella regione di rifiuto del test P-value: livello di significatività osservato (probabilità che, vera H0 , t assuma un valore assoluto ≥ a quello osservato) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

18 Il modello di regressione multipla
Più variabili indipendenti o esplicative considerate congiuntamente Nell’esempio: oltre alla spesa per promozione, anche superficie espositiva e densità della popolazione Obiettivo: stimare la relazione tra vendite e spesa per promozione al netto degli effetti della superficie espositiva e della densità Caso generale: modello a k variabili, di cui k-1 indipendenti Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

19 Il modello di regressione multipla
Per esteso: y : vettore n osservazioni relative alla variabile dipendente x1: vettore n elementi unitari xj (j = 2, 3,…, k): vettori n osservazioni relative alle k-1 variabili esplicative u : vettore n termini di errore β1 : intercetta β2 , β3 , …, βk : coefficienti di regressione del modello In notazione vettoriale: Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

20 La notazione matriciale
Caso generale in forma matriciale: Dove: Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

21 Le ipotesi del modello la linearità del modello
le caratteristiche della matrice X: - non stocastica (senza componenti di errore) - a rango pieno  ρ(X) = k (variabili linearmente indipendenti: nessuna variabile è combinazione lineare delle altre) 3. Le caratteristiche dell’errore u: - distribuzione normale - media nulla: E(u) = 0 - varianza costante } E(uu’) = σ2I - covarianza nulla Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

22 La stima dei parametri Matrice di varianza-covarianza del termine di errore: Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

23 La stima dei parametri Obiettivo dell’analisi: la stima del vettore dei coefficienti di regressione b in modo da ottenere il modello: Dove è il vettore delle ordinate teoriche corrispondenti ai valori stimati b Per la generica unità i: Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

24 La stima dei parametri Metodo dei minimi quadrati: scegliere il vettore b in modo da minimizzare la somma dei quadrati dei residui Definizione vettore dei residui: Somma dei quadrati dei residui da minimizzare: Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

25 La stima dei parametri 1. Somma quadrato dei residui:
2. Derivata rispetto a b uguagliata a 0: 3. Risoluzione rispetto a b: Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

26 La distribuzione dei parametri
b combinazione lineare di y e quindi di u: distribuzione normale Dalla precedente espressione di b, poiché si ha: da cui, poiché E(u) = 0  Proprietà 1: lo stimatore OLS di b è non distorto Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

27 La distribuzione dei parametri
Matrice di varianza-covarianza di b: Poiché E(uu’) = σ2I  Proprietà 2: non esistono altri stimatori lineari non distorti con varianza inferiore (più efficienti) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

28 La distribuzione dei parametri
Distribuzione di bj ( j-imo elemento del vettore b): ajj : j-esimo elemento sulla diagonale principale della matrice Dalla distribuzione di bj segue che (per ogni j = 1, …k): Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

29 Test sui singoli parametri
Sostituito σ con la sua stima corretta si ha: Dove: è l’errore standard della stima t(n-k) è una distribuzione t di Student con (n-k) g.d.l. Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

30 Test sui singoli parametri
Test di significatività per bj : H0: βj = 0 H1: βj ≠ 0 (la variabile esplicativa Xj non ha nessuna influenza sulla variabile risposta) La statistica test: rapporto tra stima e suo errore standard si respinge H0 βj =0 si accetta H0 βj =0 no Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

31 Esempio - i dati Variabili esplicative: Variabile risposta:
- spesa settimanale per promozione - superficie dello spazio espositivo densità di popolazione nella zona di ubicazione Variabile risposta: volume delle vendite Vendite Spesa prom 43.2 48 132 134 155 122 76 13 100.9 80 187.4 99 185 77 60.7 50 82.9 44 61.3 25 Spazio espos. Densità 95 55 144 77 210 88 156 66 188 68 321 250 90 115 25 178 99 105 44 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

32 Esempio – l’analisi dell’output
Sintesi dell’output dell’analisi di regressione I parametri evidenziati risultano significativamente diversi da 0 perché il test t ha dato luogo a p-value piuttosto piccoli, se si considera un livello di significatività dello 0,05 I test hanno prodotto risultati che si trovano sulle code della distribuzione, ossia nella regione di rifiuto dell’ipotesi nulla Stima Errore standard t Pr > |t| Intercetta 16.773 -1.365 0.221 Spesa prom 0.516 0.171 3.020 0.023 Spazio espos. 0.700 0.195 3.590 0.012 Densità -0.361 0.382 -0.944 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

33 Esempio - interpretazione
Parametro b2 (0.52): all’aumentare della spesa per promozione di 10 Euro - a parità di altre condizioni - si ha un incremento delle vendite pari a 0,52*100 Euro (52 Euro) Parametro b3 (0.70): all’aumentare della superficie espositiva di un metro quadrato si ha - a parità di altre condizioni - un incremento del volume settimanale delle vendite pari a 0,70*100 Euro (70 Euro) Parametro b4 – variabile non significativa: il test t ha prodotto un p-value molto grande che fa cadere il risultato della verifica nella regione di accettazione dell’ipotesi nulla  il parametro considerato è assimilabile a zero  la variabile esplicativa corrispondente (densità della popolazione) non influisce sulla variabile risposta (vendite settimanali) Intercetta – non significativamente diversa da 0: ai valori nulli di tutte le variabili esplicative corrisponderebbe un volume di vendite pari a zero Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

34 Esempio - interpretazione
L’effetto sulle vendite della spesa settimanale per la promozione : Regressione semplice: b = 0.94 Regressione multipla: b2 = 0.52 Una volta controllato per altre variabili esplicative, l’effetto risulta molto ridimensionato Il modello a una sola variabile esplicativa non era correttamente specificato Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

35 L’adattamento del modello ai dati
La scomposizione della devianza della variabile Y in due componenti additive: devianza spiegata dal modello di regressione devianza residua Caso della regressione semplice: Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

36 La scomposizione della devianza
Devianza totale - Total Sum of Squares (TSS) Devianza spiegata detta anche somma dei quadrati spiegata (ESS, Explained Sum of Squares): parte di variabilità di Y spiegata dal modello di regressione Devianza residua detta anche somma dei quadrati residua (RSS, Residual Sum of Squares): parte di variabilità totale di Y che il modello non è in grado di spiegare Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

37 Il coefficiente di determinazione
Scomposizione della devianza : Misura della bontà di adattamento del modello ai dati denominata coefficiente di determinazione multiplo: R2 può assumere valori compresi nell’intervallo [0,1] Può essere interpretato come una misura della vicinanza della nuvola dei punti campionari all’iperpiano stimato Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

38 Il coefficiente di determinazione
Casi limite: Il modello si adatta perfettamente ai dati la variabilità di Y è completamente spiegata dal modello  tutti i residui campionari sono nulli e nulla è la somma dei loro quadrati (RSS)  TSS = ESS  R2 = 1 Il modello non si adatta per niente ai dati il modello non riesce a spiegare nessuna parte della variabilità di Y : (Y non dipende da X)  la devianza spiegata ESS è pari a zero; tutta la variabilità di Y è nei residui  R2 = 0 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

39 Il coefficiente di determinazione multiplo corretto
Limite di R2: aumenta (migliora) quando nel modello si inseriscono variabili aggiuntive (anche non significative) Rimedio: correzione di R2 per tenere conto del numero di variabili presenti nel modello Tavola analisi varianza: Origine variabilità Somma dei quadrati Gradi libertà Media dei quadrati Modello ESS k – 1 ESS / (k – 1) Errore RSS n – k RSS / (n – k) In complesso TSS n – 1 TSS / (n – 1) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

40 Il coefficiente di determinazione multiplo corretto
Esempio: k Somma quadrati R2 gdl Media quadrati R2 corr TSS 100 n-1 = 29 3.448 4 RSS1 40 0.60 n-k = 26 1.538 0.554 5 RSS2 39 0.61 n-k = 25 1.560 0.548 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

41 Significatività del modello nel suo complesso
R2 e R2 corretto sono misure descrittive della bontà di adattamento, delle quali non è nota la distribuzione  non vi si può fare un test per verificare l’ipotesi di significatività del modello nel suo complesso Test per la significatività del modello nel suo complesso: statistica F di Fisher calcolata sulla tavola della analisi della varianza (ANOVA  ANalysis Of VAriance) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

42 Inferenza sui parametri considerati congiuntamente – test F
Tavola dell’analisi della varianza: Verifica dell’ipotesi nulla: H0: β2 = β3 = … = βk = 0 H1: almeno un βj ≠ 0 j=2, …, k si respinge H0 β2 =…= βk= 0 si accetta H0 no Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

43 Inferenza sui parametri considerati congiuntamente - Esempio
Dati dell’esempio precedente: output della tavola ANOVA Il risultato del test F produce un valore piuttosto elevato al quale corrisponde un p-value molto piccolo che porta a respingere l’ipotesi nulla: parametri tutti pari a zero (tranne l’intercetta) Conclusione: il modello è significativo nel suo complesso Fonte GDL Somma dei quadrati Media dei quadrati F Pr > F (1)  (2)  (3) = (2)/(1) Modello 3 23.477 0.001 Errore 6 Totale corretto 9 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

44 Variabili indipendenti qualitative
Inserite come variabili dummy: Di = 1 se il fenomeno è presente; Di = 0 altrimenti Variabili qualitative dicotomiche Esempio: invece della densità della popolazione nell’area di ubicazione, si può inserire una variabile dummy che distingua gli esercizi ubicati nel centro urbano dagli altri: Di = 1 se l’esercizio è in centro Di = 0 altrimenti Vendite Spesa prom Spazio esp D centro 43.2 48 95 132 134 144 155 122 210 1 76 13 156 100.9 80 188 187.4 99 321 185 77 250 60.7 50 115 82.9 44 178 61.3 25 105 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

45 Variabili indipendenti qualitative
Modello con variabili indipendenti quantitative e dummy: Di = 1 carattere presente Di = 0 altrimenti Per Di = 0  Per Di = 1  Due rette di regressione parallele stessa pendenza: la variabile X ha lo stesso effetto sui due sottocampioni (con carattere presente o assente), misurato da β2 - diversa intercetta: β3 è la differenza tra l’intercetta nel sottocampione con carattere presente e quella del sottocampione con carattere assente  differenza nel valore di Y per X = 0  differenza nel valore di Y a parità di X Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

46 Variabili indipendenti qualitative
Yi* = Xi Di (R2=0.98) Yi* = Xi (R2=0.69) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

47 Variabili indipendenti qualitative
Esempio: Vendite Spesa prom Spazio esp D centro 43.2 48 95 132 134 144 155 122 210 1 76 13 156 100.9 80 188 187.4 99 321 185 77 250 60.7 50 115 82.9 44 178 61.3 25 105 par. St. err. t p-value Intercetta -43.2 35.2 -1.23 0.266 Spesa prom 0.51 0.17 2.89 0.028 Spazio espos. 0.62 0.15 4.08 0.007 D centro -14.0 19.6 -0.71 0.504 0.917 R² corretto 0.875 A parità di spesa per promozione e spazio espositivo, le vendite negli esercizi ubicati in centro sono minori di 14.0 (centinaia di euro) rispetto agli esercizi ubicati altrove (ma differenza non signif. ≠ 0) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

48 Variabili indipendenti qualitative
Variabili qualitative politomiche Esempio: invece di distinguere soltanto tra ubicazione in centro e altrove, si possono considerare tre modalità: centro storico, resto dell’area urbana, area non urbana Si definiscono tante variabili dummy quante sono le modalità In caso di tre modalità a, b, c: D1i = 1 se modalità = a D1i = 0 altrimenti D2i = 1 se modalità = b D2i = 0 altrimenti D3i = 1 se modalità = c D3i = 0 altrimenti NB: nel modello se ne deve inserire una in meno (2 nel caso di 3 modalità): altrimenti nella matrice X si ha perfetta collinearità: D1 = 1 – (D2 + D3) D2 = 1 – (D1 + D3) D3 = 1 – (D1 + D2) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

49 Variabili indipendenti qualitative
Esempio: delle tre modalità si esclude la terza e si inseriscono nel modello le due dummy seguenti: D1i = 1 se l’esercizio è in centro storico D1i = 0 altrimenti D2i = 1 se l’esercizio è nel resto dell’area urbana D2i = 0 altrimenti La modalità relativa alla dummy esclusa è la modalità di riferimento, in relazione alla quale si interpretano i parametri relativi alle dummy incluse Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

50 Variabili indipendenti qualitative
Variabili indipendenti quantitative e qualitative politomiche D1i = 1 modalità a D1i = 0 altrimenti D2i = 1 modalità b D2i = 0 altrimenti (caso di tre modalità) D1i = 0 e D2i = 0 (D3i = 1)  ( modello base) D1i = 1 (D2i = 0; D3i = 0)  D2i = 1 (D1i = 0; D3i = 0)  Tre rette di regressione parallele relative a tre sottocampioni: β3: differenze, a parità di X, tra la Y nel sottocampione con modalità a e la Y nel sottocampione con modalità c esclusa [Es: differenza, a parità di spesa per promozione, tra vendite esercizi centro storico e vendite esercizi area non urbana] β4: idem per modalità b Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

51 La previsione attraverso il modello di regressione semplice
Previsione puntuale di Y in corrispondenza di un determinato valore di X (pari a X0) Il valore vero: Il valore atteso: La previsione corretta del valore atteso: E’ anche la migliore previsione corretta (a varianza minima) Esempio: previsione (puntuale) delle vendite settimanali in corrispondenza a una spesa per promozione di 1500 euro: ( euro) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

52 La previsione attraverso il modello di regressione semplice
Intervallo di confidenza intorno al valore previsto Occorre determinare la distribuzione dell’errore di previsione Errore di previsione: a, b, u0 : variabili casuali normali a media nulla errore di previsione: distribuzione normale e media nulla Varianza dell’errore di previsione Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

53 La previsione attraverso il modello di regressione semplice
Due componenti della varianza dell’errore di previsione dipendente dall’errore associato a ogni osservazione: dipendente dalla variabilità dei parametri: Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

54 La previsione attraverso il modello di regressione semplice
Varianza errore di previsione: Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

55 La previsione attraverso il modello di regressione semplice
L’errore di previsione: - diminuisce all’aumentare della numerosità campionaria aumenta all’aumentare della varianza del termine di errore e quindi all’aumentare dei residui campionari  elevato R2 per una buona previsione - aumenta con la distanza dalla media di X Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

56 La previsione attraverso il modello di regressione semplice
La distribuzione dell’errore di previsione t(n-2) Stima di σu: Intervallo di confidenza intorno al valore previsto Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

57 La previsione attraverso il modello di regressione multipla
Esempio: [184.2 – 113.3; ] 70.9 – 297.5 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

58 La previsione attraverso il modello di regressione multipla
Tramite il vettore dei parametri stimati b si possono determinare i valori teorici in corrispondenza: - a ogni vettore riga di X (dal modello: ) - a ogni altro vettore ipotizzato di variabili esplicative Vettore delle variabili esplicative: Previsione puntuale: Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

59 La previsione attraverso il modello di regressione multipla
Esempio: sulla base del modello stimato, quante vendite sono prevedibili in un supermercato con uno spazio espositivo di 200 m2 e con una spesa settimanale di promozione di 1500 euro? (modello con le sole variabili con parametri significativi) Previsione puntuale: ( Euro) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

60 La previsione attraverso il modello di regressione multipla
Intervallo di confidenza intorno al valore previsto Errore di previsione y0: valore vero di Y associato a Dal modello teorico: Errore di previsione: Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

61 La previsione attraverso il modello di regressione multipla
Distribuzione dell’errore di previsione normale Media nulla: Varianza errore di previsione Due componenti: - dipendente dal termine di errore associato a ogni osservazione - dipendente dai parametri: Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

62 La previsione attraverso il modello di regressione multipla
Varianza errore previsione: Distribuzione errore previsione: Stima di Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

63 La previsione attraverso il modello di regressione multipla
Previsione intervallare per un prefissato livello di significatività α : dove è l’errore standard della previsione Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

64 La previsione attraverso il modello di regressione multipla - Esempio
Previsione (vendite) Errore std previsione 22.826 Limite inferiore 95% Limite superiore 95% Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

65 La previsione attraverso il modello di regressione multipla - Esempio
Intervallo di confidenza: Errore Standard: Intervallo di confidenza: [107.6; 215.7] Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

66 La violazione delle ipotesi
Principali ipotesi di cui verificare la eventuale violazione: caratteristiche del modello - linearità della relazione tra le variabili caratteristiche dell’errore u - varianza costante (omoschedasticità) caratteristiche della matrice X : - non collinearità tra le variabili esplicative Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

67 Analisi dei residui Metodo per diagnosticare la maggior parte delle violazioni di ipotesi Residui: sono a media nulla, ma a varianza non costante Residui standardizzati (o “studentizzati”): a varianza costante (ma media non nulla) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

68 Analisi dei residui Diagramma di dispersione dei residui:
in ordinata: ei (o ei s) in ascissa: Ŷi (o Xji ) Se le assunzioni sono verificate: nuvola di punti che non presenta particolari strutture (i punti tendono a disporsi tra i valori –2 e 2 e risultano distribuiti casualmente intorno allo 0) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

69 Analisi dei residui Residui che si dispongono secondo qualche struttura riconoscibile: violazione di ipotesi Esempi: Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

70 Violazione dell’ipotesi di linearità
Si diagnostica principalmente in due modi: dalla struttura del diagramma dei punti campionari (nel caso bivariato) Esempio: Volume vendite in funzione della durata pubblicità (Tab. 4.9) Durata pubblicità (giorni) Vendite (migliaia euro) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 20 23 34 37 40 56 60 106 107 143 166 198 211 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

71 Violazione dell’ipotesi di linearità
Diagramma di dispersione dei punti campionari: Si può stimare un modello lineare Ma il diagramma fa supporre una relazione non lineare (esponenziale) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

72 Violazione dell’ipotesi di linearità
2. dalla struttura del diagramma di dispersione dei residui Diagramma di dispersione dei residui: mostra non una disposizione casuale intorno allo zero ma una struttura curvilinea che indica una relazione non lineare Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

73 Violazione dell’ipotesi di linearità
Si può risolvere con opportune trasformazioni di variabili In particolare: trasformazione logaritmica della variabile esplicativa (o di una o più delle variabili esplicative) trasformazione logaritmica della variabile dipendente - trasformazione logaritmica di entrambe (dipendente ed esplicative) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

74 Violazione dell’ipotesi di linearità – Esempio di linearizzazione
Si ipotizza una relazione esponenziale del tipo Applicando il logaritmo naturale ad ambo i membri della equazione di regressione si ottiene il modello linearizzato: Stima del modello linearizzato: regressione del logaritmo naturale delle vendite sulla variabile esplicativa Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

75 Violazione dell’ipotesi di linearità – Esempio di linearizzazione
Durata pubblicità (giorni) Vendite (miliaia euro) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 20 23 34 37 40 56 60 106 107 143 166 198 211 Ln Vendite 2.708 2.996 3.135 3.526 3.611 3.689 4.025 4.094 4.663 4.673 4.963 5.112 5.288 5.353 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

76 Violazione dell’ipotesi di linearità – Esempio di linearizzazione
- Stima del modello linearizzato: - Stima del modello esponenziale nella forma originaria: Interpretazione di β: variazione relativa di Y in corrispondenza a variazione unitaria di X (semielasticità di Y a X) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

77 Violazione dell’ipotesi di linearità – Altre trasformazioni
- Trasformazione logaritmica variabile indipendente: Interpretazione di β: variazione di Y in relazione ad una variazione relativa unitaria di X - Trasformazione logaritmica di entrambe le variabili: Modello a elasticità costante – interpretazione di β: misura la variazione relativa di Y in relazione a una variazione relativa unitaria di X (elasticità) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

78 Violazione dell’ipotesi di linearità
Per avvalorare l’ipotesi che la relazione stimata sia lineare nella trasformata di una o più variabili originarie si esaminano i residui della nuova regressione e si verifica che non presentino nessuna particolare struttura Esempio- Diagrammi di dispersione (dopo trasformazione) dei punti campionari: dei residui: Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

79 Violazione dell’ipotesi di omoschedasticità
Omoschedasticità: varianza costante dei termini di errore Var (uj) = σ2 Eteroschedasticità: Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

80 Violazione dell’ipotesi di omoschedasticità
Problemi derivanti dalla eteroschedasticità: - le stime dei minimi quadrati sono ancora corrette ma non sono più efficienti (a varianza minima) - la stima della varianza, e quindi dell’errore standard, è distorta  può invalidare i test di significatività Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

81 Violazione dell’ipotesi di omoschedasticità
Diagnosticata attraverso l’analisi del diagramma di dispersione dei residui: - se la banda in cui giacciono i punti tende ad allargarsi o a restringersi la varianza degli errori tende a crescere o a decrescere al crescere della variabile esplicativa presenza di eteroschedasticità  relazione crescente presenza di eteroschedasticità  relazione decrescente - se invece i punti giacciono tra due parallele non si riscontra alcuna evidenza di violazione dell’assunzione Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

82 Violazione dell’ipotesi di omoschedasticità
Caso di varianza dell’errore legata a una var. esplicativa Xj Diagnostica: Test di Goldfeld e Quandt Fasi: - si riordinano le osservazioni secondo i valori decrescenti di Xj e si omettono c osservazioni centrali si effettuano due regressioni OLS separate sulle prime e sulle ultime (n - c)/2 osservazioni - si calcola il rapporto tra le due somme dei quadrati dei residui R= RSS1/RSS2 (= rapporto tra le due varianze) - si fa il test, considerando che sotto l’ipotesi di omoschedasticità R si distribuisce come una F di Fisher con (n – c – 2k)/2 e (n – c – 2k)/2 g.d.l. Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

83 Violazione dell’ipotesi di omoschedasticità
Rimedio: Metodo dei minimi quadrati ponderati (WLS) Pesi decrescenti al crescere di σi Se si può assumere σi proporzionale a una variabile esplicativa: Trasformazione: divisione di tutti gli elementi della equazione di regressione per Xij : Nella equazione trasformata la varianza del termine di errore è costante: Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

84 Violazione dell’ipotesi di omoschedasticità
Modello teorico originario: Modello teorico trasformato: Stima OLS dei parametri: Modello stimato nella forma originaria: Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

85 Violazione dell’ipotesi di rango pieno della matrice X
Multicollinearità: dipendenza lineare o quasi dipendenza lineare di due o più variabili esplicative Esatta multicollinearità: dipendenza perfetta tra due o più variabili esplicative  rango della matrice X minore di k  determinante nullo della matrice  impossibilità di calcolare il vettore delle stime b Soluzione: eliminare dal modello la variabile esplicativa che risulta esatta combinazione lineare delle altre Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

86 Quasi multicollinearità
b. Quasi multicollinearità: “quasi combinazione lineare” di una variabile indipendente rispetto alle rimanenti o a un sottoinsieme di esse  determinante della matrice prossimo allo zero  notevole aumento della variabilità delle stime Spiegazione intuitiva: il coefficiente di regressione βj misura l’effetto di Xj su Y a parità delle altre X se c’è stretta correlazione tra Xj e le altre X, quando vengono tenute costanti queste ultime Xj varia poco è quindi difficile scindere l’effetto della sua variazione su Y da quello delle altre variabili Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

87 Quasi multicollinearità
Conseguenze: viene meno la precisione delle stime; stime sensibili a piccoli cambiamenti nei dati campionari; si può essere indotti a scartare delle variabili non significative che in realtà sono buone determinanti della variabile esplicativa Diagnostica: - Analisi matrice di correlazione tra le variabili esplicative: valori molto elevati di rhj  QM - Regressioni ausiliarie tra ogni variabile esplicativa e le altre k-2: R2 molto elevati (es. > 0,7)  QM Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

88 Quasi multicollinearità
VIF (Variance Inflation Factor) (R2j coefficiente di determinazione multiplo relativo alla regressione della j-sima variabile esplicativa sulle altre k-2) Dalla seguente espressione di Var(bj): Interpretazione di VIF1/2: fattore moltiplicativo dell’errore standard di bj dovuto alla collinearità tra la variabile Xj e le altre variabili esplicative Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

89 Quasi multicollinearità
Si sospetta Q.M. per valori del VIF > 3,5 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

90 Quasi multicollinearità
Soluzione quasi multicollinearità: individuare la variabile esplicativa quasi combinazione lineare delle altre ed eliminarla dal modello Se più di una: eliminarle progressivamente a partire da quelle con VIF più elevato NB: non eliminare contemporaneamente tutte le variabili esplicative con VIF elevato (maggiore di 3.5) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

91 Quasi multicollinearità - Esempio
Campione di 22 aziende (Tab. 4.15): Variabile risposta: volume delle vendite (Vend) Variabili esplicative: spese di pubblicità (Pubbli) spese di promozione (Prom) spese di promozionale anno passato (Prom_0) spese di gestione (Spese) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

92 Quasi multicollinearità - Esempio
Buono l’adattamento generale del modello ai dati Problemi di significatività per alcuni parametri Problemi di multicollinearità per alcune variabili Soluzione: eliminare progressivamente dal modello le variabili “quasi combinazione lineare” delle altre, partendo da quella con indice VIF più alto (Prom_0) Nel nuovo modello: non si riscontrano indici VIF >3,5 la variabile Pubbli è significativa e senza problemi di collinearità Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

93 La regressione su variabili dipendenti dicotomiche
Variabile dipendente dicotomica: Y = 1 se il carattere è presente (successo) Y = 0 se il carattere è assente (insuccesso) Obiettivo del modello di regressione: spiegare il successo o insuccesso in funzione di una o più variabili esplicative Le variabili esplicative possono essere quantitative o anche qualitative (dicotomiche o politomiche, ordinali) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

94 La regressione su variabili dipendenti dicotomiche
Esempi - analisi della influenza di una leva di marketing sull’acquisto o non acquisto del prodotto - analisi delle determinanti della permanenza in attività o del fallimento di aziende durante la recessione: (fattori di rischio e fattori di protezione: es. indici di bilancio, altre caratteristiche) - analisi delle determinanti della presenza o meno delle imprese nei mercati esteri (produttività, dimensione, investimenti in innovazione …) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

95 La regressione su variabili dipendenti dicotomiche
Altro possibile utilizzo: stimare la probabilità del possesso o non possesso dell'attributo per una nuova unità statistica su cui è stato osservato il vettore di variabili esplicative Esempio: probabilità di fallire di una azienda (esterna al campione) che presenta un determinato vettore degli indici di bilancio e delle altre caratteristiche Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

96 Modello di probabilità lineare
Modello di regressione lineare semplice In modo equivalente: In caso di variabile dicotomica, il valore atteso è: Indicata con π (x) tale probabilità di evento favorevole, si ha il modello di probabilità lineare: Modello per la probabilità di successo, che non è costante, ma dipende dalla variabile esplicativa X Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

97 Modello di probabilità lineare
Modello di regressione multipla Modello di probabilità lineare: I valori teorici della regressione di Y sulle variabili esplicative possono essere interpretati come la probabilità che la variabile risposta assuma valore 1 quando le variabili esplicative assumono i valori relativi all’unità i. Modello per la probabilità di successo di una variabile dicotomica in funzione lineare di un insieme di variabili esplicative Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

98 Modello di probabilità lineare
Problemi del modello di probabilità lineare Poiché π(x) (o π(x) nel caso di più variabili esplicative) è una probabilità, deve necessariamente assumere valori nell’intervallo [0,1], mentre la funzione lineare al membro di destra può assumere valori nell’intervallo (-∞, +∞) Inoltre non valgono alcune assunzioni sul termine di errore: { (distribuzione binomiale) media nulla varianza non costante, ma dipendente da x (max per π(x) = 0.5) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

99 Modello di probabilità lineare -Esempio
Y X 1 2 4 6 8 10 12 14 16 18 20 22 24 Y* -0.013 0.096 0.204 0.312 0.421 0.529 0.638 0.746 0.854 0.963 1.071 1.179 NB: 3 valori teorici di Y esterni al suo campo di definizione Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

100 Modello di probabilità lineare
Aspetti positivi del modello di probabilità lineare: Facile da stimare con il metodo dei minimi quadrati - Parametri direttamente interpretabili come effetti di variazioni unitarie delle variabili esplicative sulla probabilità di successo - In prossimità dei valori medi delle variabili esplicative fornisce: - stime della probabilità comprese nell’intervallo 0-1 (che costituiscono una buona approssimazione ai valori stimati con altri modelli) - Per grandi campioni la distribuzione dei parametri è comunque approssimabile con la normale - Il problema della eteroschedasticità può essere affrontato (stima dei parametri con i minimi quadrati ponderati) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

101 Modello di probabilità lineare – Esempio di applicazione
Indagine EFIGE Italia – Settore Mezzi di trasporto Variabile dipendente: direct_export Analisi varianza Fonte GDL Somma quadrati Media F Pr > F Modello 3 5.905 1.968 15.855 < 0,0001 Errore 70 8.690 0.124 Totale corretto 73 14.595 R2 = 0.40 Stima parametri Param. Errore stand. t Pr > |t| Intercetta 0.152 0.112 1.362 0.178 turnover 0.056 0.030 1.859 0.067 prod_inn 0.451 0.087 5.204 < 0,0001 qual_cert 0.200 0.092 2.174 0.033 NB: in 12 casi (su 74) stima π(x) > 1 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

102 Modelli per variabili dipendenti dicotomiche
Obiettivo: definire una funzione per spiegare la probabilità di successo attraverso una o più variabili esplicative fornendo valori ammissibili per π(x), ovvero compresi tra 0 e 1 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

103 Modelli per variabili dipendenti dicotomiche
Modello necessariamente non lineare I principali: Modello Probit probabilità π(x) pari al valore della funzione di ripartizione di una variabile casuale normale standardizzata in corrispondenza di x Modello Logit (regressione logistica) probabilità π(x) pari al valore della funzione di ripartizione di una variabile casuale logistica in corrispondenza di x Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

104 Modelli per variabili dipendenti dicotomiche
Confronto Probit - Logit Logit rispetto a Probit: per valori intermedi di x, π(x) simili per valori piccoli di x, π(x) maggiori per valori grandi di x, π(x) minori Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

105 Il modello di regressione logistica
Modello logit: La funzione di ripartizione logistica: Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

106 Il modello di regressione logistica
Estensione del modello logit al caso di più variabili esplicative: Problema: la funzione che lega la probabilità di successo alle sue variabili esplicative è non lineare nei parametri Soluzione: linearizzata attraverso una trasformazione Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

107 Il modello di regressione logistica
Probabilità di insuccesso: Primo passo: rapporto tra probabilità di successo e probabilità di insuccesso (odds): Secondo passo: logaritmo naturale di ambo i membri  trasformazione logit Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

108 Odds e odds ratio Odds: rapporto tra la probabilità di un evento (“successo”) e quella dell’evento complementare (“insuccesso”)  rapporto fra il numero di volte in cui l'evento si verifica e il numero di volte in cui l'evento non si verifica Esempio: In un campione di 100 aziende 75 esportano e 25 no La percentuale di aziende esportatrici è 3 volte quella delle non esportatrici (la probabilità di esportare è 3 volte quella di non esportare) Trasformazione degli odds in probabilità: la probabilità di esportare è 75 su 100 (P = 0,75) e quella di non esportare è 25 su 100 (1-P = 0,25) Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

109 Odds e odds ratio Esempio:
una squadra di calcio data dai bookmakers a 4:1 (la vittoria è da pagare 4 volte la cifra scommessa) su una scala da 1 a 5 la probabilità di sconfitta considerata 4 volte più alta della probabilità di vittoria Trasformazione degli odds in probabilità: la squadra aveva 1 probabilità su 5 (P = 0,2) di vincere e 4 probabilità su 5 di perdere (1-P = 0,8) Relazione per trasformare gli odds (O) in probabilità (P): Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

110 Odds e odds ratio Interpretazione dei parametri
La variabile esplicativa Xj passa da XjA a XjB (con XjB - XjA =1) XjA  XjB  Rapporto di odds o odds ratio (OR): Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

111 Odds e odds ratio a una variazione unitaria della variabile Xj corrisponde un OR pari all’esponenziale del relativo parametro OR misura l’incremento di propensione al successo: quanto varia la proporzione tra successi e insuccessi Xj variabile dicotomica: OR(j) misura la variazione di propensione al successo derivante dal possesso dell’attributo Xj variabile continua: OR(j) misura la variazione di propensione al successo derivante da un incremento unitario della variabile Xj Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

112 Odds e odds ratio Interpretazione dei risultati
OR(j) = 1 e quindi βj = 0  nessuna relazione tra la variabile esplicativa Xj e la probabilità che la variabile risposta Y assuma valore 1: non cambia la proporzione tra successi e insuccessi OR(j) > 1 e quindi βj > 0  effetto positivo della variabile esplicativa Xj sulla probabilità che la variabile risposta Y assuma il valore 1: aumenta la proporzione tra successi e insuccessi 0 < OR(j) < 1 e quindi βj < 0  effetto negativo della variabile esplicativa Xj sulla probabilità che la variabile risposta Y assuma il valore 1: diminuisce la proporzione tra successi e insuccessi Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

113 Odds e odds ratio - Esempio
Verificare se e di quanto aumenta la propensione ad acquistare un prodotto a seguito di uno sconto sul prezzo del 10% Da una indagine su un campione di consumatori (in parte esposti allo sconto in parte no) si osserva: Y = 1 acquisto; Y = 0 non acquisto X = 1 sconto; X = 0 no sconto Stima del relativo parametro β pari a 0.4  effetto positivo dell’applicazione dello sconto (maggiore probabilità di acquisto del prodotto) Stima dell’odds ratio (corrispondente al passaggio dallo stato 0 allo stato 1 della variabile X ): exp(β) = exp(0.4) = 1.5  la propensione all’acquisto è 1.5 volte maggiore (+50%) nel gruppo dei consumatori esposti allo sconto rispetto ai non esposti Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

114 Effetto marginale Interpretazione dei parametri in termini di probabilità Effetto marginale: quale effetto produce la variazione unitaria di una variabile esplicativa non su O (odds) ma su P (probabilità di successo) Poiché la relazione tra la probabilità di successo e le X non è lineare, l’effetto di queste ultime non è costante, ma dipende dal livello di P, che dipende dal livello delle X Caso di una sola variabile esplicativa: Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

115 Effetto marginale Effetto marginale:
Effetto marginale massimo (massima pendenza della funzione) per P = 0.5  0.25β Per dare un valore di sintesi all’effetto marginale in genere esso viene calcolato in corrispondenza del valore medio di x (pendenza alla media): Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

116 Effetto marginale - Esempio
Y X 1 2 4 6 8 10 12 14 16 18 20 22 24 π(x) 0.018 0.042 0.097 0.208 0.392 0.612 0.795 0.904 0.959 0.983 0.993 0.997 Param Intercetta X 0.4478 Effetto marginale alla media: Effetto marginale modello prob. lineare: b = 0.054 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

117 Effetto marginale Effetto marginale della variabile Xj:
Caso di più variabili esplicative Effetto marginale della variabile Xj: Valore di sintesi in corrispondenza dei valori medi delle variabili esplicative: Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

118 Effetto marginale – Esempio
Indagine EFIGE Italia – Settore Mezzi di trasporto Variabile dipendente: dir_export Confronto regressione logistica – modello probabilità lineare: Regressione logistica Mod. pr. lin. parametri Intercetta -2.942 0.152 turnover 0.540 0.065 0.056 prod_inn 3.326 0.400 0.451 qual_cert 1.576 0.189 0.200 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

119 La stima dei parametri { Stima del vettore dei parametri β
Metodo della massima verosimiglianza Richiami di metodo - popolazione bernoulliana P se Yi = 1 1-P se Yi = 0 { Stima del parametro P: valore di P che massimizza la probabilità di osservare il campione effettivamente osservato Y1, Y2…, Yn Probabilità congiunta del campione osservato: (indipendenza tra le unità) Funzione di verosimiglianza: Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

120 La stima dei parametri Massimizzare L(P) equivale a massimizzare log L(P) Funzione di log-verosimiglianza: Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

121 La stima dei parametri Stima del vettore dei parametri β
- La probabilità di osservare le Y del campione è posta in relazione con le variabili esplicative X2, …, Xk tramite una funzione non lineare nei parametri β1, β2, …, βk - Ricercare i valori incogniti dei parametri βj che massimizzano la probabilità di osservare il campione effettivamente osservato Probabilità in funzione di xi - Funzione di verosimiglianza: Funzione di log-verosimiglianza: Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

122 La stima dei parametri Le derivate parziali rispetto ai parametri β1, …, βk uguagliate a 0 danno luogo a un sistema di equazioni non lineari nei k parametri, la cui soluzione (b1, …, bk) richiede metodi numerici iterativi. Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

123 Test sui singoli parametri
Verifica significatività della stima bj di un generico parametro bj si distribuisce normalmente con media zero ed errore standard s(bj) (elemento jj sulla diagonale della matrice di varianza-covarianza del vettore b delle stime dei parametri β) Test di Wald: Sotto l’ipotesi nulla βj = 0 W si distribuisce come una normale standardizzata  se si respinge l’ipotesi nulla e si conclude che il parametro è significativamente diverso da 0 In alternativa: W2 che si distribuisce come un Chi-quadro con 1 grado di libertà  se W2 > χ21,α si respinge l’ipotesi nulla Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

124 Test sui singoli parametri – Esempi
Esempio modello con una variabile esplicativa: Stima Errore standard Chi-quadro di Wald Pr > Chi² Intercetta -4.916 2.945 2.786 0.095 X 0.448 0.251 3.172 0.075 Esempio EFIGE – Mezzi trasporto: Stima Errore standard Chi-quadro di wald Pr > Chi² Intercetta -2.942 1.153 6.502 0.011 turnover 0.540 0.337 2.561 0.110 prod_inn 3.326 0.947 12.334 <0.001 qual_cert 1.576 0.886 3.160 0.075 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

125 Test significatività del modello
La significatività del modello nel suo complesso Test analogo al test F del modello lineare, fondato sul rapporto tra la verosimiglianza del modello con la sola intercetta L(0) e quella del modello con le variabili esplicative L(β) chiamata Extradevianza: rapporto di verosimiglianza Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

126 Test significatività del modello
Assenza dipendenza di Y dalle X: L(β)=L(0); log L(β)=log L(0)  G = 0 Massima dipendenza di Y dalle X: L(β)=1; log L(β)=0  G >> 0 Valori elevati di G (valori bassi del rapporto di verosimiglianza) indicano che le variabili esplicative sono rilevanti nello spiegare i valori delle Y Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

127 Test significatività del modello
Verifica del sistema di ipotesi: H0: β2 = … = βk = 0 H1: almeno un βj ≠ 0 (j=2,…,k) Sotto ipotesi nulla G si distribuisce come una χ2 con k-1 gradi di libertà  si respinge l’ipotesi nulla se Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

128 Misura bontà adattamento
Diverse misure analoghe al coefficiente di determinazione multiplo Pseudo R2 (McFadden) 0 se log L(β) = log L(0) 1 se log L(β) = 0 { Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

129 Misura bontà adattamento
Coefficiente di determinazione generalizzato per modelli non lineari (Cox – Snell): R2 del modello di regressione lineare è un caso particolare di R2g Valore massimo per L(β) = 1: Coefficiente riscalato (Nagelkerke): Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

130 Modello di regressione logistica - Esempio (una variabile esplicativa)
Test significatività del modello: Statistica GDL Chi-quadro Pr > Chi² -2 log(rapp. verosim.) 1 9.148 0.002 Coefficienti di bontà di adattamento: R²(McFadden) 0.561 R²(Cox and Snell) 0.533 R²(Nagelkerke) 0.718 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas

131 Modello di regressione logistica - Esempio (EFIGE – Mezzi trasporto)
Test significatività del modello: Statistica GDL Chi-quadro Pr > Chi² -2 log(rapp. verosim.) 3 35.517 <0.001 Coefficienti di bontà di adattamento: R²(McFadden) 0.411 R²(Cox and Snell) 0.381 R²(Nagelkerke) 0.553 Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas


Scaricare ppt "Il modello di regressione lineare multivariato"

Presentazioni simili


Annunci Google