La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

1/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Capitolo 4 Il modello di regressione.

Presentazioni simili


Presentazione sul tema: "1/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Capitolo 4 Il modello di regressione."— Transcript della presentazione:

1 1/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Capitolo 4 Il modello di regressione lineare multivariato  Richiami al modello di regressione lineare semplice  Il modello di regressione lineare multipla  Violazione delle ipotesi e analisi dei residui  Modelli con variabile dipendente dicotomica

2 2/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas L’analisi di regressione  Obiettivo: investigare sulle relazioni empiriche tra variabili per analizzare le cause che possono spiegare un dato fenomeno I modelli utilizzati sono basati su funzioni lineari nei parametri del tipo Y = α + β X Alcune funzioni non lineari sono riconducibili a lineari attraverso opportune trasformazioni delle variabili: Y = α X β  log Y = log α + β log X Anche in caso di relazioni non lineari e non linearizzabili una prima analisi fondata su forme funzionali lineari è un utile punto di partenza per passare poi a eventuali modelli più complessi

3 3/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas L’analisi di regressione  Regressione semplice: una sola variabile indipendente o esplicativa; Regressione multipla: più di una variabile indipendente Esempio: effetti sulle vendite di un supermercato derivanti da una azione di promozione Da un campione di supermercati si rilevano le vendite settimanali e la spesa settimanale per promozione  regressione semplice Se si ritiene che anche altre cause influiscano sulle vendite si rilevano anche altre variabili  regressione multipla Obiettivi conoscitivi: c’è una relazione significativa tra il volume delle vendite e la spesa per promozione (e le altre variabili) ? Sulla base di tale relazione come prevedere il volume delle vendite a seguito di una spesa settimanale per promozione di 1500 euro ?

4 4/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Le fasi di un’analisi di regressione lineare - Si ipotizza una relazione funzionale lineare tra una variabile oggetto di studio (variabile dipendente o risposta) e una o più altre variabili (indipendenti o esplicative) - Si stimano i parametri di tale relazione funzionale sulla base dei dati campionari a disposizione - Si effettuano i test statistici sulla significatività dei parametri e si valuta la bontà dell’adattamento del modello ai dati -Si effettuano altre analisi di conferma sulla validità delle assunzioni su cui si basa la stima del modello (linearità e altro) -Eventualmente, sulla base del modello stimato e di valori ipotizzati per le variabili indipendenti si stimano i valori previsti per la variabile dipendente

5 5/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Il modello di regressione lineare semplice - Richiami Su un campione di n unità sono osservati i valori relativi a due variabili: Y variabile dipendente o variabile risposta X variabile indipendente o variabile esplicativa Vendite (x100 euro) Spesa prom (x10 euro) Esempio: Esempio: Y volume delle vendite; X spesa per promozione Campione di supermercati: Diagramma di dispersione:

6 6/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Il modello di regressione lineare semplice Relazione lineare ipotizzata: i = 1, 2,…, n α e β: parametri del modello di regressione α : intercetta; β : coefficiente di regressione u: termine di errore (discrepanze tra valori osservati di Y e quelli derivanti da una relazione esatta con X). Comprende: - errori di specificazione (alla spiegazione esatta di Y in genere concorrono moltissime variabili esplicative, ma solo la principale di esse – o le principali nel caso della regressione multipla – sono inseribili nel modello); - errori di misura o di risposta presenti nella variabile Y

7 7/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Le ipotesi del modello i = 1, 2,…, n X è assunta non affetta da errore di misura u i : variabili casuali che si ipotizzano: - distribuite normalmente - a media E(u i ) = 0 - varianza costante E(u i 2 ) = σ 2 u - covarianza nulla E(u i, u j ) = 0

8 8/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La retta di regressione stimata In base alle n osservazioni campionarie: stime dei parametri α e β del modello di regressione, indicate con a e b Stimati i parametri, la relazione che lega le due variabili corrisponde a una particolare retta nel piano: retta di regressione stimata dove: indica l’ordinata teorica corrispondente ad un dato valore di X il coefficiente a - o intercetta - rappresenta l’ordinata all’origine della retta il coefficiente di regressione b è il coefficiente angolare della retta

9 9/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La stima dei parametri La retta stimata è tanto più adatta a descrivere la relazione tra le due variabili quanto più i punti osservati sono vicini a tale retta, ovvero quanto minori sono i “residui campionari” Esempio: Yi| eiYi| ei e i : residui campionari

10 10/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La stima dei parametri Criterio dei minimi quadrati (OLS): a e b sono scelti in modo da minimizzare la somma dei quadrati dei residui campionari Le derivate parziali di f(a,b) rispetto ai parametri a e b :  

11 11/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La stima dei parametri Dalla risoluzione del sistema di equazioni si ottengono le seguenti stime dei parametri:

12 12/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Esempio – Stima dei parametri Dati dell’esempio precedente: stime dei parametri Parametri Stima a 43.6 b 0.94 coefficiente di regressione il coefficiente di regressione ci dice che a seguito di un incremento unitario della variabile X (una decina di euro settim. di spesa di promozione) la variabile Y subisce un incremento di 0.94 (centinaia di euro di vendite: 94 euro)

13 13/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Distribuzioni dei parametri Punto di partenza: gli stimatori a e b sono esprimibili come funzioni lineari di Y i Dove:e Ne consegue: che gli stimatori a e b hanno distribuzione di probabilità normale e che E(a) = α ; E(b) = β stimatori corretti Ne derivano le espressioni di Var(a) e Var ( b ): 

14 14/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Distribuzioni dei parametri Distribuzione di probabilità degli stimatori a e b : Da cui le seguenti variabili standardizzate:

15 15/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Distribuzioni dei parametri Varianza dell’errore σ 2 u ignota; suo stimatore corretto s 2 : Dalle distribuzioni normali standardizzate alle distribuzioni t di Student: Denominatori: errori standard dei parametri

16 16/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Inferenza sui singoli parametri Test di significatività Test di significatività per b : H 0 :β = 0 H 1 :β ≠ 0 sì si respinge H 0 β =0 si accetta H 0 β =0 no ( H 0 : la variabile esplicativa X non ha nessuna influenza sulla variabile risposta Y ) La statistica test: rapporto tra stima e suo errore standard

17 17/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Esempio – Stime e inferenza Dati dell’esempio precedente: test sulle stime dei parametri Stima (1) Errore standard (2) t (3)=(1)/(2) p-value (Pr > |t|) Intercetta Spesa_prom p-value il p-value ci dice che il test è significativo: il suo valore ha staccato un’area di probabilità pari a 0,021 sulla coda della distribuzione; ci troviamo quindi nella regione di rifiuto del test P-value: livello di significatività osservato (probabilità che, vera H 0, t assuma un valore assoluto ≥ a quello osservato)

18 18/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Il modello di regressione multipla Caso generale: modello a k variabili, di cui k-1 indipendenti Più variabili indipendenti o esplicative considerate congiuntamente Nell’esempio: oltre alla spesa per promozione, anche superficie espositiva e densità della popolazione Obiettivo: stimare la relazione tra vendite e spesa per promozione al netto degli effetti della superficie espositiva e della densità

19 19/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Il modello di regressione multipla Per esteso: In notazione vettoriale: y : vettore n osservazioni relative alla variabile dipendente x 1 : vettore n elementi unitari x j (j = 2, 3,…, k): vettori n osservazioni relative alle k-1 variabili esplicative u : vettore n termini di errore β 1 : intercetta β 2, β 3, …, β k : coefficienti di regressione del modello

20 20/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La notazione matriciale Caso generale in forma matriciale: Dove:

21 21/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Le ipotesi del modello 1.la linearità del modello 2.le caratteristiche della matrice X: - non stocastica (senza componenti di errore) - a rango pieno  ρ(X) = k (variabili linearmente indipendenti: nessuna variabile è combinazione lineare delle altre) 3. Le caratteristiche dell’errore u : - distribuzione normale - media nulla: E(u) = 0 - varianza costante } E(uu’) = σ 2 I - covarianza nulla

22 22/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La stima dei parametri Matrice di varianza-covarianza del termine di errore:

23 23/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La stima dei parametri Obiettivo dell’analisi: la stima del vettore dei coefficienti di regressione b in modo da ottenere il modello: Dove è il vettore delle ordinate teoriche corrispondenti ai valori stimati b Per la generica unità i:

24 24/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La stima dei parametri Somma dei quadrati dei residui da minimizzare: Metodo dei minimi quadrati: Metodo dei minimi quadrati: scegliere il vettore b in modo da minimizzare la somma dei quadrati dei residui Definizione vettore dei residui:

25 25/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La stima dei parametri 1. Somma quadrato dei residui: 2. Derivata rispetto a b uguagliata a 0: 3. Risoluzione rispetto a b:

26 26/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La distribuzione dei parametri b combinazione lineare di y e quindi di u : distribuzione normale Proprietà 1: lo stimatore OLS di b è non distorto da cui, poiché E(u) = 0  Dalla precedente espressione di b, poiché si ha:

27 27/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La distribuzione dei parametri Matrice di varianza-covarianza di b : Proprietà 2: non esistono altri stimatori lineari non distorti con varianza inferiore (più efficienti) Poiché E(uu’) = σ 2 I 

28 28/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La distribuzione dei parametri Distribuzione di b j ( j -imo elemento del vettore b): a jj : j -esimo elemento sulla diagonale principale della matrice Dalla distribuzione di b j segue che (per ogni j = 1, …k ):

29 29/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Test sui singoli parametri Dove: è l’errore standard della stima t (n-k) è una distribuzione t di Student con (n-k) g.d.l. Sostituito σ con la sua stima corretta si ha:

30 30/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Test sui singoli parametri Test di significatività Test di significatività per b j : H 0 :β j = 0 H 1 :β j ≠ 0 sì si respinge H 0 β j =0 si accetta H 0 β j =0 no (la variabile esplicativa X j non ha nessuna influenza sulla variabile risposta) La statistica test: rapporto tra stima e suo errore standard

31 31/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Esempio - i dati Variabile risposta: volume delle vendite Vendite Spesa prom Spazio espos.Densità Variabili esplicative: - spesa settimanale per promozione - superficie dello spazio espositivo - densità di popolazione nella zona di ubicazione

32 32/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Esempio – l’analisi dell’output Sintesi dell’output dell’analisi di regressione parametri evidenziati p-value I parametri evidenziati risultano significativamente diversi da 0 perché il test t ha dato luogo a p-value piuttosto piccoli, se si considera un livello di significatività dello 0,05 I test hanno prodotto risultati che si trovano sulle code della distribuzione, ossia nella regione di rifiuto dell’ipotesi nulla Stima Errore standardtPr > |t| Intercetta Spesa prom Spazio espos Densità

33 33/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Esempio - interpretazione Parametro b 3 (0.70) Parametro b 3 (0.70): all’aumentare della superficie espositiva di un metro quadrato si ha - a parità di altre condizioni - un incremento del volume settimanale delle vendite pari a 0,70*100 Euro (70 Euro) Parametro b 2 (0.52) Parametro b 2 (0.52): all’aumentare della spesa per promozione di 10 Euro - a parità di altre condizioni - si ha un incremento delle vendite pari a 0,52*100 Euro (52 Euro) Parametro b 4 Parametro b 4 – variabile non significativa: il test t ha prodotto un p-value molto grande che fa cadere il risultato della verifica nella regione di accettazione dell’ipotesi nulla  il parametro considerato è assimilabile a zero  la variabile esplicativa corrispondente (densità della popolazione) non influisce sulla variabile risposta (vendite settimanali) Intercetta : Intercetta – non significativamente diversa da 0: ai valori nulli di tutte le variabili esplicative corrisponderebbe un volume di vendite pari a zero

34 34/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Esempio - interpretazione L’effetto sulle vendite della s pesa settimanale per la promozione : - Regressione semplice: b = Regressione multipla: b 2 = 0.52 Una volta controllato per altre variabili esplicative, l’effetto risulta molto ridimensionato Il modello a una sola variabile esplicativa non era correttamente specificato

35 35/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas L’adattamento del modello ai dati La scomposizione della devianza La scomposizione della devianza della variabile Y in due componenti additive: - devianza spiegata dal modello di regressione - devianza residua Caso della regressione semplice:

36 36/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La scomposizione della devianza TSS Devianza totale - Total Sum of Squares (TSS) Devianza spiegata ESS Devianza spiegata detta anche somma dei quadrati spiegata (ESS, Explained Sum of Squares): parte di variabilità di Y spiegata dal modello di regressione Devianza residua RSS Devianza residua detta anche somma dei quadrati residua (RSS, Residual Sum of Squares): parte di variabilità totale di Y che il modello non è in grado di spiegare

37 37/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Il coefficiente di determinazione Scomposizione della devianza : coefficiente di determinazione multiplo: Misura della bontà di adattamento del modello ai dati denominata coefficiente di determinazione multiplo: R 2 può assumere valori compresi nell’intervallo [0,1] Può essere interpretato come una misura della vicinanza della nuvola dei punti campionari all’iperpiano stimato

38 38/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Il coefficiente di determinazione Casi limite: Il modello si adatta perfettamente ai dati la variabilità di Y è completamente spiegata dal modello  tutti i residui campionari sono nulli e nulla è la somma dei loro quadrati (RSS)  TSS = ESS  R 2 = 1 Il modello non si adatta per niente ai dati il modello non riesce a spiegare nessuna parte della variabilità di Y : ( Y non dipende da X )  la devianza spiegata ESS è pari a zero; tutta la variabilità di Y è nei residui  R 2 = 0

39 39/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Il coefficiente di determinazione multiplo corretto Origine variabilità Somma dei quadrati Gradi libertàMedia dei quadrati Modello ESSk – 1ESS / (k – 1) Errore RSSn – kRSS / (n – k) In complesso TSSn – 1TSS / (n – 1) Limite di R 2 : aumenta (migliora) quando nel modello si inseriscono variabili aggiuntive (anche non significative) Tavola analisi varianza: Rimedio: correzione di R 2 per tenere conto del numero di variabili presenti nel modello

40 40/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Il coefficiente di determinazione multiplo corretto kSomma quadratiR2R2 gdl Media quadratiR 2 corr TSS100n-1 = RSS n-k = RSS n-k = Esempio:

41 41/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Significatività del modello nel suo complesso R 2 e R 2 corretto sono misure descrittive della bontà di adattamento, delle quali non è nota la distribuzione  non vi si può fare un test per verificare l’ipotesi di significatività del modello nel suo complesso Test per la significatività del modello nel suo complesso: statistica F di Fisher calcolata sulla tavola della analisi della varianza ( ANOVA  ANalysis Of VAriance)

42 42/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Inferenza sui parametri considerati congiuntamente – test F Verifica dell’ipotesi nulla Verifica dell’ipotesi nulla: H 0 :β 2 = β 3 = … = β k = 0 H 1 :almeno un β j ≠ 0 j=2, …, k sì si respinge H 0 β 2 =…= β k = 0 si accetta H 0 no dell’analisi della varianza: Tavola dell’analisi della varianza:

43 43/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Inferenza sui parametri considerati congiuntamente - Esempio Dati dell’esempio precedente: output della tavola ANOVA Il risultato del test F produce un valore piuttosto elevato al quale corrisponde un p-value molto piccolo che porta a respingere l’ipotesi nulla: parametri tutti pari a zero (tranne l’intercetta) Conclusione: il modello è significativo nel suo complesso FonteGDL Somma dei quadrati Media dei quadratiFPr > F (1) (2) (3) = (2)/(1) Modello Errore Totale corretto

44 44/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Variabili indipendenti qualitative Inserite come variabili dummy: D i = 1 se il fenomeno è presente; D i = 0 altrimenti Variabili qualitative dicotomiche Esempio: invece della densità della popolazione nell’area di ubicazione, si può inserire una variabile dummy che distingua gli esercizi ubicati nel centro urbano dagli altri: D i = 1 se l’esercizio è in centro D i = 0 altrimenti Vendite Spesa prom Spazio esp D centro

45 45/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Variabili indipendenti qualitative Modello con variabili indipendenti quantitative e dummy: D i = 1 carattere presente D i = 0 altrimenti Per D i = 1  Per D i = 0  Due rette di regressione parallele - stessa pendenza: la variabile X ha lo stesso effetto sui due sottocampioni (con carattere presente o assente), misurato da β 2 - diversa intercetta: β 3 è la differenza tra l’intercetta nel sottocampione con carattere presente e quella del sottocampione con carattere assente  differenza nel valore di Y per X = 0  differenza nel valore di Y a parità di X

46 46/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Variabili indipendenti qualitative Y i * = X i D i (R 2 =0.98) Y i * = X i (R 2 =0.69)

47 47/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Variabili indipendenti qualitative Vendit e Spesa prom Spazio esp D centro par.St. err.tp-value Intercetta Spesa prom Spazio espos D centro Esempio: R²0.917 R² corretto0.875 A parità di spesa per promozione e spazio espositivo, le vendite negli esercizi ubicati in centro sono minori di 14.0 (centinaia di euro) rispetto agli esercizi ubicati altrove (ma differenza non signif. ≠ 0 )

48 48/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Variabili indipendenti qualitative Variabili qualitative politomiche Esempio: invece di distinguere soltanto tra ubicazione in centro e altrove, si possono considerare tre modalità: centro storico, resto dell’area urbana, area non urbana Si definiscono tante variabili dummy quante sono le modalità In caso di tre modalità a, b, c: D 1i = 1 se modalità = a D 1i = 0 altrimenti D 2i = 1 se modalità = b D 2i = 0 altrimenti D 3i = 1 se modalità = c D 3i = 0 altrimenti NB: nel modello se ne deve inserire una in meno (2 nel caso di 3 modalità): altrimenti nella matrice X si ha perfetta collinearità: D 1 = 1 – (D 2 + D 3 ) D 2 = 1 – (D 1 + D 3 ) D 3 = 1 – (D 1 + D 2 )

49 49/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Variabili indipendenti qualitative Esempio: delle tre modalità si esclude la terza e si inseriscono nel modello le due dummy seguenti: D 1i = 1 se l’esercizio è in centro storico D 1i = 0 altrimenti D 2i = 1 se l’esercizio è nel resto dell’area urbana D 2i = 0 altrimenti La modalità relativa alla dummy esclusa è la modalità di riferimento, in relazione alla quale si interpretano i parametri relativi alle dummy incluse

50 50/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Variabili indipendenti qualitative Variabili indipendenti quantitative e qualitative politomiche D 1i = 1 modalità a D 1i = 0 altrimenti D 2i = 1 modalità b D 2i = 0 altrimenti D 1i = 0 e D 2i = 0 ( D 3i = 1)  ( m odello base) D 1i = 1 (D 2i = 0; D 3i = 0)  D 2i = 1 (D 1i = 0; D 3i = 0)  Tre rette di regressione parallele relative a tre sottocampioni: β 3 : differenze, a parità di X, tra la Y nel sottocampione con modalità a e la Y nel sottocampione con modalità c esclusa [Es: differenza, a parità di spesa per promozione, tra vendite esercizi centro storico e vendite esercizi area non urbana] β 4 : idem per modalità b (caso di tre modalità)

51 51/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La previsione attraverso il modello di regressione semplice Esempio: previsione (puntuale) delle vendite settimanali in corrispondenza a una spesa per promozione di 1500 euro: ( euro) Previsione puntuale di Y in corrispondenza di un determinato valore di X (pari a X 0 ) Il valore vero: Il valore atteso: La previsione corretta del valore atteso: E’ anche la migliore previsione corretta (a varianza minima)

52 52/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La previsione attraverso il modello di regressione semplice Intervallo di confidenza Intervallo di confidenza intorno al valore previsto Occorre determinare la distribuzione dell’errore di previsione Errore di previsione: Varianza dell’errore di previsione a, b, u 0 : variabili casuali normali a media nulla errore di previsione: distribuzione normale e media nulla

53 53/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La previsione attraverso il modello di regressione semplice Due componenti della varianza dell’errore di previsione - dipendente dall’errore associato a ogni osservazione: - dipendente dalla variabilità dei parametri:

54 54/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La previsione attraverso il modello di regressione semplice Varianza errore di previsione:

55 55/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La previsione attraverso il modello di regressione semplice L’errore di previsione: - diminuisce all’aumentare della numerosità campionaria - aumenta all’aumentare della varianza del termine di errore e quindi all’aumentare dei residui campionari  elevato R 2 per una buona previsione - aumenta con la distanza dalla media di X

56 56/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La previsione attraverso il modello di regressione semplice Stima di σ u : La distribuzione dell’errore di previsione t (n-2) Intervallo di confidenza Intervallo di confidenza intorno al valore previsto

57 57/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La previsione attraverso il modello di regressione multipla Esempio: [184.2 – 113.3; ] 70.9 – 297.5

58 58/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La previsione attraverso il modello di regressione multipla Vettore delle variabili esplicative: Previsione puntuale: Tramite il vettore dei parametri stimati b si possono determinare i valori teorici in corrispondenza: - a ogni vettore riga di X (dal modello: ) - a ogni altro vettore ipotizzato di variabili esplicative

59 59/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La previsione attraverso il modello di regressione multipla Esempio: sulla base del modello stimato, quante vendite sono prevedibili in un supermercato con uno spazio espositivo di 200 m 2 e con una spesa settimanale di promozione di 1500 euro? (modello con le sole variabili con parametri significativi) ( Euro) Previsione puntuale:

60 60/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La previsione attraverso il modello di regressione multipla Intervallo di confidenza Intervallo di confidenza intorno al valore previsto Errore di previsione Errore di previsione: y 0 : valore vero di Y associato a Dal modello teorico: 

61 61/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La previsione attraverso il modello di regressione multipla Distribuzione dell’errore di previsione normale - dipendente dai parametri: Media nulla: Varianza errore di previsione Due componenti: - dipendente dal termine di errore associato a ogni osservazione

62 62/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La previsione attraverso il modello di regressione multipla Distribuzione errore previsione: Varianza errore previsione: Stima di

63 63/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La previsione attraverso il modello di regressione multipla Previsione intervallare Previsione intervallare per un prefissato livello di significatività α : dove è l’errore standard della previsione

64 64/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La previsione attraverso il modello di regressione multipla - Esempio Previsione (vendite) Errore std previsione Limite inferiore 95% Limite superiore 95%

65 65/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La previsione attraverso il modello di regressione multipla - Esempio Errore Standard: [107.6; 215.7] Intervallo di confidenza:

66 66/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La violazione delle ipotesi Principali ipotesi di cui verificare la eventuale violazione: caratteristiche del modello - linearità della relazione tra le variabili caratteristiche dell’errore u - varianza costante (omoschedasticità) caratteristiche della matrice X : - non collinearità tra le variabili esplicative

67 67/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Analisi dei residui Metodo per diagnosticare la maggior parte delle violazioni di ipotesi Residui: sono a media nulla, ma a varianza non costante Residui standardizzati (o “studentizzati”): a varianza costante (ma media non nulla)

68 68/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Analisi dei residui Diagramma di dispersione dei residui: in ordinata: e i (o e i s ) in ascissa: Ŷ i ( o X ji ) : Se le assunzioni sono verificate: nuvola di punti che non presenta particolari strutture (i punti tendono a disporsi tra i valori –2 e 2 e risultano distribuiti casualmente intorno allo 0)

69 69/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Analisi dei residui Residui che si dispongono secondo qualche struttura riconoscibile: violazione di ipotesi Esempi:

70 70/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas linearità Violazione dell’ipotesi di linearità Si diagnostica principalmente in due modi: 1.dalla struttura del diagramma dei punti campionari (nel caso bivariato) Esempio: Volume vendite in funzione della durata pubblicità (Tab. 4.9) Durata pubblicità (giorni) Vendite (migliaia euro)

71 71/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas linearità Violazione dell’ipotesi di linearità Diagramma di dispersione dei punti campionari: Ma il diagramma fa supporre una relazione non lineare (esponenziale) Si può stimare un modello lineare

72 72/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas linearità Violazione dell’ipotesi di linearità 2. dalla struttura del diagramma di dispersione dei residui Diagramma di dispersione dei residui: mostra non una disposizione casuale intorno allo zero ma una struttura curvilinea che indica una relazione non lineare

73 73/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas linearità Violazione dell’ipotesi di linearità Si può risolvere con opportune trasformazioni di variabili In particolare: - trasformazione logaritmica della variabile esplicativa (o di una o più delle variabili esplicative) - trasformazione logaritmica della variabile dipendente - trasformazione logaritmica di entrambe (dipendente ed esplicative)

74 74/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas linearità Violazione dell’ipotesi di linearità – Esempio di linearizzazione Si ipotizza una relazione esponenziale del tipo Applicando il logaritmo naturale ad ambo i membri della equazione di regressione si ottiene il modello linearizzato: Stima del modello linearizzato: regressione del logaritmo naturale delle vendite sulla variabile esplicativa

75 75/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas linearità Violazione dell’ipotesi di linearità – Esempio di linearizzazione Durata pubblicità (giorni) Vendite (miliaia euro) Ln Vendite

76 76/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas linearità Violazione dell’ipotesi di linearità – Esempio di linearizzazione - Stima del modello linearizzato: - Stima del modello esponenziale nella forma originaria: Interpretazione di β: variazione relativa di Y in corrispondenza a variazione unitaria di X (semielasticità di Y a X )

77 77/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas linearità Violazione dell’ipotesi di linearità – Altre trasformazioni - Trasformazione logaritmica variabile indipendente: - Trasformazione logaritmica di entrambe le variabili: Modello a elasticità costante – interpretazione di β: misura la variazione relativa di Y in relazione a una variazione relativa unitaria di X (elasticità) Interpretazione di β : variazione di Y in relazione ad una variazione relativa unitaria di X

78 78/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas linearità Violazione dell’ipotesi di linearità Per avvalorare l’ipotesi che la relazione stimata sia lineare nella trasformata di una o più variabili originarie si esaminano i residui della nuova regressione e si verifica che non presentino nessuna particolare struttura Esempio- Diagrammi di dispersione (dopo trasformazione) dei punti campionari: dei residui:

79 79/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas omoschedasticità Violazione dell’ipotesi di omoschedasticità Omoschedasticità: varianza costante dei termini di errore Var (u j ) = σ 2 Eteroschedasticità:

80 80/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas omoschedasticità Violazione dell’ipotesi di omoschedasticità Problemi derivanti dalla eteroschedasticità: - le stime dei minimi quadrati sono ancora corrette ma non sono più efficienti (a varianza minima) - la stima della varianza, e quindi dell’errore standard, è distorta  può invalidare i test di significatività

81 81/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas omoschedasticità Violazione dell’ipotesi di omoschedasticità Diagnosticata attraverso l’analisi del diagramma di dispersione dei residui: - se la banda in cui giacciono i punti tende ad allargarsi o a restringersi la varianza degli errori tende a crescere o a decrescere al crescere della variabile esplicativa presenza di eteroschedasticità  relazione crescente presenza di eteroschedasticità  relazione decrescente - se invece i punti giacciono tra due parallele non si riscontra alcuna evidenza di violazione dell’assunzione

82 82/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas omoschedasticità Violazione dell’ipotesi di omoschedasticità Caso di varianza dell’errore legata a una var. esplicativa X j Diagnostica: Test di Goldfeld e Quandt Fasi: - si riordinano le osservazioni secondo i valori decrescenti di X j e si omettono c osservazioni centrali - si effettuano due regressioni OLS separate sulle prime e sulle ultime (n - c)/2 osservazioni - si calcola il rapporto tra le due somme dei quadrati dei residui R= RSS1/RSS2 (= rapporto tra le due varianze) - si fa il test, considerando che sotto l’ipotesi di omoschedasticità R si distribuisce come una F di Fisher con (n – c – 2k)/2 e (n – c – 2k)/2 g.d.l.

83 83/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas omoschedasticità Violazione dell’ipotesi di omoschedasticità Rimedio: Metodo dei minimi quadrati ponderati (WLS) Se si può assumere σ i proporzionale a una variabile esplicativa: Trasformazione: divisione di tutti gli elementi della equazione di regressione per X ij : Pesi decrescenti al crescere di σ i Nella equazione trasformata la varianza del termine di errore è costante:

84 84/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas omoschedasticità Violazione dell’ipotesi di omoschedasticità Modello teorico trasformato: Stima OLS dei parametri: Modello stimato nella forma originaria: Modello teorico originario:

85 85/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas rango pieno Violazione dell’ipotesi di rango pieno della matrice X Multicollinearità: dipendenza lineare o quasi dipendenza lineare di due o più variabili esplicative a.Esatta multicollinearità: dipendenza perfetta tra due o più variabili esplicative  rango della matrice X minore di k  determinante nullo della matrice  impossibilità di calcolare il vettore delle stime b Soluzione: eliminare dal modello la variabile esplicativa che risulta esatta combinazione lineare delle altre

86 86/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Quasi multicollinearità b. Quasi multicollinearità: “quasi combinazione lineare” di una variabile indipendente rispetto alle rimanenti o a un sottoinsieme di esse  determinante della matrice prossimo allo zero  notevole aumento della variabilità delle stime Spiegazione intuitiva: - il coefficiente di regressione β j misura l’effetto di X j su Y a parità delle altre X - se c’è stretta correlazione tra X j e le altre X, quando vengono tenute costanti queste ultime X j varia poco - è quindi difficile scindere l’effetto della sua variazione su Y da quello delle altre variabili

87 87/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Quasi multicollinearità Conseguenze: - viene meno la precisione delle stime; - stime sensibili a piccoli cambiamenti nei dati campionari; - si può essere indotti a scartare delle variabili non significative che in realtà sono buone determinanti della variabile esplicativa Diagnostica: - Analisi matrice di correlazione tra le variabili esplicative: valori molto elevati di r hj  QM - Regressioni ausiliarie tra ogni variabile esplicativa e le altre k-2 : R 2 molto elevati (es. > 0,7)  QM

88 88/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Quasi multicollinearità VIF (Variance Inflation Factor) ( R 2 j coefficiente di determinazione multiplo relativo alla regressione della j -sima variabile esplicativa sulle altre k-2 ) Dalla seguente espressione di Var(b j ): Interpretazione di VIF 1/2 : fattore moltiplicativo dell’errore standard di b j dovuto alla collinearità tra la variabile X j e le altre variabili esplicative

89 89/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Quasi multicollinearità Si sospetta Q.M. per valori del VIF > 3,5

90 90/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Quasi multicollinearità : Soluzione quasi multicollinearità: - individuare la variabile esplicativa quasi combinazione lineare delle altre ed eliminarla dal modello Se più di una: eliminarle progressivamente a partire da quelle con VIF più elevato NB: non eliminare contemporaneamente tutte le variabili esplicative con VIF elevato (maggiore di 3.5)

91 91/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Quasi multicollinearità - Esempio Campione di 22 aziende (Tab. 4.15):  Variabile risposta: volume delle vendite (Vend)  Variabili esplicative: spese di pubblicità (Pubbli) spese di promozione (Prom) spese di promozionale anno passato (Prom_0) spese di gestione (Spese)

92 92/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Quasi multicollinearità - Esempio adattamento Buono l’adattamento generale del modello ai dati significatività Problemi di significatività per alcuni parametri multicollinearità Problemi di multicollinearità per alcune variabili Soluzione: eliminare progressivamente dal modello le variabili “quasi combinazione lineare” delle altre, partendo da quella con indice VIF più alto (Prom_0) Nel nuovo modello: non si riscontrano indici VIF >3,5 la variabile Pubbli è significativa e senza problemi di collinearità

93 93/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La regressione su variabili dipendenti dicotomiche Variabile dipendente dicotomica Variabile dipendente dicotomica: Y = 1 se il carattere è presente (successo) Y = 0 se il carattere è assente (insuccesso) Obiettivo del modello di regressione: spiegare il successo o insuccesso in funzione di una o più variabili esplicative Le variabili esplicative possono essere quantitative o anche qualitative (dicotomiche o politomiche, ordinali)

94 94/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La regressione su variabili dipendenti dicotomiche Esempi - analisi della influenza di una leva di marketing sull’acquisto o non acquisto del prodotto - analisi delle determinanti della permanenza in attività o del fallimento di aziende durante la recessione: (fattori di rischio e fattori di protezione: es. indici di bilancio, altre caratteristiche) - analisi delle determinanti della presenza o meno delle imprese nei mercati esteri (produttività, dimensione, investimenti in innovazione …)

95 95/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La regressione su variabili dipendenti dicotomiche Altro possibile utilizzo: stimare la probabilità del possesso o non possesso dell'attributo per una nuova unità statistica su cui è stato osservato il vettore di variabili esplicative Esempio: probabilità di fallire di una azienda (esterna al campione) che presenta un determinato vettore degli indici di bilancio e delle altre caratteristiche

96 96/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Modello di probabilità lineare Modello di regressione lineare semplice In caso di variabile dicotomica, il valore atteso è: Indicata con π (x) tale probabilità di evento favorevole, si ha il modello di probabilità lineare: In modo equivalente: Modello per la probabilità di successo, che non è costante, ma dipende dalla variabile esplicativa X

97 97/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Modello di probabilità lineare Modello di regressione multipla Modello di probabilità lineare: I valori teorici della regressione di Y sulle variabili esplicative possono essere interpretati come la probabilità che la variabile risposta assuma valore 1 quando le variabili esplicative assumono i valori relativi all’unità i. Modello per la probabilità di successo di una variabile dicotomica in funzione lineare di un insieme di variabili esplicative 

98 98/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Modello di probabilità lineare Problemi del modello di probabilità lineare Poiché π(x) (o π(x) nel caso di più variabili esplicative) è una probabilità, deve necessariamente assumere valori nell’intervallo [0,1], mentre la funzione lineare al membro di destra può assumere valori nell’intervallo (-∞, +∞ ) Inoltre non valgono alcune assunzioni sul termine di errore: varianza non costante, ma dipendente da x (max per π(x) = 0.5) (distribuzione binomiale) media nulla {

99 99/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Modello di probabilità lineare -Esempio YX Y* NB: 3 valori teorici di Y esterni al suo campo di definizione

100 100/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Modello di probabilità lineare Aspetti positivi del modello di probabilità lineare: - Facile da stimare con il metodo dei minimi quadrati - Parametri direttamente interpretabili come effetti di variazioni unitarie delle variabili esplicative sulla probabilità di successo - In prossimità dei valori medi delle variabili esplicative fornisce: - stime della probabilità comprese nell’intervallo 0-1 (che costituiscono una buona approssimazione ai valori stimati con altri modelli) - Per grandi campioni la distribuzione dei parametri è comunque approssimabile con la normale - Il problema della eteroschedasticità può essere affrontato (stima dei parametri con i minimi quadrati ponderati)

101 101/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Modello di probabilità lineare – Esempio di applicazione Param. Errore stand.tPr > |t| Intercetta turnover prod_inn < 0,0001 qual_cert Indagine EFIGE Italia – Settore Mezzi di trasporto Variabile dipendente: direct_export FonteGDL Somma quadrati Media quadratiFPr > F Modello < 0,0001 Errore Totale corretto Analisi varianza Stima parametri R 2 = 0.40 NB: in 12 casi (su 74) stima π(x) > 1

102 102/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Modelli per variabili dipendenti dicotomiche Obiettivo: definire una funzione per spiegare la probabilità di successo attraverso una o più variabili esplicative fornendo valori ammissibili per π(x), ovvero compresi tra 0 e 1 

103 103/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Modelli per variabili dipendenti dicotomiche Modello necessariamente non lineare I principali: Modello Probit probabilità π(x) pari al valore della funzione di ripartizione di una variabile casuale normale standardizzata in corrispondenza di x Modello Logit (regressione logistica) probabilità π(x) pari al valore della funzione di ripartizione di una variabile casuale logistica in corrispondenza di x

104 104/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Modelli per variabili dipendenti dicotomiche Confronto Probit - Logit Logit rispetto a Probit: - per valori intermedi di x, π(x) simili - per valori piccoli di x, π(x) maggiori - per valori grandi di x, π(x) minori

105 105/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Il modello di regressione logistica Modello logit: La funzione di ripartizione logistica:

106 106/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Il modello di regressione logistica Estensione del modello logit al caso di più variabili esplicative: Problema: la funzione che lega la probabilità di successo alle sue variabili esplicative è non lineare nei parametri Soluzione: linearizzata attraverso una trasformazione

107 107/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Il modello di regressione logistica insuccesso Probabilità di insuccesso: Primo passo: rapporto tra probabilità di successo e probabilità di insuccesso (odds): Secondo passo: logaritmo naturale di ambo i membri logit  trasformazione logit

108 108/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Odds e odds ratio Odds: Odds: rapporto tra la probabilità di un evento (“successo”) e quella dell’evento complementare (“insuccesso”)  rapporto fra il numero di volte in cui l'evento si verifica e il numero di volte in cui l'evento non si verifica Esempio: In un campione di 100 aziende 75 esportano e 25 no La percentuale di aziende esportatrici è 3 volte quella delle non esportatrici (la probabilità di esportare è 3 volte quella di non esportare) Trasformazione degli odds in probabilità: la probabilità di esportare è 75 su 100 ( P = 0,75) e quella di non esportare è 25 su 100 ( 1-P = 0,25)

109 109/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Odds e odds ratio Esempio: una squadra di calcio data dai bookmakers a 4:1 (la vittoria è da pagare 4 volte la cifra scommessa)  su una scala da 1 a 5 la probabilità di sconfitta considerata 4 volte più alta della probabilità di vittoria Trasformazione degli odds in probabilità: la squadra aveva 1 probabilità su 5 ( P = 0,2) di vincere e 4 probabilità su 5 di perdere ( 1-P = 0,8) Relazione per trasformare gli odds ( O ) in probabilità ( P ):

110 110/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Odds e odds ratio La variabile esplicativa X j passa da La variabile esplicativa X j passa da X jA a X jB (con X jB - X jA =1) X jA  X jB  Rapporto di odds o odds ratio (OR): Interpretazione dei parametri

111 111/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Odds e odds ratio a una variazione unitaria della variabile X j corrisponde un OR pari all’esponenziale del relativo parametro OR OR misura l’incremento di propensione al successo: quanto varia la proporzione tra successi e insuccessi X j variabile dicotomica: OR (j) misura la variazione di propensione al successo derivante dal possesso dell’attributo X j variabile continua: OR (j) misura la variazione di propensione al successo derivante da un incremento unitario della variabile X j

112 112/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Odds e odds ratio 1.OR (j) = 1 e quindi β j = 0  nessuna relazione tra la variabile esplicativa X j e la probabilità che la variabile risposta Y assuma valore 1: non cambia la proporzione tra successi e insuccessi 2.OR (j) > 1 e quindi β j > 0  effetto positivo della variabile esplicativa X j sulla probabilità che la variabile risposta Y assuma il valore 1: aumenta la proporzione tra successi e insuccessi 3.0 < OR (j) < 1 e quindi β j < 0  effetto negativo della variabile esplicativa X j sulla probabilità che la variabile risposta Y assuma il valore 1: diminuisce la proporzione tra successi e insuccessi Interpretazione dei risultati 

113 113/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Odds e odds ratio - Esempio Verificare se e di quanto aumenta la propensione ad acquistare un prodotto a seguito di uno sconto sul prezzo del 10% Da una indagine su un campione di consumatori (in parte esposti allo sconto in parte no) si osserva: Y = 1 acquisto; Y = 0 non acquisto X = 1 sconto; X = 0 no sconto Stima del relativo parametro β pari a 0.4  effetto positivo dell’applicazione dello sconto (maggiore probabilità di acquisto del prodotto) Stima dell’odds ratio (corrispondente al passaggio dallo stato 0 allo stato 1 della variabile X ): exp(β) = exp(0.4) = 1.5  la propensione all’acquisto è 1.5 volte maggiore (+50%) nel gruppo dei consumatori esposti allo sconto rispetto ai non esposti

114 114/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Effetto marginale Interpretazione dei parametri in termini di probabilità Effetto marginale: quale effetto produce la variazione unitaria di una variabile esplicativa non su O (odds) ma su P (probabilità di successo) Poiché la relazione tra la probabilità di successo e le X non è lineare, l’effetto di queste ultime non è costante, ma dipende dal livello di P, che dipende dal livello delle X Caso di una sola variabile esplicativa:

115 115/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Effetto marginale Effetto marginale: Effetto marginale massimo (massima pendenza della funzione) per P = 0.5  0.25β Per dare un valore di sintesi all’effetto marginale in genere esso viene calcolato in corrispondenza del valore medio di x (pendenza alla media):

116 116/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Effetto marginale - Esempio YX π(x) Param Intercetta X Effetto marginale alla media: Effetto marginale modello prob. lineare: b = 0.054

117 117/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Effetto marginale Caso di più variabili esplicative Effetto marginale della variabile X j : Valore di sintesi in corrispondenza dei valori medi delle variabili esplicative:

118 118/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Effetto marginale – Esempio Regressione logisticaMod. pr. lin. parametri Intercetta turnover prod_inn qual_cert Indagine EFIGE Italia – Settore Mezzi di trasporto Variabile dipendente: dir_export Confronto regressione logistica – modello probabilità lineare:

119 119/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La stima dei parametri (indipendenza tra le unità) P se Y i = 1 1-P se Y i = 0 {  Stima del vettore dei parametri β Metodo della massima verosimiglianza Richiami di metodo - popolazione bernoulliana Stima del parametro P: valore di P che massimizza la probabilità di osservare il campione effettivamente osservato Y 1, Y 2 …, Y n Probabilità congiunta del campione osservato: Funzione di verosimiglianza:

120 120/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La stima dei parametri Massimizzare L(P) equivale a massimizzare log L(P) Funzione di log-verosimiglianza:

121 121/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La stima dei parametri Probabilità in funzione di x i - Funzione di verosimiglianza: - La probabilità di osservare le Y del campione è posta in relazione con le variabili esplicative X 2, …, X k tramite una funzione non lineare nei parametri β 1, β 2, …, β k - Ricercare i valori incogniti dei parametri β j che massimizzano la probabilità di osservare il campione effettivamente osservato Stima del vettore dei parametri β Funzione di log-verosimiglianza:

122 122/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas La stima dei parametri Le derivate parziali rispetto ai parametri β 1, …, β k uguagliate a 0 danno luogo a un sistema di equazioni non lineari nei k parametri, la cui soluzione ( b 1, …, b k ) richiede metodi numerici iterativi.

123 123/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Test sui singoli parametri Verifica significatività della stima b j di un generico parametro b j si distribuisce normalmente con media zero ed errore standard s ( b j ) (elemento jj sulla diagonale della matrice di varianza- covarianza del vettore b delle stime dei parametri β) Test di Wald: In alternativa : W 2 che si distribuisce come un Chi-quadro con 1 grado di libertà  se W 2 > χ 2 1,α si respinge l’ipotesi nulla Sotto l’ipotesi nulla β j = 0 W si distribuisce come una normale standardizzata  se si respinge l’ipotesi nulla e si conclude che il parametro è significativamente diverso da 0

124 124/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Test sui singoli parametri – Esempi Stima Errore standard Chi-quadro di WaldPr > Chi² Intercetta X Stima Errore standard Chi-quadro di waldPr > Chi² Intercetta turnover prod_inn <0.001 qual_cert Esempio modello con una variabile esplicativa: Esempio EFIGE – Mezzi trasporto:

125 125/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Test significatività del modello La significatività del modello nel suo complesso Test analogo al test F del modello lineare, fondato sul rapporto tra la verosimiglianza del modello con la sola intercetta L(0) e quella del modello con le variabili esplicative L(β) chiamata Extradevianza: rapporto di verosimiglianza

126 126/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Test significatività del modello Valori elevati di G (valori bassi del rapporto di verosimiglianza) indicano che le variabili esplicative sono rilevanti nello spiegare i valori delle Y Massima dipendenza di Y dalle X: L(β)=1; log L(β)=0  G >> 0 Assenza dipendenza di Y dalle X: L(β)=L(0); log L(β)=log L(0)  G = 0 

127 127/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Test significatività del modello Verifica del sistema di ipotesi: H 0 : β 2 = … = β k = 0 H 1 : almeno un β j ≠ 0 (j=2,…,k) Sotto ipotesi nulla G si distribuisce come una χ 2 con k-1 gradi di libertà  si respinge l’ipotesi nulla se

128 128/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Misura bontà adattamento Pseudo R 2 (McFadden) 0 se log L(β) = log L(0) 1 se log L(β) = 0 { Diverse misure analoghe al coefficiente di determinazione multiplo

129 129/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Misura bontà adattamento Coefficiente di determinazione generalizzato per modelli non lineari (Cox – Snell): Coefficiente riscalato (Nagelkerke): Valore massimo per L(β) = 1: R 2 del modello di regressione lineare è un caso particolare di R 2 g

130 130/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Modello di regressione logistica - Esempio (una variabile esplicativa) StatisticaGDLChi-quadroPr > Chi² -2 log(rapp. verosim.) Test significatività del modello: Coefficienti di bontà di adattamento: R²(McFadden)0.561 R²(Cox and Snell)0.533 R²(Nagelkerke)0.718

131 131/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Modello di regressione logistica - Esempio (EFIGE – Mezzi trasporto) StatisticaGDLChi-quadroPr > Chi² -2 log(rapp. verosim.) <0.001 Test significatività del modello: Coefficienti di bontà di adattamento: R²(McFadden)0.411 R²(Cox and Snell)0.381 R²(Nagelkerke)0.553


Scaricare ppt "1/85 Copyright © 2009 – The McGraw-Hill Companies srl Statistica aziendale Bruno Bracalente, Massimo Cossignani, Anna Mulas Capitolo 4 Il modello di regressione."

Presentazioni simili


Annunci Google