La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Corso di Analisi Statistica per le imprese Esercitazione: Inferenza nel modello di regressione lineare Prof. L. Neri a.a. 2011-2012 Esercitazione Inferenza.

Presentazioni simili


Presentazione sul tema: "Corso di Analisi Statistica per le imprese Esercitazione: Inferenza nel modello di regressione lineare Prof. L. Neri a.a. 2011-2012 Esercitazione Inferenza."— Transcript della presentazione:

1 Corso di Analisi Statistica per le imprese Esercitazione: Inferenza nel modello di regressione lineare Prof. L. Neri a.a Esercitazione Inferenza nella Regressione lineare1

2 Verifica di ipotesi per i singoli parametri del modello – Test t Il contributo (marginale) della singola variabile X j (j=2,…,k) alla previsione di Y si può verificare attraverso il sistema di ipotesi: Se si accetta H 0, si conclude che, al variare di X j, quando tutte le altre X rimangono immutate, il valore medio di Y rimane costante In altre parole, lipotesi nulla afferma che X j non fornisce informazione utile per stimare Y al di là di quella fornita dalle altre variabili esplicative 2

3 Statistica test Al livello di significatività α, si accetta H 0 se il valore della statistica test calcolato sul campione cade nellarea di accettazione dellipotesi nulla, cioè se Statistica test 3

4 Verifica di ipotesi per i singoli parametri del modello – Test t Il contributo (marginale) della singola variabile X j (j=2,…,k) alla previsione di Y si può verificare attraverso il sistema di ipotesi: Se si accetta H 0, si conclude che, al variare di X j, quando tutte le altre X rimangono immutate, il valore medio di Y rimane costante In altre parole, lipotesi nulla afferma che X j non fornisce informazione utile per stimare Y al di là di quella fornita dalle altre variabili esplicative 4

5 Statistica test Al livello di significatività α, si accetta H 0 se il valore della statistica test calcolato sul campione cade nellarea di accettazione dellipotesi nulla, cioè se Statistica test 5

6 Esempio – Vendite di gelato Risultati ottenuti su un campione di n=10 osservazioni Per ciascun coefficiente il valore della statistica test è sufficientemente elevato (in valore assoluto) da portare al rifiuto dellipotesi nulla di uguaglianza a zero del corrispondente parametro (come si legge anche dai bassi valori del p-value) Ciascuna delle due var. X fornisce unutile informazione aggiuntiva per spiegare le variazioni nei valori campionari della var. Y, oltre a quella fornita dallaltra var. esplicativa Coefficienti Errore standardStat tp-value Intercetta6,7701,1655,8120,001 Prezzo-0,2010,054-3,7060,008 Temperatura0,2810,0328,8980,000 6

7 Analisi della varianza - test F Il test F è una procedura per sottoporre a verifica lipotesi che i parametri del modello siano congiuntamente uguali a zero Se si accetta H 0 vuol dire che nessuna variabile esplicativa X j (j=2,…,k) ha un effetto significativo su Y Se si accetta H 1, si conclude che cè almeno una variabile esplicativa X j da cui Y dipende significativamente 7

8 Generalizzando il risultato ottenuto nel modello di regressione lineare semplice, la statistica test per verificare questa ipotesi è data da: Analisi varianza e test F confronta con 8

9 Tabella ANOVA Regione di rifiuto sulla coda destra della distribuzione Se il valore empirico della statistica test F > F k,n-k; α si rifiuta H 0 al livello di significatività prescelto F k,n-k; α 9

10 Test F ANOVA - Output Excel Per verificare Al livello α =0,05 42,23 > 4,737 Si rifiuta H 0 Levidenza campionaria contraddice lipotesi nulla La quantità venduta di gelato dipende linearmente da almeno una delle due variabili esplicative (prezzo e temperatura) gdlSQMQFp-value Regressione213,106,5542,230,00 Errore71,090,16 Totale914,18 10

11 Esempio – Vendite di gelato Risultati ottenuti su un campione di n=10 osservazioni Per ciascun coefficiente il valore della statistica test è sufficientemente elevato (in valore assoluto) da portare al rifiuto dellipotesi nulla di uguaglianza a zero del corrispondente parametro (come si legge anche dai bassi valori del p-value) Ciascuna delle due var. X fornisce unutile informazione aggiuntiva per spiegare le variazioni nei valori campionari della var. Y, oltre a quella fornita dallaltra var. esplicativa Coefficienti Errore standardStat tp-value Intercetta6,7701,1655,8120,001 Prezzo-0,2010,054-3,7060,008 Temperatura0,2810,0328,8980,000 11

12 Test F ANOVA - Output Excel Per verificare Al livello α =0,05 42,23 > 4,737 Si rifiuta H 0 Levidenza campionaria contraddice lipotesi nulla La quantità venduta di gelato dipende linearmente da almeno una delle due variabili esplicative (prezzo e temperatura) gdlSQMQFp-value Regressione213,106,5542,230,00 Errore71,090,16 Totale914,18 12

13 Esercizio 1 Per un campione di clienti, il gestore di una pizzeria che effettua consegne a domicilio registra la distanza (in km) dalla pizzeria al cliente e il tempo (in minuti) necessario per consegnare la pizza. Si vuole studiare la dipendenza lineare del tempo (Y) dalla distanza (X). Sappiamo che: Dev(X)=7,45; Dev(Y)=SQT=26,18; n=12; R 2 =0,895 a)Ricavare il coefficiente di regressione campionario b)Costruire lintervallo di confidenza al 90% per il coefficiente di regressione della popolazione e verificare la dipendenza lineare del tempo dalla distanza. c)Conoscendo che il tempo medio di consegna quando la distanza è pari a 2 km è di 3,4 minuti e che la distanza media percorsa è di 2,4 km, ricavare lintervallo di confidenza al 95% per il tempo medio di consegna quando la distanza è pari a 2 km 13

14 (a) Per calcolare il coefficiente di regressione, ricaviamo prima il coefficiente di correlazione lineare ρ XY a partire da R 2 Un km di distanza in più fa aumentare il tempo medio di percorrenza di 1,77 minuti (b) Gli estremi dellintervallo di confidenza sono dati da dove 14

15 Dalla relazione si ricava Allora Quindi lintervallo ha per estremi cioè Lintervallo in questione non comprende il valore 0. In base a questa considerazione, è possibile concludere che lipotesi H 0 : β 1 =0 deve essere rifiutata a favore di H 1 : β 1 0 ad un livello α =0,10 c) Gli estremi dellintervallo sono dati da: 15

16 dove Lintervallo è 16

17 Esercizio 2 Si stima un modello di regressione lineare semplice del tipo Y= β 0 + β 1 X per indagare la dipendenza lineare delle vendite annuali (Y, in migliaia di euro) di una catena di n=14 negozi dalla superficie (X, in metri quadri) dei negozi stessi. La seguente tabella riporta i risultati della stima. (a) Stimare le vendite medie per i negozi con una superficie di 35 metri quadri (b) Al livello di significatività α =0,10 verificare lipotesi di assenza di dipendenza lineare delle vendite dalla superficie (c) Al livello di significatività α =0,05 verificare lipotesi che la retta di regressione passi per lorigine degli assi. CoefficienteStimaErrore standard β0β0 0,9640,526 β1β1 1,6700,157 17

18 (a) Le vendite medie per X=35 sono date da: Questo indica che la media delle vendite annuali dei negozi di 35 mq è pari a (b) Il valore della statistica test è Poiché 10,64>1,7823 si rifiuta H 0 : β 1 =0 e si accetta H 1 : β 1 0 (p-value=0,00). t 10;0,05 =1,7823 -t 10;0,05 =-1,7823 Cè evidenza di una relazione di dipendenza lineare delle vendite dalla superficie dei negozi 18

19 (c) Il valore della statistica test è Poiché -2,2281 < 1,83 < 2,2281 lipotesi H 0 : β 0 =0 contro lalternativa bilaterale non può essere rifiutata (p- value=0,097). Accettare lipotesi nulla corrisponde a considerare che la relazione di dipendenza lineare nella popolazione è descritta da una retta che passa per lorigine. t 10;0,025 =2,2281 -t 10;0,025 =-2,

20 Esercizio 3 Sulla base di n= 17 osservazioni campionarie si è stimato un modello di regressione lineare in cui il reddito familiare (Y) è espresso in funzione del numero di componenti (X). Completare la seguente tabella ANOVA: a)Al livello α =0,05 verificare la significatività della relazione di dipendenza lineare del reddito dal numero di componenti b)Ricavare R 2. Fonte della variazione Somma dei quadrati (Devianza) Gradi di libertà Media dei quadrati (Varianza) Statistica F Regressione3,8??F=? Errore??1,8 Totale?? 20

21 La tavola ANOVA risultante è Fonte della variazione Somma dei quadrati (Devianza) Gradi di libertà Media dei quadrati (Varianza) Statistica F Regressione3,81 2,11 Residuo27,0151,8 Totale30,816 (a) Poiché 2,11 < 4,54 si accetta H 0 : β 1 =0 contro H 1 : β 1 0 (p- value=0,167). La relazione di dipendenza lineare di Y da X non è significativa. (b) F 1,15;0,05 =4,54 21

22 Esercizio 4 Si stima un modello di regressione multipla dove la variabile risposta è la media mensile di utilizzo del cellulare (in minuti) Le variabili esplicative sono: BOLLETTA (Costo medio mensile delle telefonate, in euro) LAVORO (Percentuale di utilizzo per uso lavoro) REDDITO (Reddito familiare mensile, in migliaia di euro) Si ottengono i seguenti risultati: Statistica della regressione R multiplo0,540 R al quadrato0,292 R al quadrato corretto0,283 Errore standard39,424 Osservazioni250 ANALISI VARIANZA gdlSQMQFp-value Regressione , ,23333,8210,000 Residuo , ,231 Totale ,413 22

23 a)Aumentando di un euro il costo medio della bolletta (tenendo costante il valore delle altre variabili) di quanto aumenta la media mensile di utilizzo del cellulare? b)Considerando un livello di significatività α =0,10 indicare quali sono le variabili esplicative che presentano un coefficiente di regressione significativamente diverso da zero c)Ad un livello di confidenza pari a 1- α =0,95 il coefficiente di regressione della var. BOLLETTA può essere pari a 1,2? d)La bontà di adattamento del modello è molto elevata? e)Si può rifiutare lipotesi nulla che i coefficienti di regressione siano tutti uguali a zero per α =0,05? Coefficienti Errore standardStat t p- value Inferiore 95% Superiore 95% Intercetta29,62515,5031,9110,057-0,91060,161 BOLLETTA0,8850,1476,0160,0000,5951,175 LAVORO0,5360,3231,6620,098-0,0991,172 REDDITO0,9560,2334,1120,0000,4981,414 23

24 a)Leffetto di un aumento di un euro del costo medio della bolletta sulla media mensile di utilizzo del cellulare (tenendo costante il valore delle altre variabili) si legge dal valore del coefficiente della variabile BOLLETTA. In questo caso la media mensile di utilizzo del cellulare subisce un incremento di 0,885 minuti b)Al livello di significatività α =0,10 i coefficienti di tutte le variabili esplicative e anche quello dellintercetta sono significativamente diversi da zero, poiché il loro p-value è minore di 0,10 c)Al livello 1- α =0,95 il coefficiente di regressione della var. BOLLETTA non può essere pari a 1,2. La stima intervallare di tale coefficiente (0,595; 1,175) non comprende, infatti, il valore 1,2 d)La bontà di adattamento del modello non è molto elevata, in quanto la variabilità spiegata dal modello (misurata da R 2 ) è pari al 29,2% e)Lipotesi nulla che tutti i coefficienti di regressione siano simultaneamente uguali a zero si può rifiutare, visto che il valore F della tavola ANOVA ha associato un p-value pari a zero 24

25 Introduzione di una o più variabili dummy Per stimare la domanda di gelato possiamo ipotizzare che, oltre al prezzo e alla temperatura, la quantità venduta di gelato dipenda anche dal giorno della settimana Ci aspettiamo che le vendite siano maggiori nei finesettimana rispetto agli altri giorni Se questa supposizione fosse confermata dai dati, potremmo decidere di fissare un prezzo più alto nei finesettimana Introduciamo nel modello come terza variabile esplicativa una variabile dummy X 3 (GIORNO) 25

26 26 Modello stimato: Il coefficiente, così come gli altri, è stimato con il metodo dei minimi quadrati. Rappresenta la differenza tra le vendite medie giornaliere di gelato quando X 3 =1 (finesettimana) e le vendite medie giornaliere quando X 3 =0 (dal lun al ven), se il prezzo e la temperatura rimangono costanti Interpretazione del coefficiente della variabile dummy X3X3 Modello stimato finesettimana1 da lun a ven0

27 27 Il coefficiente della variabile dummy GIORNO è significativamente diverso da 0 (p-value=0,006). Conoscere il giorno (se dal lun al ven oppure sab/dom) è utile per spiegare la variazione nei valori campionari delle vendite, se il prezzo e la temperatura sono noti A parità di prezzo e temperatura, le vendite stimate nei finesettimana sono in media superiori di 0,607 kg rispetto agli altri giorni della settimana CoefficientiErrore standardStat tp-value Intercetta6,1230,6499,4330,000 PREZ (X 1 )-0,1650,031-5,3950,002 TEMP (X 2 )0,2720,01715,8300,000 GIORNO (X 3 )0,6070,1444,2280,006 Interpretazione del coefficiente della variabile dummy

28 28 Vendite stimate PrezzoTemperatura Differenza=0,607 A sinistra, la relazione tra VENDITE stimate e PREZZO quando TEMP=29. A destra, la relazione tra VENDITE stimate e TEMPERATURA quando PREZ=15. In blu la retta quando GIORNO=1 (sab-dom), in rosso la retta quando GIORNO=0 (lun-ven) Interpretazione del coefficiente della variabile dummy

29 29 Statistica della regressione R multiplo0,990 R al quadrato0,981 R al quadrato corretto0,971 Errore standard0,213 Osservazioni10 ANALISI VARIANZA gdlSQMQFp-value Regressione313,9114,637101,9860,000 Errore60,2730,045 Totale914,184 Coeffici enti Errore standardStat tp-value Inferiore 95% Superiore 95% Intercetta6,1230,6499,4330,0004,5347,711 PREZ-0,1650,031-5,3950,002-0,240-0,090 TEMP0,2720,01715,8300,0000,2300,314 GIORNO0,6070,1444,2280,0060,2560,959 Riepilogo output

30 30 Nel complesso, con linserimento della variabile qualitativa X 3 (GIORNO), il modello migliora il suo adattamento Rispetto al modello con solo prezzo e temperatura come variabili esplicative: R 2 corretto è più alto lerrore standard s della regressione è più piccolo gli errori standard dei coefficienti stimati sono più piccoli Valutazione del modello con la variabile dummy

31 31 Un altro fattore che potrebbe influenzare le vendite di gelato sono le condizioni del tempo. Immaginiamo di voler distinguere tra le tre condizioni di sereno, coperto, piovoso. Dobbiamo introdurre nel modello due variabili dummy Se le modalità della variabile qualitativa sono più di due?

32 32 Le due variabili X 4 e X 5 servono per specificare le tre condizioni meteorologiche Due variabili dummy per un carattere con tre modalità X4X4 X5X5 Modello stimato sereno10 coperto01 piovoso00 piovoso è la categoria di riferimento (quella per la quale le variabili dummy valgono entrambe 0)

33 33 Interpretazione dei coefficienti X4X4 X5X5 Modello stimato sereno10 coperto01 piovoso00 stima la differenza nelle vendite medie tra giorni sereni (X 4 =1) e giorni piovosi (la categoria di riferimento) stima la differenza nelle vendite medie tra giorni coperti (X 5 =1) e giorni piovosi (la categoria di riferimento)

34 34 Esercizio – Regressione multipla Su un campione di n=391 automobili si stima un modello di regressione multipla Var. risposta: CONSUMO (Km/l) Var. esplicative: MOTORE (Cilindrata in cm3) CV (Potenza in Cavalli Vapore) PESO ACCEL (Accelerazione, secondi per passare da 0 a 100 km/h)) La var. ORIGINE (Nazione produttrice) presentava tre modalità: ITALIA, EUROPA, GIAPPONE Si introducono due variabili dummy ORIGINE1 (=1 per auto italiane) ORIGINE2 (=1 per auto europee non italiane) (la categoria di riferimento è auto giapponesi

35 35 Esercizio – Risultati regressione multipla Statistica della regressione R multiplo0,846 R al quadrato0,716 R al quadrato corretto0,712 Errore standard4,176 Osservazioni391 ANALISI VARIANZA gdlSQMQFp-value Regressione616882, ,668161,3720,000 Residuo ,40217,436 Totale ,412 Coefficienti Errore standardStat tp-value Inferiore 95% Superiore 95% Intercetta41,5582,26218,3760,00037,11246,005 MOTORE0,0020,0070,2140,830-0,0130,016 CV-0,0670,017-3,8990,000-0,100-0,033 PESO-0,0140,002-5,7380,000-0,019-0,009 ACCEL-0,1230,125-0,9870,324-0,3690,122 ORIGINE1-2,8050,695-4,0340,000-4,171-1,438 ORIGINE2-1,7510,702-2,4950,013-3,131-0,371

36 36 Esercizio a)Considerando un livello di significatività α =0,05 indicare quali sono le variabili esplicative che presentano un coefficiente di regressione significativamente diverso da zero b)Ad un livello di confidenza pari a 1- α =0,95 il coefficiente di regressione della var. PESO può essere di segno positivo? c)La bontà di adattamento del modello è sufficientemente elevata? d)Si può accettare lipotesi nulla che i coefficienti di regressione siano tutti uguali a zero per α =0,01? e)Tenendo fisse le altre var. esplicative, qual è la differenza nel consumo medio tra auto italiane e auto giapponesi?


Scaricare ppt "Corso di Analisi Statistica per le imprese Esercitazione: Inferenza nel modello di regressione lineare Prof. L. Neri a.a. 2011-2012 Esercitazione Inferenza."

Presentazioni simili


Annunci Google