Corso di Analisi Statistica per le imprese

Slides:



Advertisements
Presentazioni simili
ESERCITAZIONE 2 Come leggere la tavola della normale e la tavola t di Student. Alcune domande teoriche.
Advertisements

- le Medie la Moda la Mediana
Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
8) GLI INTERVALLI DI CONFIDENZA
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
L’Analisi della Varianza ANOVA (ANalysis Of VAriance)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Come organizzare i dati per un'analisi statistica al computer?
____________________
Intervalli di confidenza
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
COORDINATE POLARI Sia P ha coordinate cartesiane
Lez. 3 - Gli Indici di VARIABILITA’
Regressione lineare Esercitazione 24/01/04.
ANALISI DELLA COVARIANZA
Analisi Bivariata e Test Statistici
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Analisi Bivariata e Test Statistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Test statistici: il test Chi-Quadro, il test F e il test t.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
Inferenza statistica per un singolo campione
MODELLO DI REGRESSIONE LINEARE MULTIPLA: USO DELLE VARIABILI DUMMY (parte 2) In alcune circostanze è opportuno inserire, come variabili esplicative, delle.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Corso di Analisi Statistica per le imprese
CONFRONTO TRA DUE MEDIE:
DIFFERENZA TRA LE MEDIE
Analisi della varianza (a una via)
Appunti di inferenza per farmacisti
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Corso di biomatematica lezione 9: test di Student
Corso di biomatematica lezione 7-2: Test di significatività
Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un.
Esercizi x1=m-ts x2=m+ts
di cosa si occupa la statistica inferenziale?
Lezione 8 Numerosità del campione
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
Lezione 8 La valutazione dello scarto per “fuori tolleranza”
Verifica delle ipotesi su due campioni di osservazioni
Metodi Quantitativi per Economia, Finanza e Management Lezione n°3 Le distribuzioni di frequenza e le misure di sintesi univariate.
Esercitazioni sul calcolo dei valori critici
Le distribuzioni campionarie
Esercizio Regressione DATI Per un campione casuale di 82 clienti di un'insegna della GDO, sono disponibili le seguenti variabili, riferite ad un mese di.
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Gli indici di dispersione
I mercati dei beni e i mercati finanziari: il modello IS-LM
La verifica d’ipotesi Docente Dott. Nappo Daniela
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Corso di Analisi Statistica per le Imprese
9) VERIFICA DI IPOTESI L’ipotesi statistica è una supposizione riguardante caratteristiche ignote ignote di una v.c. X. Es.: campionamento con ripetizione,
Test basati su due campioni Test Chi - quadro
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
LA VERIFICA DI IPOTESI: TEST BASATI SU UN CAMPIONE
Esercizio Regressione DATI Per un campione casuale di 82 clienti di un'insegna della GDO, sono disponibili le seguenti variabili, riferite ad un mese di.
ANALISI E INTERPRETAZIONE DATI
Correlazione e regressione lineare
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
Corso di Analisi Statistica per le imprese
Corso di Analisi Statistica per le imprese
Transcript della presentazione:

Corso di Analisi Statistica per le imprese Esercitazione: Inferenza nel modello di regressione lineare Prof. L. Neri a.a. 2011-2012 Esercitazione Inferenza nella Regressione lineare 1

Verifica di ipotesi per i singoli parametri del modello – Test t Il contributo (marginale) della singola variabile Xj (j=2,…,k) alla previsione di Y si può verificare attraverso il sistema di ipotesi: Se si accetta H0, si conclude che, al variare di Xj, quando tutte le altre X rimangono immutate, il valore medio di Y rimane costante In altre parole, l’ipotesi nulla afferma che Xj non fornisce informazione utile per stimare Y al di là di quella fornita dalle altre variabili esplicative 2

Statistica test Statistica test Al livello di significatività α, si accetta H0 se il valore della statistica test calcolato sul campione cade nell’area di accettazione dell’ipotesi nulla, cioè se 3

Verifica di ipotesi per i singoli parametri del modello – Test t Il contributo (marginale) della singola variabile Xj (j=2,…,k) alla previsione di Y si può verificare attraverso il sistema di ipotesi: Se si accetta H0, si conclude che, al variare di Xj, quando tutte le altre X rimangono immutate, il valore medio di Y rimane costante In altre parole, l’ipotesi nulla afferma che Xj non fornisce informazione utile per stimare Y al di là di quella fornita dalle altre variabili esplicative 4

Statistica test Statistica test Al livello di significatività α, si accetta H0 se il valore della statistica test calcolato sul campione cade nell’area di accettazione dell’ipotesi nulla, cioè se 5

Esempio – Vendite di gelato Risultati ottenuti su un campione di n=10 osservazioni   Coefficienti Errore standard Stat t p-value Intercetta 6,770 1,165 5,812 0,001 Prezzo -0,201 0,054 -3,706 0,008 Temperatura 0,281 0,032 8,898 0,000 Per ciascun coefficiente il valore della statistica test è sufficientemente elevato (in valore assoluto) da portare al rifiuto dell’ipotesi nulla di uguaglianza a zero del corrispondente parametro (come si legge anche dai bassi valori del p-value) Ciascuna delle due var. X fornisce un’utile informazione aggiuntiva per spiegare le variazioni nei valori campionari della var. Y, oltre a quella fornita dall’altra var. esplicativa 6

Analisi della varianza - test F Il test F è una procedura per sottoporre a verifica l’ipotesi che i parametri del modello siano congiuntamente uguali a zero Se si accetta H0 vuol dire che nessuna variabile esplicativa Xj (j=2,…,k) ha un effetto significativo su Y Se si accetta H1, si conclude che c’è almeno una variabile esplicativa Xj da cui Y dipende significativamente 7

Analisi varianza e test F Generalizzando il risultato ottenuto nel modello di regressione lineare semplice, la statistica test per verificare questa ipotesi è data da: confronta con 8

Tabella ANOVA Regione di rifiuto sulla coda destra della distribuzione Se il valore empirico della statistica test F > Fk,n-k;α si rifiuta H0 al livello di significatività prescelto Fk,n-k;α 9

Test F ANOVA - Output Excel   gdl SQ MQ F p-value Regressione 2 13,10 6,55 42,23 0,00 Errore 7 1,09 0,16 Totale 9 14,18 Per verificare Al livello α=0,05 42,23 > 4,737 Si rifiuta H0 L’evidenza campionaria contraddice l’ipotesi nulla La quantità venduta di gelato dipende linearmente da almeno una delle due variabili esplicative (prezzo e temperatura) 10

Esempio – Vendite di gelato Risultati ottenuti su un campione di n=10 osservazioni   Coefficienti Errore standard Stat t p-value Intercetta 6,770 1,165 5,812 0,001 Prezzo -0,201 0,054 -3,706 0,008 Temperatura 0,281 0,032 8,898 0,000 Per ciascun coefficiente il valore della statistica test è sufficientemente elevato (in valore assoluto) da portare al rifiuto dell’ipotesi nulla di uguaglianza a zero del corrispondente parametro (come si legge anche dai bassi valori del p-value) Ciascuna delle due var. X fornisce un’utile informazione aggiuntiva per spiegare le variazioni nei valori campionari della var. Y, oltre a quella fornita dall’altra var. esplicativa 11

Test F ANOVA - Output Excel   gdl SQ MQ F p-value Regressione 2 13,10 6,55 42,23 0,00 Errore 7 1,09 0,16 Totale 9 14,18 Per verificare Al livello α=0,05 42,23 > 4,737 Si rifiuta H0 L’evidenza campionaria contraddice l’ipotesi nulla La quantità venduta di gelato dipende linearmente da almeno una delle due variabili esplicative (prezzo e temperatura) 12

Dev(X)=7,45; Dev(Y)=SQT=26,18; n=12; R2=0,895 Esercizio 1 Per un campione di clienti, il gestore di una pizzeria che effettua consegne a domicilio registra la distanza (in km) dalla pizzeria al cliente e il tempo (in minuti) necessario per consegnare la pizza. Si vuole studiare la dipendenza lineare del tempo (Y) dalla distanza (X). Sappiamo che: Dev(X)=7,45; Dev(Y)=SQT=26,18; n=12; R2=0,895 Ricavare il coefficiente di regressione campionario Costruire l’intervallo di confidenza al 90% per il coefficiente di regressione della popolazione e verificare la dipendenza lineare del tempo dalla distanza. Conoscendo che il tempo medio di consegna quando la distanza è pari a 2 km è di 3,4 minuti e che la distanza media percorsa è di 2,4 km, ricavare l’intervallo di confidenza al 95% per il tempo medio di consegna quando la distanza è pari a 2 km 13

Gli estremi dell’intervallo di confidenza sono dati da Per calcolare il coefficiente di regressione, ricaviamo prima il coefficiente di correlazione lineare ρXY a partire da R2 Un km di distanza in più fa aumentare il tempo medio di percorrenza di 1,77 minuti (b) Gli estremi dell’intervallo di confidenza sono dati da dove   14

Dalla relazione si ricava Allora Quindi l’intervallo ha per estremi cioè L’intervallo in questione non comprende il valore 0. In base a questa considerazione, è possibile concludere che l’ipotesi H0: β1=0 deve essere rifiutata a favore di H1: β1≠0 ad un livello α=0,10 c) Gli estremi dell’intervallo sono dati da:   15

dove L’intervallo è   16

La seguente tabella riporta i risultati della stima. Esercizio 2 Si stima un modello di regressione lineare semplice del tipo Y= β0+ β1X per indagare la dipendenza lineare delle vendite annuali (Y, in migliaia di euro) di una catena di n=14 negozi dalla superficie (X, in metri quadri) dei negozi stessi. La seguente tabella riporta i risultati della stima. Coefficiente Stima Errore standard β0 0,964 0,526 β1 1,670 0,157 (a) Stimare le vendite medie per i negozi con una superficie di 35 metri quadri (b) Al livello di significatività α=0,10 verificare l’ipotesi di assenza di dipendenza lineare delle vendite dalla superficie (c) Al livello di significatività α=0,05 verificare l’ipotesi che la retta di regressione passi per l’origine degli assi. 17

Le vendite medie per X=35 sono date da: Questo indica che la media delle vendite annuali dei negozi di 35 mq è pari a 59414 €   (b) Il valore della statistica test è Poiché 10,64>1,7823 si rifiuta H0: β1=0 e si accetta H1: β1≠0 (p-value=0,00). C’è evidenza di una relazione di dipendenza lineare delle vendite dalla superficie dei negozi -t10;0,05=-1,7823 t10;0,05 =1,7823 18

Il valore della statistica test è Poiché -2,2281 < 1,83 < 2,2281 l’ipotesi H0: β0=0 contro l’alternativa bilaterale non può essere rifiutata (p-value=0,097). Accettare l’ipotesi nulla corrisponde a considerare che la relazione di dipendenza lineare nella popolazione è descritta da una retta che passa per l’origine. -t10;0,025=-2,2281 t10;0,025 =2,2281 19

Completare la seguente tabella ANOVA: Esercizio 3 Sulla base di n= 17 osservazioni campionarie si è stimato un modello di regressione lineare in cui il reddito familiare (Y) è espresso in funzione del numero di componenti (X). Completare la seguente tabella ANOVA: Fonte della variazione Somma dei quadrati (Devianza) Gradi di libertà Media dei quadrati (Varianza) Statistica F Regressione 3,8 ? F=? Errore 1,8 Totale Al livello α=0,05 verificare la significatività della relazione di dipendenza lineare del reddito dal numero di componenti Ricavare R2.   20

La tavola ANOVA risultante è Fonte della variazione Somma dei quadrati (Devianza) Gradi di libertà Media dei quadrati (Varianza) Statistica F Regressione 3,8 1 2,11 Residuo 27,0 15 1,8   Totale 30,8 16 (a) Poiché 2,11 < 4,54 si accetta H0: β1=0 contro H1: β1≠0 (p-value=0,167). La relazione di dipendenza lineare di Y da X non è significativa.   (b) F1,15;0,05=4,54 21

Statistica della regressione Esercizio 4 Si stima un modello di regressione multipla dove la variabile risposta è la media mensile di utilizzo del cellulare (in minuti) Le variabili esplicative sono: BOLLETTA (Costo medio mensile delle telefonate, in euro) LAVORO (Percentuale di utilizzo per uso lavoro) REDDITO (Reddito familiare mensile, in migliaia di euro) Si ottengono i seguenti risultati: Statistica della regressione R multiplo 0,540 R al quadrato 0,292 R al quadrato corretto 0,283 Errore standard 39,424 Osservazioni 250 ANALISI VARIANZA   gdl SQ MQ F p-value Regressione 3 157695,699 52565,233 33,821 0,000 Residuo 246 382340,714 1554,231 Totale 249 540036,413 22

La bontà di adattamento del modello è molto elevata?   Coefficienti Errore standard Stat t p-value Inferiore 95% Superiore 95% Intercetta 29,625 15,503 1,911 0,057 -0,910 60,161 BOLLETTA 0,885 0,147 6,016 0,000 0,595 1,175 LAVORO 0,536 0,323 1,662 0,098 -0,099 1,172 REDDITO 0,956 0,233 4,112 0,498 1,414 Aumentando di un euro il costo medio della bolletta (tenendo costante il valore delle altre variabili) di quanto aumenta la media mensile di utilizzo del cellulare? Considerando un livello di significatività α=0,10 indicare quali sono le variabili esplicative che presentano un coefficiente di regressione significativamente diverso da zero Ad un livello di confidenza pari a 1-α=0,95 il coefficiente di regressione della var. BOLLETTA può essere pari a 1,2? La bontà di adattamento del modello è molto elevata? Si può rifiutare l’ipotesi nulla che i coefficienti di regressione siano tutti uguali a zero per α=0,05? 23

L’effetto di un aumento di un euro del costo medio della bolletta sulla media mensile di utilizzo del cellulare (tenendo costante il valore delle altre variabili) si legge dal valore del coefficiente della variabile BOLLETTA. In questo caso la media mensile di utilizzo del cellulare subisce un incremento di 0,885 minuti Al livello di significatività α=0,10 i coefficienti di tutte le variabili esplicative e anche quello dell’intercetta sono significativamente diversi da zero, poiché il loro p-value è minore di 0,10 Al livello 1-α=0,95 il coefficiente di regressione della var. BOLLETTA non può essere pari a 1,2. La stima intervallare di tale coefficiente (0,595; 1,175) non comprende, infatti, il valore 1,2 La bontà di adattamento del modello non è molto elevata, in quanto la variabilità spiegata dal modello (misurata da R2) è pari al 29,2% L’ipotesi nulla che tutti i coefficienti di regressione siano simultaneamente uguali a zero si può rifiutare, visto che il valore F della tavola ANOVA ha associato un p-value pari a zero 24

Introduzione di una o più variabili dummy Per stimare la domanda di gelato possiamo ipotizzare che, oltre al prezzo e alla temperatura, la quantità venduta di gelato dipenda anche dal giorno della settimana Ci aspettiamo che le vendite siano maggiori nei finesettimana rispetto agli altri giorni Se questa supposizione fosse confermata dai dati, potremmo decidere di fissare un prezzo più alto nei finesettimana Introduciamo nel modello come terza variabile esplicativa una variabile dummy X3 (GIORNO) 25

Interpretazione del coefficiente della variabile dummy Modello stimato: X3 Modello stimato finesettimana 1 da lun a ven Il coefficiente , così come gli altri, è stimato con il metodo dei minimi quadrati. Rappresenta la differenza tra le vendite medie giornaliere di gelato quando X3=1 (finesettimana) e le vendite medie giornaliere quando X3=0 (dal lun al ven), se il prezzo e la temperatura rimangono costanti 26

Interpretazione del coefficiente della variabile dummy   Coefficienti Errore standard Stat t p-value Intercetta 6,123 0,649 9,433 0,000 PREZ (X1) -0,165 0,031 -5,395 0,002 TEMP (X2) 0,272 0,017 15,830 GIORNO (X3) 0,607 0,144 4,228 0,006 Il coefficiente della variabile dummy GIORNO è significativamente diverso da 0 (p-value=0,006). Conoscere il giorno (se dal lun al ven oppure sab/dom) è utile per spiegare la variazione nei valori campionari delle vendite, se il prezzo e la temperatura sono noti A parità di prezzo e temperatura, le vendite stimate nei finesettimana sono in media superiori di 0,607 kg rispetto agli altri giorni della settimana 27 27

Interpretazione del coefficiente della variabile dummy Vendite stimate Vendite stimate Differenza=0,607 Differenza=0,607 Prezzo Temperatura A destra, la relazione tra VENDITE stimate e TEMPERATURA quando PREZ=15. A sinistra, la relazione tra VENDITE stimate e PREZZO quando TEMP=29. In blu la retta quando GIORNO=1 (sab-dom), in rosso la retta quando GIORNO=0 (lun-ven) 28

Riepilogo output Statistica della regressione R multiplo 0,990 R al quadrato 0,981 R al quadrato corretto 0,971 Errore standard 0,213 Osservazioni 10 ANALISI VARIANZA   gdl SQ MQ F p-value Regressione 3 13,911 4,637 101,986 0,000 Errore 6 0,273 0,045 Totale 9 14,184 Coefficienti Stat t Inferiore 95% Superiore 95% Intercetta 6,123 0,649 9,433 4,534 7,711 PREZ -0,165 0,031 -5,395 0,002 -0,240 -0,090 TEMP 0,272 0,017 15,830 0,230 0,314 GIORNO 0,607 0,144 4,228 0,006 0,256 0,959 29

Valutazione del modello con la variabile dummy Nel complesso, con l’inserimento della variabile qualitativa X3 (GIORNO), il modello migliora il suo adattamento Rispetto al modello con solo prezzo e temperatura come variabili esplicative: R2 corretto è più alto l’errore standard s della regressione è più piccolo gli errori standard dei coefficienti stimati sono più piccoli 30 30

Se le modalità della variabile qualitativa sono più di due? Un altro fattore che potrebbe influenzare le vendite di gelato sono le condizioni del tempo. Immaginiamo di voler distinguere tra le tre condizioni di “sereno”, “coperto”, “piovoso”. Dobbiamo introdurre nel modello due variabili dummy 31 31

Due variabili dummy per un carattere con tre modalità Le due variabili X4 e X5 servono per specificare le tre condizioni meteorologiche X4 X5 Modello stimato sereno 1 coperto piovoso “piovoso” è la categoria di riferimento (quella per la quale le variabili dummy valgono entrambe 0) 32 32

Interpretazione dei coefficienti X4 X5 Modello stimato sereno 1 coperto piovoso stima la differenza nelle vendite medie tra giorni sereni (X4=1) e giorni piovosi (la categoria di riferimento) stima la differenza nelle vendite medie tra giorni coperti (X5=1) e giorni piovosi (la categoria di riferimento) 33 33

Esercizio – Regressione multipla Su un campione di n=391 automobili si stima un modello di regressione multipla Var. risposta: CONSUMO (Km/l) Var. esplicative: MOTORE (Cilindrata in cm3) CV (Potenza in Cavalli Vapore) PESO ACCEL (Accelerazione, secondi per passare da 0 a 100 km/h)) La var. ORIGINE (Nazione produttrice) presentava tre modalità: ITALIA, EUROPA, GIAPPONE Si introducono due variabili dummy ORIGINE1 (=1 per auto italiane) ORIGINE2 (=1 per auto europee non italiane) (la categoria di riferimento è “auto giapponesi” 34 34

Esercizio – Risultati regressione multipla Statistica della regressione R multiplo 0,846 R al quadrato 0,716 R al quadrato corretto 0,712 Errore standard 4,176 Osservazioni 391 ANALISI VARIANZA   gdl SQ MQ F p-value Regressione 6 16882,010 2813,668 161,372 0,000 Residuo 384 6695,402 17,436 Totale 390 23577,412   Coefficienti Errore standard Stat t p-value Inferiore 95% Superiore 95% Intercetta 41,558 2,262 18,376 0,000 37,112 46,005 MOTORE 0,002 0,007 0,214 0,830 -0,013 0,016 CV -0,067 0,017 -3,899 -0,100 -0,033 PESO -0,014 -5,738 -0,019 -0,009 ACCEL -0,123 0,125 -0,987 0,324 -0,369 0,122 ORIGINE1 -2,805 0,695 -4,034 -4,171 -1,438 ORIGINE2 -1,751 0,702 -2,495 0,013 -3,131 -0,371 35 35

Esercizio Considerando un livello di significatività α=0,05 indicare quali sono le variabili esplicative che presentano un coefficiente di regressione significativamente diverso da zero Ad un livello di confidenza pari a 1-α=0,95 il coefficiente di regressione della var. PESO può essere di segno positivo? La bontà di adattamento del modello è sufficientemente elevata? Si può accettare l’ipotesi nulla che i coefficienti di regressione siano tutti uguali a zero per α=0,01? Tenendo fisse le altre var. esplicative, qual è la differenza nel consumo medio tra auto italiane e auto giapponesi? 36 36