La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio.

Presentazioni simili


Presentazione sul tema: "STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio."— Transcript della presentazione:

1 STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale + aspetti di inferenza (Capitolo 3 del libro + Appendice A)

2 Modello di regressione nella popolazione e nel campione Qual è la relazione tra e ed ε? Qual è la relazione tra e ed ε? Abbiamo già visto graficamente la relazione nella regressione semplice ora la deriviamo per esteso Popolazione ( noto) Campione ( stimato)

3 Analisi dei valori previsti H: matrice di previsione (proiezione) Hat matrix: trasforma y in y cappello

4 Proprietà della matrice H Simmetrica (n n): H = H Simmetrica (n n): H = H Idempotente: HH = H Idempotente: HH = H Per esercizio (esempio investimenti): p. 75 Per esercizio (esempio investimenti): p. 75 Gli elementi h ii sulla diagonale principale della matrice H sono compresi tra 0 e 1 Nel modello di regressione semplice (p. 77): Gli elementi h ii sulla diagonale principale della matrice H sono compresi tra 0 e 1 Nel modello di regressione semplice (p. 77): Quindi h ii è elevato se x i è distante dagli altri valori di X: alto leverage Quindi h ii è elevato se x i è distante dagli altri valori di X: alto leverage

5 Cosa succede se h ii è elevato n = 50 Media X = 19.5 Come sopra, ma per la prima osservazione X passa da 17 a 50

6 Nella regressione multipla Traccia di H (somma degli h ii )= k (numero di parametri) Traccia di H (somma degli h ii )= k (numero di parametri) Media degli h ii = k/n Media degli h ii = k/n Solitamente le osservazioni a cui corrisponde Solitamente le osservazioni a cui corrisponde h ii > 2k/n vengono dette punti di leverage: i punti in cui h ii è grande attirano liperpiano di regressione Esercizio: grafico (in Excel) degli h ii e identificazione dei punti di leverage: p. 78

7 Analisi dei residui Modello vero: Modello vero: Modello stimato Modello stimato Pertanto: Pertanto: dove I è la matrice Identità Quindi: e = (I-H)y le proprietà di e dipendono da quelle della matrice M=I-H

8 Proprietà dei residui (p.76) Che cosa impariamo da tali formule? Pertanto:

9 Il vettore dei residui osservati e ha proprietà diverse dal vettore dei termini aleatori. Infatti Var( ) = 2 I Il vettore dei residui osservati e ha proprietà diverse dal vettore dei termini aleatori. Infatti Var( ) = 2 I I punti in cui h ii è grande sono effettivamente punti di leverage. Infatti dalla formula di var(e i ) discende che e i 0 se h ii 1 I punti in cui h ii è grande sono effettivamente punti di leverage. Infatti dalla formula di var(e i ) discende che e i 0 se h ii 1 Le proprietà dei residui osservati dipendono da quelle della matrice M matrice simmetrica e idempotente (come H): p §A.7 Le proprietà dei residui osservati dipendono da quelle della matrice M matrice simmetrica e idempotente (come H): p §A.7

10 Stima di σ 2 Le proprietà di s 2 derivano dalla relazione tra residui e errori Le proprietà di s 2 derivano dalla relazione tra residui e errori DEV(E) = (n-k)s 2 ~ 2 2 con gradi di libertà = rango (traccia) matrice idempotente M (v. p. 202) DEV(E) = (n-k)s 2 ~ 2 2 con gradi di libertà = rango (traccia) matrice idempotente M (v. p. 202) gradi di libertà = n – k si perdono tanti df quanti sono i parametri da stimare gradi di libertà = n – k si perdono tanti df quanti sono i parametri da stimare ee = DEV(E) = dev. residua Stima corretta di 2 : s 2 = ee/(n-k) n-k = gradi di libertà (df)

11 Scomposizione devianza (mod. con intercetta) DEV(E): gradi di libertà = n – k DEV(E): gradi di libertà = n – k DEV(Y): gradi di libertà = n – 1 (rango matrice A = I – ii/n, con i = vettore di 1, p. 85) si perde 1 df, come nella stima della media (intercetta del modello senza X) DEV(Y): gradi di libertà = n – 1 (rango matrice A = I – ii/n, con i = vettore di 1, p. 85) si perde 1 df, come nella stima della media (intercetta del modello senza X) DEV(Y cappello): gradi di libertà = k – 1 (rango matrice A – M) df = numero parametri delle X DEV(Y cappello): gradi di libertà = k – 1 (rango matrice A – M) df = numero parametri delle X Vale la relazione: (n – 1) = (n – k) + (k – 1) Vale la relazione: (n – 1) = (n – k) + (k – 1) Tabella riassuntiva: p. 86 Tabella riassuntiva: p. 86

12 Analisi della bontà di adattamento Dalla scomposizione della devianza (modello con intercetta) def. di R 2 nella regressione multipla: Dalla scomposizione della devianza (modello con intercetta) def. di R 2 nella regressione multipla: R 2 = DEV(REG)/DEV(Y) = 1 – DEV(E)/DEV(Y) R 2 = quadrato del coefficiente di correlazione tra Y e Y cappello (coeff. corr. lineare multipla: p. 83) Se manca lintercetta, la scomposizione e la definizione di R 2 sono in termini di somme di quadrati Se manca lintercetta, la scomposizione e la definizione di R 2 sono in termini di somme di quadrati R 2 = SS(REG)/SS(Y) = 1 – SS(E)/SS(Y) Però non vale più la relazione con la corr. multipla

13 Distribuzione di (p ) Sotto quali assunzioni? Correttezza: significato Significato; implicazione dellinversione di XX (XX: simmetrica k×k)

14 Inferenza su un singolo coefficiente di regressione (p. 87) In pratica: stima s 2 invece di 2

15 Distribuzione della statistica t j (t-statistica) t j presenta una distribuzione t di Student con n-k gradi di libertà Analogia con la regressione semplice (k=2)

16 Intervallo di confidenza per β j : Similmente per la verifica dellipotesi H 0 : β j = 0 Zone rifiuto/accettazione oppure calcolo p-value

17 Esempio Dati Investimenti = f(PIL, Trend): analisi con Excel (calcoli dettagliati p ): Dati Investimenti = f(PIL, Trend): analisi con Excel (calcoli dettagliati p ): Coeff.E.S. Stat t Valore di signif. Inf. 95% Sup. 95% Intercetta E PIL (X1) E TREND (X2) E

18 Esistono stimatori migliori rispetto a beta cappello?

19 Teorema di Gauss Markov: gli stimatori dei minimi quadrati di e sono BLUE Significato di questa proprietà nel caso univariato (p. 40) nel caso multivariato (p. 81) Efficienza (ma anche limiti) degli stimatori dei minimi quadrati Cosa succede quando la distribuzione degli errori NON è normale e/o quando ci sono valori anomali? v. esempio: dati_outliers.xls

20 Statistica robusta Obiettivo: trovare una funzione che descriva la maggior parte delle osservazioni e non sia influenzata dalla presenza di valori atipici: Obiettivo: trovare una funzione che descriva la maggior parte delle osservazioni e non sia influenzata dalla presenza di valori atipici: –Min. somma dei valori assoluti dei residui (MAD) –Min. mediana dei quadrati dei residui (LMS) –Min. la somma del 50% dei residui al quadrato più piccoli (LTS)

21 Stimatori robusti Stimatore Minimi Quadrati (OLS) Stimatore LMS Stimatore LTS

22 Test su un insieme di coefficienti Significato H 0 : β 1 = β 2 = … = β q = 0 q coefficienti sono = 0; i rimanenti r = k – q sono invece 0 H0 vera tutte le var. esplicative X 1 … X q, associate ai coefficienti 1 … q, NON hanno effetto su Y H0 falsa almeno una tra le var. esplicative X 1 … X q ha effetto su Y (teniamo quindi il modello con tutti i coefficienti, non sapendo quale β0)

23 Test su un insieme di coefficienti Procedura Si calcola DEV(E)=ee nel modello completo con tutti i k coeff. 0, 1, …, k-1 : df = n – k Si calcola DEV(E)=e r e r nel modello ridotto in cui 1 = …= q =0 modello con r = k – q coefficienti, senza i q coefficienti sotto verifica: df = n – r N.B. k > r perché nel modello ridotto alcuni β sono posti = 0. Ciò implica che: n – k < n – r ee e r e r (ladattamento è migliore nel modello completo)

24 Si calcola: e r e r – ee Tale quantità rappresenta la riduzione in DEV(E) dovuta allinclusione di X 1, … X q nel modello df = n – r – (n – k) = k – r = k – k + q = q Si calcola il test F che sotto le usuali assunzioni ha distribuzione F (pp ) quando H 0 è vera confronto F con il percentile della distribuzione o calcolo il p-value (Excel) Procedura - segue

25 Casi particolari q = 1 (r = k – 1) test su un solo coefficiente β j q = k – 1 (r = 1) test sui coefficienti di tutte le variabili esplicative (test sul modello: lunico coefficiente 0 è lintercetta) La statistica F diventa (p. 93) La statistica F diventa (p. 93) Relazione con il test t per un singolo β j : Relazione con il test t per un singolo β j : F = t statistica al quadrato

26 Test sul modello In questo esempio cosa sono e r e r, ee? In questo esempio cosa sono e r e r, ee? H 0 : β 1 = β 2 = … = β k-1 = 0 (solo β 0 0)

27 e r e r = Devianza totale modello senza variabili esplicative, solo con intercetta = media: df = n – 1 e r e r = Devianza totale modello senza variabili esplicative, solo con intercetta = media: df = n – 1 ee = Devianza residua modello con tutte le variabili esplicative (k parametri): df = n – k ee = Devianza residua modello con tutte le variabili esplicative (k parametri): df = n – k e r e r – ee = Devianza di regressione: df = q = n – 1 – (n – k) = k – 1 numero di coefficienti posti = 0 sotto H 0 (numero di variabili esplicative) e r e r – ee = Devianza di regressione: df = q = n – 1 – (n – k) = k – 1 numero di coefficienti posti = 0 sotto H 0 (numero di variabili esplicative) Rifiuto H 0 se F osservato > percentile distribuzione F al livello di significatività fissato, oppure se p-value è piccolo

28 Esempio Dati investimenti = f(PIL, Trend) Dati investimenti = f(PIL, Trend) ANALISI VARIANZA (ANOVA) gdlSQMQF Significatività F Regressione E-08 Residuo Totale

29 Caso generale: verifica di ipotesi su combinazioni lineari dei coefficienti Esempi Esempi v. §3.9

30 Intervallo di previsione: intervallo di confidenza del valore y 0 associato ad uno specifico insieme di valori delle variabili esplicative v. §3.13

31 Passo finale: si esplicita y 0 (p. 107) Intervallo di confidenza (di probabilità 1 - ) per la nuova osservazione y 0 : intervallo di previsione di y 0 Esempio investimenti (v. p. 107 per i passaggi) Commento

32 Analisi statistiche con IBM SPSS

33 Esempio investimenti: output SPSS Interpretazione di tutte le quantità riportate Confronto con output Excel

34 Coefficienti standardizzati SPSS riporta anche i coefficienti standardizzati SPSS riporta anche i coefficienti standardizzati Tali coefficienti sono quelli della regressione sulle variabili standardizzate: si elimina leffetto dellordine di grandezza e dellunità di misura sulle X e su Y Tali coefficienti sono quelli della regressione sulle variabili standardizzate: si elimina leffetto dellordine di grandezza e dellunità di misura sulle X e su Y I coeff. std. hanno lobiettivo di essere confrontabili tra loro dovrebbero misurare limportanza relativa delle esplicative, senza essere influenzati da unità di misura e ordine di grandezza (ad es.: se β1=0.5 e β2=1 non vuol dire che X2 è più importante di X1) I coeff. std. hanno lobiettivo di essere confrontabili tra loro dovrebbero misurare limportanza relativa delle esplicative, senza essere influenzati da unità di misura e ordine di grandezza (ad es.: se β1=0.5 e β2=1 non vuol dire che X2 è più importante di X1) Però il concetto di importanza relativa è vago: Però il concetto di importanza relativa è vago: –Se X ha coeff. std max non è detto che X abbia effetto max su R 2 –coeff. std = r xy ma solo se le X sono incorrelate –i coeff. std confondono concetti diversi: leffetto assoluto su Y (tramite β) e leffetto della variabilità (tramite ) Per tali motivi i coeff. std non sono molto utilizzati il confronto tra le X può essere fatto con le t-statistiche Per tali motivi i coeff. std non sono molto utilizzati il confronto tra le X può essere fatto con le t-statistiche

35 Data set per esercitazioni sulla regressione (v. sito del corso) Esercitazione 1: Space Shuttle Challenger Esercitazione 1: Space Shuttle Challenger Esercitazione 2: analisi del mercato immobiliare Esercitazione 2: analisi del mercato immobiliare Esercitazione 3: dati Trade (semplificati) Esercitazione 3: dati Trade (semplificati)


Scaricare ppt "STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio."

Presentazioni simili


Annunci Google