La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

DATA MINING PER IL MARKETING

Presentazioni simili


Presentazione sul tema: "DATA MINING PER IL MARKETING"— Transcript della presentazione:

1 DATA MINING PER IL MARKETING
Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale + aspetti di inferenza (Capitolo 4 del libro + Appendice A) 1

2 Modello di regressione nella popolazione e nel campione
( noto) Campione ( stimato) Qual è la relazione tra e ed ε? Abbiamo già visto graficamente la relazione nella regressione semplice  ora la deriviamo per esteso

3 Analisi dei valori previsti
H: matrice di previsione (proiezione)  Hat matrix: trasforma y in y cappello

4 Proprietà della matrice H
Simmetrica (nn): H = H’ Idempotente: HH = H Per esercizio (esempio investimenti): p. 186 Gli elementi hii sulla diagonale principale della matrice H sono compresi tra 0 e 1  Nel modello di regressione semplice: Quindi hii è elevato se xi è distante dagli altri valori di X: alto leverage

5 Cosa succede se hii è elevato
n = 50 Media X = 19.5 Come sopra, ma per la prima osservazione X passa da 17 a 50

6 Nella regressione multipla
Traccia di H (somma degli hii)= k (numero di parametri) Media degli hii = k/n Solitamente le osservazioni a cui corrisponde hii > 2k/n vengono dette punti di leverage: i punti in cui hii è grande attirano l’iperpiano di regressione Esercizio: grafico (in Excel) degli hii e identificazione dei punti di leverage: p. 189

7 Analisi dei residui Modello “vero”: Modello stimato Pertanto:
dove I è la matrice Identità Quindi: e = (I-H)y = (I-H)  le proprietà di e dipendono da quelle della matrice M=I-H

8 Proprietà dei residui (p.187)
𝑉𝑎𝑟 𝑒 = 𝝈 𝟐 M = 𝝈 𝟐 𝐈 −𝐇 = 𝝈 𝟐 𝟏 ⋯ 𝟎 ⋮ 𝟏 ⋮ 𝟎 ⋯ 𝟏 − 𝒉 𝟏𝟏 ⋯ 𝒉 𝟏𝒏 ⋮ 𝒉 𝒊𝒊 ⋮ 𝒉 𝒏𝟏 ⋯ 𝒉 𝒏𝒏 Pertanto: 𝒗𝒂𝒓 𝒆 𝒊 = 𝝈 𝟐 𝟏− 𝒉 𝒊𝒊 i = 1, …,n 𝒄𝒐𝒗 𝒆 𝒊 , 𝒆 𝒋 =− 𝝈 𝟐 𝒉 𝒊𝒋 i ≠ j Che cosa impariamo da tali formule?

9 Il vettore dei residui osservati e ha proprietà diverse dal vettore dei termini aleatori . Infatti Var() = 2I I punti in cui hii è grande sono effettivamente punti di leverage. Infatti dalla formula di var(ei) discende che ei  0 se hii  1 Le proprietà dei residui osservati dipendono da quelle della matrice M  matrice simmetrica e idempotente (come H) 9

10 s2 = e’e/(n-k)  n-k = gradi di libertà (df)
Stima di σ2 e’e = DEV(E) = dev. residua  k = numero di parametri da stimare (esplicative + intercetta) Stima corretta di 2: s2 = e’e/(n-k)  n-k = gradi di libertà (df) Le proprietà di s2 derivano dalla relazione tra residui e errori DEV(E) = (n-k)s2 ~ 22 con gradi di libertà = rango (traccia) matrice idempotente M (v. p. 202) gradi di libertà = n – k  si “perdono” tanti df quanti sono i parametri da stimare 10

11 Scomposizione devianza (mod. con intercetta)
𝒊=𝟏 𝒏 𝒚 𝒊 − 𝒚 𝟐 = 𝒊=𝟏 𝒏 𝒚 𝒊 − 𝒚 𝟐 + 𝒊=𝟏 𝒏 𝒚 𝒊 − 𝒚 𝒊 𝟐 DEV(E): gradi di libertà = n – k DEV(Y): gradi di libertà = n – 1 (rango matrice A = I – ii’/n, con i = vettore di 1, p. 85)  si “perde” 1 df, come nella stima della media (intercetta del modello senza X) DEV(Y cappello): gradi di libertà = k – 1 (rango matrice A – M)  df = numero parametri delle X Vale la relazione: (n – 1) = (n – k) + (k – 1) Tabella riassuntiva: p. 197

12 Analisi della bontà di adattamento
Dalla scomposizione della devianza (modello con intercetta)  def. di R2 nella regressione multipla: R2 = DEV(REG)/DEV(Y) = 1 – DEV(E)/DEV(Y) R2 = quadrato del coefficiente di correlazione tra Y e Y cappello (coeff. corr. lineare multipla: p. 193) Se manca l’intercetta, la scomposizione e la definizione di R2 sono in termini di somme di quadrati R2 = SS(REG)/SS(Y) = 1 – SS(E)/SS(Y) Però non vale più la relazione con la corr. multipla

13 Distribuzione di (p. 191) Correttezza: significato
Significato; implicazione dell’inversione di X’X (X’X: simmetrica k×k) Sotto quali assunzioni? 13

14 Inferenza su un singolo coefficiente di regressione (p. 197)
In pratica: stima s2 invece di 2 (v. output Excel e SPSS)

15 Distribuzione di tj (t-statistica)
Il denominatore è l’errore standard di beta cappello tj presenta una distribuzione t di Student con n-k gradi di libertà Analogia con la regressione semplice (k=2)

16 Intervallo di confidenza per βj:
Similmente per la verifica dell’ipotesi H0: βj = 0 Zone rifiuto/accettazione oppure calcolo p-value

17 Esempio: Dati Investimenti = f(PIL, Trend) Analisi con Excel
Coeff. E.S. Stat t Valore di signif. Inf. 95% Sup. 95% Intercetta 60.77 -7.260 E-05 PIL (X1) 0.625 0.058 10.76 E-07 0.499 0.752 TREND (X2) 1.485 -8.432 2.1845E-06 -9.287

18 Esistono stimatori “migliori” rispetto a beta cappello?

19 Teorema di Gauss Markov: gli stimatori dei minimi quadrati sono BLUE
Significato di questa proprietà nella regressione semplice (p. 151) nella regressione multipla (p. 191) Efficienza (ma anche limiti) degli stimatori dei minimi quadrati 19

20 Test su un insieme di coefficienti
H0: β1 = β2 = … = βq = 0  q coefficienti sono = 0; i rimanenti r = k – q sono invece ≠ 0 Significato H0 vera  tutte le variabili esplicative X1 … Xq, associate ai coefficienti 1 … q, NON hanno effetto su Y: scegliamo un modello ridotto senza X1 … Xq H0 falsa  almeno una tra le variabili esplicative X1 … Xq ha effetto su Y: teniamo quindi il modello completo con tutti i coefficienti, non sapendo quale β≠0 20

21 Test sul modello H0: β1 = β2 = … = βk-1 = 0 (solo β0 ≠ 0)
Si utilizza il test F: rapporto tra devianze Richiamo alla distribuzione F (pp ) 21

22 e’rer = Devianza totale  modello senza variabili esplicative, solo con intercetta = media: df = n – 1 e’e = Devianza residua  modello con tutte le variabili esplicative (k parametri): df = n – k e’rer – e’e = Devianza di regressione: df = q = n – 1 – (n – k) = k – 1  numero di coefficienti posti = 0 sotto H0 (numero di variabili esplicative) Rifiuto H0 se F osservato > percentile distribuzione F al livello di significatività fissato, oppure se p-value è piccolo 22

23 Esempio Dati investimenti = f(PIL, Trend)
ANALISI VARIANZA (ANOVA) gdl SQ MQ F Significatività F Regressione 2 E-08 Residuo 12 Totale 14 Per esercizio: calcolare indice R2

24 Esempio investimenti: output SPSS
Interpretazione di tutte le quantità riportate Confronto con output Excel

25 Coefficienti standardizzati
SPSS riporta anche i coefficienti standardizzati Tali coefficienti sono quelli della regressione sulle variabili standardizzate: si elimina l’effetto dell’ordine di grandezza e dell’unità di misura sulle X e su Y I coeff. std. hanno l’obiettivo di essere confrontabili tra loro  dovrebbero misurare l’importanza relativa delle esplicative, senza essere influenzati da unità di misura e ordine di grandezza (ad es.: se β1=0.5 e β2=1 non vuol dire che X2 è più “importante” di X1) Però il concetto di “importanza relativa” è vago: Se X ha coeff. std max non è detto che X abbia effetto max su R2 coeff. std = rxy ma solo se le X sono incorrelate i coeff. std “confondono” concetti diversi: l’effetto assoluto su Y (tramite β) e l’effetto della variabilità (tramite ) Per tali motivi i coeff. std non sono molto utilizzati  il confronto tra le X può essere fatto con le t-statistiche

26 Intervallo di previsione: intervallo di confidenza del valore y0 associato ad uno specifico insieme di valori delle variabili esplicative v. §4.13 26

27 Passo finale: si esplicita y0
Intervallo di confidenza (di probabilità 1 - ) per la “nuova” osservazione y0: intervallo di previsione di y0 Esempio investimenti (v. p. 218 per i passaggi) 𝑣𝑎𝑟 𝑒 0 =40.515 Commento 27

28 Le diagnostiche del modello di regressione
§ 4.11 – 4.13 Metodi grafici e semplici trasformazioni dei residui Implementati in SPSS (e in tutti i software) Da usare con cautela

29 Data set per esercitazioni sulla regressione (v. sito del corso)
Esercitazione 1: Space Shuttle Challenger Esercitazione 2: analisi del mercato immobiliare Esercitazione 3: dati Trade (semplificati)


Scaricare ppt "DATA MINING PER IL MARKETING"

Presentazioni simili


Annunci Google