STATISTICA PER LE DECISIONI DI MARKETING

Slides:



Advertisements
Presentazioni simili
Test delle ipotesi Il test consiste nel formulare una ipotesi (ipotesi nulla) e nel verificare se con i dati a disposizione è possibile rifiutarla o no.
Advertisements

8) GLI INTERVALLI DI CONFIDENZA
Statistica Economica I
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
ITIS “G.Galilei” – Crema Lab. Calcolo e Statistica
Come organizzare i dati per un'analisi statistica al computer?
Dipartimento di Economia
Intervalli di confidenza
Proprietà degli stimatori
Tecniche di analisi dei dati e impostazione dellattività sperimentale Relazioni tra variabili: Correlazione e Regressione.
Fondamenti della Misurazione
Lez. 3 - Gli Indici di VARIABILITA’
La regressione lineare trivariata
Regressione lineare Esercitazione 24/01/04.
Dipartimento di Economia
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11
Regressione logistica
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
redditività var. continua classi di redditività ( < 0 ; >= 0)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
Inferenza statistica per un singolo campione
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
MODELLO DI REGRESSIONE LINEARE MULTIPLA
Analisi della varianza (a una via)
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Valutazione della stima: gli intervalli di confidenza
di cosa si occupa la statistica inferenziale?
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LA RICERCA SPERIMENTALE E TECNOLOGICA
Esercizio Regressione DATI Per un campione casuale di 82 clienti di un'insegna della GDO, sono disponibili le seguenti variabili, riferite ad un mese di.
STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Selezione.
Obbiettivo L’obiettivo non è più utilizzare il campione per costruire un valore o un intervallo di valori ragionevolmente sostituibili all’ignoto parametro.
DATA MINING PER IL MARKETING
DATA MINING PER IL MARKETING
DATA MINING PER IL MARKETING
DATA MINING PER IL MARKETING
LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Esempio (d)istruttivo.
Intervalli di fiducia.
DATA MINING PER IL MARKETING
LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA.
DATA MINING PER IL MARKETING
La verifica d’ipotesi Docente Dott. Nappo Daniela
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
Strumenti statistici in Excell
Il residuo nella predizione
IL CAMPIONE.
9) VERIFICA DI IPOTESI L’ipotesi statistica è una supposizione riguardante caratteristiche ignote ignote di una v.c. X. Es.: campionamento con ripetizione,
Esercizio Regressione DATI Per un campione casuale di 82 clienti di un'insegna della GDO, sono disponibili le seguenti variabili, riferite ad un mese di.
TRATTAMENTO STATISTICO DEI DATI ANALITICI
Operazioni di campionamento CAMPIONAMENTO Tutte le operazioni effettuate per ottenere informazioni sul sito /area da monitorare (a parte quelle di analisi)
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Regressione semplice e multipla in forma matriciale Metodo dei minimi quadrati Stima di beta Regressione semplice Regressione multipla con 2 predittori.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
MODELLO DI REGRESSIONE LINEARE MULTIPLA
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Transcript della presentazione:

STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA approccio matriciale + aspetti di inferenza (Capitolo 3 del libro + Appendice A) 1

Modello di regressione nella popolazione e nel campione ( noto) Campione ( stimato) Qual è la relazione tra e ed ε? Abbiamo già visto graficamente la relazione nella regressione semplice  ora la deriviamo per esteso

Analisi dei valori previsti H: matrice di previsione (proiezione)  Hat matrix: trasforma y in y cappello

Proprietà della matrice H Simmetrica (nn): H = H’ Idempotente: HH = H Per esercizio (esempio investimenti): p. 75 Gli elementi hii sulla diagonale principale della matrice H sono compresi tra 0 e 1  Nel modello di regressione semplice (p. 77): Quindi hii è elevato se xi è distante dagli altri valori di X: alto leverage

Cosa succede se hii è elevato n = 50 Media X = 19.5 Come sopra, ma per la prima osservazione X passa da 17 a 50

Nella regressione multipla Traccia di H (somma degli hii)= k (numero di parametri) Media degli hii = k/n Solitamente le osservazioni a cui corrisponde hii > 2k/n vengono dette punti di leverage: i punti in cui hii è grande attirano l’iperpiano di regressione Esercizio: grafico (in Excel) degli hii e identificazione dei punti di leverage: p. 78

Analisi dei residui Modello “vero”: Modello stimato Pertanto: dove I è la matrice Identità Quindi: e = (I-H)y  le proprietà di e dipendono da quelle della matrice M=I-H

Proprietà dei residui (p.76) 𝑉𝑎𝑟 𝑒 = 𝝈 𝟐 M = 𝝈 𝟐 𝐈 −𝐇 = 𝝈 𝟐 𝟏 ⋯ 𝟎 ⋮ 𝟏 ⋮ 𝟎 ⋯ 𝟏 − 𝒉 𝟏𝟏 ⋯ 𝒉 𝟏𝒏 ⋮ 𝒉 𝒊𝒊 ⋮ 𝒉 𝒏𝟏 ⋯ 𝒉 𝒏𝒏 Pertanto: 𝒗𝒂𝒓 𝒆 𝒊 = 𝝈 𝟐 𝟏− 𝒉 𝒊𝒊 i = 1, …,n 𝒄𝒐𝒗 𝒆 𝒊 , 𝒆 𝒋 =− 𝝈 𝟐 𝒉 𝒊𝒋 i ≠ j Che cosa impariamo da tali formule?

Il vettore dei residui osservati e ha proprietà diverse dal vettore dei termini aleatori . Infatti Var() = 2I I punti in cui hii è grande sono effettivamente punti di leverage. Infatti dalla formula di var(ei) discende che ei  0 se hii  1 Le proprietà dei residui osservati dipendono da quelle della matrice M  matrice simmetrica e idempotente (come H): p. 79 + §A.7 9

s2 = e’e/(n-k)  n-k = gradi di libertà (df) Stima di σ2 e’e = DEV(E) = dev. residua  Stima corretta di 2: s2 = e’e/(n-k)  n-k = gradi di libertà (df) Le proprietà di s2 derivano dalla relazione tra residui e errori DEV(E) = (n-k)s2 ~ 22 con gradi di libertà = rango (traccia) matrice idempotente M (v. p. 202) gradi di libertà = n – k  si “perdono” tanti df quanti sono i parametri da stimare 10

Scomposizione devianza (mod. con intercetta) 𝒊=𝟏 𝒏 𝒚 𝒊 − 𝒚 𝟐 = 𝒊=𝟏 𝒏 𝒚 𝒊 − 𝒚 𝟐 + 𝒊=𝟏 𝒏 𝒚 𝒊 − 𝒚 𝒊 𝟐 DEV(E): gradi di libertà = n – k DEV(Y): gradi di libertà = n – 1 (rango matrice A = I – ii’/n, con i = vettore di 1, p. 85)  si “perde” 1 df, come nella stima della media (intercetta del modello senza X) DEV(Y cappello): gradi di libertà = k – 1 (rango matrice A – M)  df = numero parametri delle X Vale la relazione: (n – 1) = (n – k) + (k – 1) Tabella riassuntiva: p. 86

Analisi della bontà di adattamento Dalla scomposizione della devianza (modello con intercetta)  def. di R2 nella regressione multipla: R2 = DEV(REG)/DEV(Y) = 1 – DEV(E)/DEV(Y) R2 = quadrato del coefficiente di correlazione tra Y e Y cappello (coeff. corr. lineare multipla: p. 83) Se manca l’intercetta, la scomposizione e la definizione di R2 sono in termini di somme di quadrati R2 = SS(REG)/SS(Y) = 1 – SS(E)/SS(Y) Però non vale più la relazione con la corr. multipla

Distribuzione di (p. 80-81) Correttezza: significato Significato; implicazione dell’inversione di X’X (X’X: simmetrica k×k) Sotto quali assunzioni? 13

Inferenza su un singolo coefficiente di regressione (p. 87) In pratica: stima s2 invece di 2

Distribuzione della statistica tj (t-statistica) tj presenta una distribuzione t di Student con n-k gradi di libertà Analogia con la regressione semplice (k=2)

Intervallo di confidenza per βj: Similmente per la verifica dell’ipotesi H0: βj = 0 Zone rifiuto/accettazione oppure calcolo p-value

Esempio Dati Investimenti = f(PIL, Trend): analisi con Excel (calcoli dettagliati p. 88-89):   Coeff. E.S. Stat t Valore di signif. Inf. 95% Sup. 95% Intercetta -441.27 60.77 -7.260 1.00025E-05 -573.69 -308.849 PIL (X1) 0.625 0.058 10.76 1.60798E-07 0.499 0.752 TREND (X2) -12.522 1.485 -8.432 2.1845E-06 -15.758 -9.287

Esistono stimatori “migliori” rispetto a beta cappello?

Efficienza (ma anche limiti) degli stimatori dei minimi quadrati Teorema di Gauss Markov: gli stimatori dei minimi quadrati di  e  sono BLUE Significato di questa proprietà nel caso univariato (p. 40) nel caso multivariato (p. 81) Efficienza (ma anche limiti) degli stimatori dei minimi quadrati Cosa succede quando la distribuzione degli errori NON è normale e/o quando ci sono valori anomali? v. esempio: dati_outliers.xls 19

Statistica robusta Obiettivo: trovare una funzione che descriva la maggior parte delle osservazioni e non sia influenzata dalla presenza di valori atipici: Min. somma dei valori assoluti dei residui (MAD) Min. mediana dei quadrati dei residui (LMS) Min. la somma del 50% dei residui al quadrato più piccoli (LTS) 20

Stimatori robusti Stimatore LMS Stimatore Minimi Quadrati (OLS) Stimatore LTS 21

Test su un insieme di coefficienti H0: β1 = β2 = … = βq = 0  q coefficienti sono = 0; i rimanenti r = k – q sono invece ≠ 0 Significato H0 vera  tutte le var. esplicative X1 … Xq, associate ai coefficienti 1 … q, NON hanno effetto su Y H0 falsa  almeno una tra le var. esplicative X1 … Xq ha effetto su Y (teniamo quindi il modello con tutti i coefficienti, non sapendo quale β≠0) 22

Test su un insieme di coefficienti Procedura Si calcola DEV(E)=e’e nel modello completo con tutti i k coeff. 0, 1, …, k-1: df = n – k Si calcola DEV(E)=er’er nel modello ridotto in cui 1= …= q=0  modello con r = k – q coefficienti, senza i q coefficienti sotto verifica: df = n – r N.B. k > r perché nel modello ridotto alcuni β sono posti = 0. Ciò implica che: n – k < n – r e’e ≤ er’er (l’adattamento è migliore nel modello completo) 23

Procedura - segue Si calcola: er’er – e’e Tale quantità rappresenta la riduzione in DEV(E) dovuta all’inclusione di X1, … Xq nel modello df = n – r – (n – k) = k – r = k – k + q = q Si calcola il test F che sotto le usuali assunzioni ha distribuzione F (pp. 199-200) quando H0 è vera  confronto F con il percentile della distribuzione o calcolo il p-value (Excel) 24

F = t statistica al quadrato Casi particolari q = 1 (r = k – 1)  test su un solo coefficiente βj La statistica F diventa (p. 93) Relazione con il test t per un singolo βj: F = t statistica al quadrato q = k – 1 (r = 1)  test sui coefficienti di tutte le variabili esplicative (test sul modello: l’unico coefficiente ≠ 0 è l’intercetta) 25

Test sul modello H0: β1 = β2 = … = βk-1 = 0 (solo β0 ≠ 0) In questo esempio cosa sono e’rer , e’e? 26

e’rer = Devianza totale  modello senza variabili esplicative, solo con intercetta = media: df = n – 1 e’e = Devianza residua  modello con tutte le variabili esplicative (k parametri): df = n – k e’rer – e’e = Devianza di regressione: df = q = n – 1 – (n – k) = k – 1  numero di coefficienti posti = 0 sotto H0 (numero di variabili esplicative) Rifiuto H0 se F osservato > percentile distribuzione F al livello di significatività fissato, oppure se p-value è piccolo 27

Esempio Dati investimenti = f(PIL, Trend) ANALISI VARIANZA (ANOVA) gdl   gdl SQ MQ F Significatività F Regressione 2 5841.06918 2920.53 107.86051 2.14126E-08 Residuo 12 324.923484 27.0769 Totale 14 6165.99266

Caso generale: verifica di ipotesi su combinazioni lineari dei coefficienti Esempi v. §3.9 29

Intervallo di previsione: intervallo di confidenza del valore y0 associato ad uno specifico insieme di valori delle variabili esplicative v. §3.13 30

Passo finale: si esplicita y0 (p. 107) Intervallo di confidenza (di probabilità 1 - ) per la “nuova” osservazione y0: intervallo di previsione di y0 Esempio investimenti (v. p. 107 per i passaggi) 𝑣𝑎𝑟 𝑒 0 =40.515 Commento 31

Analisi statistiche con IBM SPSS

Esempio investimenti: output SPSS Interpretazione di tutte le quantità riportate Confronto con output Excel

Coefficienti standardizzati SPSS riporta anche i coefficienti standardizzati Tali coefficienti sono quelli della regressione sulle variabili standardizzate: si elimina l’effetto dell’ordine di grandezza e dell’unità di misura sulle X e su Y I coeff. std. hanno l’obiettivo di essere confrontabili tra loro  dovrebbero misurare l’importanza relativa delle esplicative, senza essere influenzati da unità di misura e ordine di grandezza (ad es.: se β1=0.5 e β2=1 non vuol dire che X2 è più “importante” di X1) Però il concetto di “importanza relativa” è vago: Se X ha coeff. std max non è detto che X abbia effetto max su R2 coeff. std = rxy ma solo se le X sono incorrelate i coeff. std “confondono” concetti diversi: l’effetto assoluto su Y (tramite β) e l’effetto della variabilità (tramite ) Per tali motivi i coeff. std non sono molto utilizzati  il confronto tra le X può essere fatto con le t-statistiche

Data set per esercitazioni sulla regressione (v. sito del corso) Esercitazione 1: Space Shuttle Challenger Esercitazione 2: analisi del mercato immobiliare Esercitazione 3: dati Trade (semplificati)