STATISTICA PER LE DECISIONI DI MARKETING

STATISTICA PER LE DECISIONI DI MARKETING
Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LOGISTICA Alcuni complementi Materiale didattico: dispensa sulla regressione logistica (c/o Ufficio fotocopie del Dipartimento) 1

Odds(xi) = P(Y=1|X=xi)/P(Y=0|X=xi) = (xi)/[1 – (xi)]
Complemento 1: Richiamo tabelle di contingenza (v. Zani-Cerioli, cap. 4) Y, X dicotomiche; Y = dipendente {0, 1}; X = esplicativa {A, B}; Odds(A) = P(Y=1|X=A)/P(Y=0|X=A) = A1/A0 = A1/(1-A1) Odds(B) = P(Y=1|X=B)/P(Y=0|X=B) = B1/B0 = B1/(1-b1) Odds Ratio = OR = Odds(A)/Odds(B) = (A1 B0)/(A0B1) Odds e OR sono più utilizzati rispetto alla differenza (A1/A+– B1/B+) o al “rischio relativo” (A1/A+)/(B1/B+) La definizione di Odds vale in generale: Odds(xi) = P(Y=1|X=xi)/P(Y=0|X=xi) = (xi)/[1 – (xi)] Quindi: logit[(xi)] = log[Odds(xi)] X\Y 1 Tot A A0 A1 A+ B B0 B1 B+ Tot. +0 +1 P(Y=1|X=A) = A1/A+ P(Y=1|X=B) = B1/B+ P(Y=1) = +1

Complemento 1: Richiamo indici operativi (v. ZC, pp. 104-109)
Y, X dicotomiche; Y=dipendente {0, 1}; X=esplicativa {A, B}; Le probabilità nella tabella sono legate anche a indici operativi di largo impiego nel marketing. Se A è la categoria di riferimento di X: Supporto(XY) = P(Y=1X=A) = A1 Predicibilità(XY) = P(Y=1X=A)/P(X=A) = P(Y=1|X=A) = A1/A+ Lift(XY) = Predicibilità(XY)/P(Y=1) = (A1/A+)/+1 Lift rappresenta quindi l’effetto della conoscenza di X sulla previsione di Y: se X non è noto la previsione di Y è in base alla distribuzione marginale {+0, +1} X\Y 1 Tot A A0 A1 A+ B B0 B1 B+ Tot. +0 +1 P(Y=1|X=A) = A1/A+ P(Y=1|X=B) = B1/B+ P(Y=1) = +1

Complemento 2: Funzione di verosimiglianza
Caso in cui le variabili esplicative sono qualitative: xi identifica una cella della tabella di contingenza (multipla) ottenuta incrociando le variabili esplicative X1, X2, … Xk-1 Il numero di successi (ad es. acquisti) per le ni unità (clienti) che presentano il profilo xi ha distribuzione binomiale  probabilità di osservare si successi tra le ni unità che presentano il profilo xi: La probabilità di successo (xi) è rappresentata dal modello logistico: La stima di max verosimiglianza è quel valore dei parametri β0, β1, βk-1 che rende massimo il prodotto delle probabilità binomiali: L(β) = p(s1)p(s2)p(sr) dove r = numero celle della tabella di contingenza Si noti che i valori s1,s2,…sr sono quelli osservati: numero di successi per i diversi profili

Problemi se X è continua: Se la variabile esplicativa X è continua: non vi sono valori ripetuti La tabella di contingenza (multipla) che si ottiene incrociando X con le altre variabili esplicative ha un numero di celle uguale al numero di unità: r=n e il profilo xi è diverso per ogni unità Anche quando n cresce, il numero di unità che presentano il profilo xi dunque è piccolo: ni = 1 Non vale più il teorema centrale del limite: ad esempio non è più vero che I risultati inferenziali (Wald, p-value, intervalli di confidenza) riportati da SPSS non sono più validi: essi infatti sono asintotici (presuppongono che n sia grande e che ni cresca con n) Una “regola del pollice” è che ni  5 Spesso in pratica si hanno situazioni intermedie (v. reddito nell’esempio): tabelle sparse Bisognerebbe utilizzare procedure “esatte” (v. test “esatto” di Fisher in una tabella 2x2) Cosa succede invece alle stime dei parametri se X è continua?

Diamo uno sguardo più in dettaglio alla funzione di verosimiglianza: L(β) = p(s1)p(s2)p(sr) considerata come funzione dei parametri del modello logistico, date le osservazioni s1, s2, … sr. Di solito si lavora su scala logaritmica (perché?): log-verosimiglianza Se le variabili esplicative sono qualitative (v. prima): Se invece le X sono continue: i identifica un’unità; ni=1; r=n La funzione l(β) quindi è la stessa (a meno di una costante): la stima di β non cambia Cambia invece la distribuzione delle statistiche test perché non vale più il TCL (v. prima)

Funzione di verosimglianza nell’esempio sul comportamento di acquisto: Output di SPSS Modello con solo intercetta: log[L(0)] = Modello con Sesso + Reddito: Nota: L(β)<1  l(β) = log[L(β)] < 0  nella tabella è riportato il valore -2l(β) > 0 SPSS riporta anche la differenza nella verosimiglianza tra modelli annidati: test per il confronto tra modelli

STATISTICA PER LE DECISIONI DI MARKETING

Presentazioni simili

Presentazione sul tema: "STATISTICA PER LE DECISIONI DI MARKETING"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

STATISTICA PER LE DECISIONI DI MARKETING

Presentazioni simili

Presentazione sul tema: "STATISTICA PER LE DECISIONI DI MARKETING"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back