STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LOGISTICA Alcuni complementi Materiale didattico: dispensa sulla regressione logistica (c/o Ufficio fotocopie del Dipartimento) 1
Odds(xi) = P(Y=1|X=xi)/P(Y=0|X=xi) = (xi)/[1 – (xi)] Complemento 1: Richiamo tabelle di contingenza (v. Zani-Cerioli, cap. 4) Y, X dicotomiche; Y = dipendente {0, 1}; X = esplicativa {A, B}; Odds(A) = P(Y=1|X=A)/P(Y=0|X=A) = A1/A0 = A1/(1-A1) Odds(B) = P(Y=1|X=B)/P(Y=0|X=B) = B1/B0 = B1/(1-b1) Odds Ratio = OR = Odds(A)/Odds(B) = (A1 B0)/(A0B1) Odds e OR sono più utilizzati rispetto alla differenza (A1/A+– B1/B+) o al “rischio relativo” (A1/A+)/(B1/B+) La definizione di Odds vale in generale: Odds(xi) = P(Y=1|X=xi)/P(Y=0|X=xi) = (xi)/[1 – (xi)] Quindi: logit[(xi)] = log[Odds(xi)] X\Y 1 Tot A A0 A1 A+ B B0 B1 B+ Tot. +0 +1 P(Y=1|X=A) = A1/A+ P(Y=1|X=B) = B1/B+ P(Y=1) = +1
Complemento 1: Richiamo indici operativi (v. ZC, pp. 104-109) Y, X dicotomiche; Y=dipendente {0, 1}; X=esplicativa {A, B}; Le probabilità nella tabella sono legate anche a indici operativi di largo impiego nel marketing. Se A è la categoria di riferimento di X: Supporto(XY) = P(Y=1X=A) = A1 Predicibilità(XY) = P(Y=1X=A)/P(X=A) = P(Y=1|X=A) = A1/A+ Lift(XY) = Predicibilità(XY)/P(Y=1) = (A1/A+)/+1 Lift rappresenta quindi l’effetto della conoscenza di X sulla previsione di Y: se X non è noto la previsione di Y è in base alla distribuzione marginale {+0, +1} X\Y 1 Tot A A0 A1 A+ B B0 B1 B+ Tot. +0 +1 P(Y=1|X=A) = A1/A+ P(Y=1|X=B) = B1/B+ P(Y=1) = +1
Complemento 2: Funzione di verosimiglianza Caso in cui le variabili esplicative sono qualitative: xi identifica una cella della tabella di contingenza (multipla) ottenuta incrociando le variabili esplicative X1, X2, … Xk-1 Il numero di successi (ad es. acquisti) per le ni unità (clienti) che presentano il profilo xi ha distribuzione binomiale probabilità di osservare si successi tra le ni unità che presentano il profilo xi: La probabilità di successo (xi) è rappresentata dal modello logistico: La stima di max verosimiglianza è quel valore dei parametri β0, β1, βk-1 che rende massimo il prodotto delle probabilità binomiali: L(β) = p(s1)p(s2)p(sr) dove r = numero celle della tabella di contingenza Si noti che i valori s1,s2,…sr sono quelli osservati: numero di successi per i diversi profili
Complemento 2: Funzione di verosimiglianza Problemi se X è continua: Se la variabile esplicativa X è continua: non vi sono valori ripetuti La tabella di contingenza (multipla) che si ottiene incrociando X con le altre variabili esplicative ha un numero di celle uguale al numero di unità: r=n e il profilo xi è diverso per ogni unità Anche quando n cresce, il numero di unità che presentano il profilo xi dunque è piccolo: ni = 1 Non vale più il teorema centrale del limite: ad esempio non è più vero che I risultati inferenziali (Wald, p-value, intervalli di confidenza) riportati da SPSS non sono più validi: essi infatti sono asintotici (presuppongono che n sia grande e che ni cresca con n) Una “regola del pollice” è che ni 5 Spesso in pratica si hanno situazioni intermedie (v. reddito nell’esempio): tabelle sparse Bisognerebbe utilizzare procedure “esatte” (v. test “esatto” di Fisher in una tabella 2x2) Cosa succede invece alle stime dei parametri se X è continua?
Complemento 2: Funzione di verosimiglianza Diamo uno sguardo più in dettaglio alla funzione di verosimiglianza: L(β) = p(s1)p(s2)p(sr) considerata come funzione dei parametri del modello logistico, date le osservazioni s1, s2, … sr. Di solito si lavora su scala logaritmica (perché?): log-verosimiglianza Se le variabili esplicative sono qualitative (v. prima): Se invece le X sono continue: i identifica un’unità; ni=1; r=n La funzione l(β) quindi è la stessa (a meno di una costante): la stima di β non cambia Cambia invece la distribuzione delle statistiche test perché non vale più il TCL (v. prima)
Complemento 2: Funzione di verosimiglianza Funzione di verosimglianza nell’esempio sul comportamento di acquisto: Output di SPSS Modello con solo intercetta: log[L(0)] = -27.726 Modello con Sesso + Reddito: Nota: L(β)<1 l(β) = log[L(β)] < 0 nella tabella è riportato il valore -2l(β) > 0 SPSS riporta anche la differenza nella verosimiglianza tra modelli annidati: test per il confronto tra modelli