STATISTICA PER LE DECISIONI DI MARKETING

Slides:



Advertisements
Presentazioni simili
Tecniche di analisi dei dati e impostazione dell’attività sperimentale
Advertisements

8) GLI INTERVALLI DI CONFIDENZA
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
METODI STATISTICI PER LO STUDIO DELL’ASSOCIAZIONE TRA DATI QUALITATIVI
Intervalli di confidenza
Proprietà degli stimatori
Variabili casuali a più dimensioni
Progetto Pilota 2 Lettura e interpretazione dei risultati
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6
Regressione logistica
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
redditività var. continua classi di redditività ( < 0 ; >= 0)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Test statistici: il test Chi-Quadro, il test F e il test t.
MODELLO DI REGRESSIONE LINEARE MULTIPLA: USO DELLE VARIABILI DUMMY (parte 2) In alcune circostanze è opportuno inserire, come variabili esplicative, delle.
IL MODELLO DI REGRESSIONE MULTIPLA
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
MODELLO DI REGRESSIONE LINEARE MULTIPLA
ALBERI DECISIONALI prima parte
La regressione logistica binomiale
Analisi della varianza (a una via)
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Valutazione della stima: gli intervalli di confidenza
Stima dei parametri di una distribuzione
VERIFICA DEI RIFLESSI …Tutto ciò che avreste voluto sapere e non avete mai osato chiedere… M. & D.
Analisi bivariata Passiamo allo studio delle relazioni tra variabili
Modello di regressione lineare semplice
STATISTICA PER LE DECISIONI DI MARKETING
Regressione Logistica
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
Uso dei Modelli in Statistica
STATISTICA PER LE DECISIONI DI MARKETING
Statistica economica (6 CFU)
STATISTICA PER LE DECISIONI DI MARKETING
STATISTICA PER LE DECISIONI DI MARKETING
Esercizio Regressione DATI Per un campione casuale di 82 clienti di un'insegna della GDO, sono disponibili le seguenti variabili, riferite ad un mese di.
STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Selezione.
DATA MINING PER IL MARKETING
DATA MINING PER IL MARKETING
DATA MINING PER IL MARKETING
Data Mining per il Marketing Andrea Cerioli Sito web del corso I modelli statistici nel Data Mining e nel marketing.
DATA MINING PER IL MARKETING
LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Esempio (d)istruttivo.
DATA MINING PER IL MARKETING
LABORATORIO DI ANALISI AVANZATA DEI DATI Andrea Cerioli Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA.
Data Mining per il Marketing Andrea Cerioli Sito web del corso I modelli statistici nel marketing e nel Data Mining e.
DATA MINING PER IL MARKETING
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: la stima del modello e la sua valutazione, metodi automatici.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°13 Regressione Logistica: La stima e l’interpretazione del del modello.
DATA MINING PER IL MARKETING
Domande riepilogative per l’esame
Lezione B.10 Regressione e inferenza: il modello lineare
DATA MINING PER IL MARKETING
redditività var. continua classi di redditività ( < 0 ; >= 0)
Analisi Multivariata dei Dati
Esercizio Regressione DATI Per un campione casuale di 82 clienti di un'insegna della GDO, sono disponibili le seguenti variabili, riferite ad un mese di.
DATA MINING PER IL MARKETING Andrea Cerioli Sito web del corso GLI ALBERI DI CLASSIFICAZIONE Introduzione alla metodologia Zani-Cerioli,
TEST STATISTICI PER SCALE NOMINALI, TASSI E PROPORZIONI Non sempre la variabile aleatoria (risultato sperimentale) è un numero ma è spesso un esito dicotomico.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
La distribuzione normale. Oltre le distribuzioni di frequenza relative a un numero finito di casi si possono utilizzare distribuzioni con un numero di.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
Statistica di Base per le Scienze Pediatriche luigi greco D.C.H, M.D., M.Sc.M.C.H., Ph.D. Dipartimento di Pediatria UniFEDERICOII.
Transcript della presentazione:

STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso IL MODELLO DI REGRESSIONE LOGISTICA Alcuni complementi Materiale didattico: dispensa sulla regressione logistica (c/o Ufficio fotocopie del Dipartimento) 1

Odds(xi) = P(Y=1|X=xi)/P(Y=0|X=xi) = (xi)/[1 – (xi)] Complemento 1: Richiamo tabelle di contingenza (v. Zani-Cerioli, cap. 4) Y, X dicotomiche; Y = dipendente {0, 1}; X = esplicativa {A, B}; Odds(A) = P(Y=1|X=A)/P(Y=0|X=A) = A1/A0 = A1/(1-A1) Odds(B) = P(Y=1|X=B)/P(Y=0|X=B) = B1/B0 = B1/(1-b1) Odds Ratio = OR = Odds(A)/Odds(B) = (A1 B0)/(A0B1) Odds e OR sono più utilizzati rispetto alla differenza (A1/A+– B1/B+) o al “rischio relativo” (A1/A+)/(B1/B+) La definizione di Odds vale in generale: Odds(xi) = P(Y=1|X=xi)/P(Y=0|X=xi) = (xi)/[1 – (xi)] Quindi: logit[(xi)] = log[Odds(xi)] X\Y 1 Tot A A0 A1 A+ B B0 B1 B+ Tot. +0 +1 P(Y=1|X=A) = A1/A+ P(Y=1|X=B) = B1/B+ P(Y=1) = +1

Complemento 1: Richiamo indici operativi (v. ZC, pp. 104-109) Y, X dicotomiche; Y=dipendente {0, 1}; X=esplicativa {A, B}; Le probabilità nella tabella sono legate anche a indici operativi di largo impiego nel marketing. Se A è la categoria di riferimento di X: Supporto(XY) = P(Y=1X=A) = A1 Predicibilità(XY) = P(Y=1X=A)/P(X=A) = P(Y=1|X=A) = A1/A+ Lift(XY) = Predicibilità(XY)/P(Y=1) = (A1/A+)/+1 Lift rappresenta quindi l’effetto della conoscenza di X sulla previsione di Y: se X non è noto la previsione di Y è in base alla distribuzione marginale {+0, +1} X\Y 1 Tot A A0 A1 A+ B B0 B1 B+ Tot. +0 +1 P(Y=1|X=A) = A1/A+ P(Y=1|X=B) = B1/B+ P(Y=1) = +1

Complemento 2: Funzione di verosimiglianza Caso in cui le variabili esplicative sono qualitative: xi identifica una cella della tabella di contingenza (multipla) ottenuta incrociando le variabili esplicative X1, X2, … Xk-1 Il numero di successi (ad es. acquisti) per le ni unità (clienti) che presentano il profilo xi ha distribuzione binomiale  probabilità di osservare si successi tra le ni unità che presentano il profilo xi: La probabilità di successo (xi) è rappresentata dal modello logistico: La stima di max verosimiglianza è quel valore dei parametri β0, β1, βk-1 che rende massimo il prodotto delle probabilità binomiali: L(β) = p(s1)p(s2)p(sr) dove r = numero celle della tabella di contingenza Si noti che i valori s1,s2,…sr sono quelli osservati: numero di successi per i diversi profili

Complemento 2: Funzione di verosimiglianza Problemi se X è continua: Se la variabile esplicativa X è continua: non vi sono valori ripetuti La tabella di contingenza (multipla) che si ottiene incrociando X con le altre variabili esplicative ha un numero di celle uguale al numero di unità: r=n e il profilo xi è diverso per ogni unità Anche quando n cresce, il numero di unità che presentano il profilo xi dunque è piccolo: ni = 1 Non vale più il teorema centrale del limite: ad esempio non è più vero che I risultati inferenziali (Wald, p-value, intervalli di confidenza) riportati da SPSS non sono più validi: essi infatti sono asintotici (presuppongono che n sia grande e che ni cresca con n) Una “regola del pollice” è che ni  5 Spesso in pratica si hanno situazioni intermedie (v. reddito nell’esempio): tabelle sparse Bisognerebbe utilizzare procedure “esatte” (v. test “esatto” di Fisher in una tabella 2x2) Cosa succede invece alle stime dei parametri se X è continua?

Complemento 2: Funzione di verosimiglianza Diamo uno sguardo più in dettaglio alla funzione di verosimiglianza: L(β) = p(s1)p(s2)p(sr) considerata come funzione dei parametri del modello logistico, date le osservazioni s1, s2, … sr. Di solito si lavora su scala logaritmica (perché?): log-verosimiglianza Se le variabili esplicative sono qualitative (v. prima): Se invece le X sono continue: i identifica un’unità; ni=1; r=n La funzione l(β) quindi è la stessa (a meno di una costante): la stima di β non cambia Cambia invece la distribuzione delle statistiche test perché non vale più il TCL (v. prima)

Complemento 2: Funzione di verosimiglianza Funzione di verosimglianza nell’esempio sul comportamento di acquisto: Output di SPSS Modello con solo intercetta: log[L(0)] = -27.726 Modello con Sesso + Reddito: Nota: L(β)<1  l(β) = log[L(β)] < 0  nella tabella è riportato il valore -2l(β) > 0 SPSS riporta anche la differenza nella verosimiglianza tra modelli annidati: test per il confronto tra modelli