Regressione Logistica Nella Regressione Logistica, il valore atteso della variabile target è una variabile dicotomica 0/1, quindi l’obiettivo è stimare la probabilità di assumere valore 1 dato il vettore delle variabili indipendenti p(x)=P(Y=1|X). La relazione può essere descritta attraverso una funzione logistica p(x) La regressione lineare NON potrebbe essere utilizzata infatti il risultato sarebbe un valore NON limitato e quindi esterno all’intervallo di una probabilità che è [0,1] Consideriamo Logit[p(x)]=Ln(p(x)/1-p(x), vale a dire il logaritmo naturale del rapporto della probabilità condizionata di possedere l’attributo alla probabilità condizionata di non possederlo. Si può dimostrare che Quindi, mentre p(x) è funzione non lineare delle variabili X1, X2, …, Xp, il logaritmo dell’ Odds , detto logit, è funzione lineare delle stesse
Coefficiente di regressione parziale Regressione Lineare Nella Regressione Lineare l’obiettivo è quello di esaminare la relazione lineare fra una variabile dipendente continua (Y) e più variabili indipendenti (Xi) Nel modello di regressione lineare si assume che ciascun valore osservato della variabile dipendente sia esprimibile come funzione lineare dei corrispondenti valori delle variabili esplicative, più un termine residuo che traduce l’incapacità del modello di riprodurre con esattezza la realtà osservata. Coefficiente di regressione parziale Intercetta Errore casuale
Valutazione del modello: ASE, RASE, AIC e BSC Altri due tra i più diffusi criteri per la scelta del modello: dove k è il numero di parametri nel modello statistico, n il numero di osservazioni e L è il valore massimizzato della funzione di verosimiglianza del modello stimato Average square error ASE= n-1i (yi- )2 Root Average square error RASE= n-1i (yi- )2 Schwarz's Bayesian Criterion SBC = -2ln(L) + k ln(n) Akaike's Information criterion AIC= -2ln(L) + 2k
Esercitazione (1) Clienti In una situazione di forte crisi economica e concorrenza l’azienda tessile Alfa per mantenere la propria base clienti attiva deve ridurre il tasso di abbandono della propria clientela La direzione dell’azienda tessile vuole conoscere la propensione al riacquisto di ogni cliente, con l’assegnazione della relativa probabilità L’azienda ha un programma di loyalty per fidelizzare i propri clienti. Per ogni cliente sono stati analizzati tutti gli acquisti e sono state calcolate le variabili potenzialmente impattanti sulla probabilità di riacquisto. Il dataset ha 52 variabili e 5.000 clienti che hanno effettuato almeno un acquisto nel periodo t0. Clienti che hanno fatto un acquisto nel periodo t0 Quanti hanno fatto un altro acquisto nel periodo t1? Maggio 2012 Ottobre 2012 Novembre 2012 Aprile 2013 Maggio 2013 Aprile 2014 Semestre s1 Semestre s2 Clienti Clienti con almeno un acquisto valido nel semestre t0 Target = 1 clienti che hanno riacquistato nel periodo successivo Target = 0 clienti che non hanno riacquistato nel periodo successivo
Esercitazione (1) Chi Cosa Quando Quanto Dove Età in classi Area Nielsen Regione di residenza Cosa Numero prodotti “Completi e Tailleur” Numero prodotti “Abiti e Gonne” Numero prodotti “Accessori” Numero prodotti “Pantaloni” Numero prodotti “Foulard e Sciarpe” Numero prodotti “Intimo e Mare” Numero prodotti “Camice e Camicette” Numero prodotti “Scarpe e Borse” Numero prodotti “Maglieria Tricot” Numero prodotti“Maglieria/Top” Numero prodotti “Giacche” Quando Distanza media dall’ultimo acquisto a fine periodo analizzato Numero acquisti in periodo di Saldo Numero acquisti a Dicembre Numero acquisti in Primavera Estate Quanto Prezzo Medio item acquistati Totale Spesa Totale Acquisti nel periodo s1 Coefficiente di variazione del prezzo dei prodotti acquistati Totale Spesa nel periodo s1 Totale Acquisti nel periodo s2 Totale Spesa nel periodo s2 Variazione % acquisti nel periodo s1 vs s2 Numero di acquisti cross Variazione % spesa nel periodo s1 vs s2 UPT; UPT in s1; UPT in s2 Numero di acquisti con sconto Totale Acquisti Variazione % UPT in s1 e in s2 Dove Regione Negozio Numero acquisti nel negozio polo turistico Distanza Media dal pdv più vicino (minuti in auto) Numeri acquisti nel negozio di residenza
Esercitazione (1) Creare un nuovo progetto ‘Esercitazione Regressione’ Assegnare la libreria ‘Corso’ Creare un nuovo script ‘Churn’ Importare il file churn.sas7bdat, quante variabili e quante osservazioni? Verificare le varabili importate Quali variabili presentano dati «mancanti» Quale variabile presenta NA e quanti? Sostituire i valori missing con la media (per variabili quantitative) e la moda (per variabili categoriche) Se tolgo tutti i missing quante osservazioni perdo? Creare due dataset: Train e Validazione Stimare il modello migliore secondo il criterio AIC (ATTENZIONE alla prima variabile che deve essere esclusa) Quali sono le variabili selezionate? Quali NON hanno una stima significativa dei coefficienti? Disegnare la curva di ROC Disegnare il LIFT
Clienti che hanno fatto un acquisto nel periodo t0 Esercitazione (2) L’azienda tessile Beta ha bisogno di capire quali sono i driver principali che incidono sulla spesa complessiva annuale dei propri clienti, riclassificata nella variabile target 1 per spesa >600 euro La direzione dell’azienda tessile vuole capire come orientare il proprio business in base ai risultati del modello applicato stimando per ogni cliente la spesa prevista L’azienda ha un programma di loyalty per fidelizzare i propri clienti. Per ogni cliente sono stati analizzati tutti gli acquisti Il dataset ha 30 variabili e 3.000 clienti che hanno effettuato almeno un acquisto nel periodo t0. Clienti che hanno fatto un acquisto nel periodo t0 Gennaio 2014 Dicembre 2014 Calcolo di 30 variabili per ogni cliente Target discreto = spesa totale annua Commenti
Esercitazione (2) Importare il dataset esercizio_2A.sav Cancellare le variabili prezzo medio ed età Verifichiamo presenza campi «vuoti» Quali sono le variabili che presentano valori missing? Sostituire i valori missing con la mediana(per variabili quantitative) e la moda (per variabili categoriche) Calcolare curtosi e simmetria per le variabili numeriche del datset a partire dalla 5 variabile Verificare simmetria delle variabili cv_prezzo e distanza_last_acquisto Trasformare le variabili continue con il loro logaritmo Attenzione alla variabile Target……. Creare due dataset con 60% training e 40% validation
Esercitazione (2) Stimare il modello di regressione logistica, per il dataset di training, migliore secondo il criterio di AIC Quali sono le variabili significative? Quali sono le tre con maggiore impatto (positivo/negativo) sulla variabile target? Stimare un nuovo modello secondo il criterio di AIC Costruire un nuovo modello con solo le variabili con coefficienti significativi, considerando anche una variabile che identifichi i clienti in Area Nielsen Nord Est Valutare il modello con la curva di ROC