Regressione logistica

Slides:



Advertisements
Presentazioni simili
Metodi Quantitativi per Economia, Finanza e Management Lezione n°4 Analisi bivariata. Analisi di connessione, correlazione e di dipendenza in media.
Advertisements

Come organizzare i dati per un'analisi statistica al computer?
Analisi Bivariata e Test Statistici
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Analisi Bivariata Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°4.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n° 8.
Analisi fattoriale Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 10.
Regressione logistica
Metodi Quantitativi per Economia, Finanza e Management Lezione n°6.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8
Test Statistici Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
redditività var. continua classi di redditività ( < 0 ; >= 0)
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°7.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°8.
Analisi Bivariata e Test Statistici
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°10.
Ipotesi e proprietà dello stimatore Ordinary Least Squares (OLS)
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA: test sui parametri e scelta del modello (parte 3) Per effettuare test di qualsiasi natura è necessaria.
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE MULTIPLA (parte 1)
La regressione logistica binomiale
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Modello di regressione lineare semplice
Dall’analisi Fattoriale alla regressione lineare
STATISTICA PER LE DECISIONI DI MARKETING
Regressione Logistica
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°6.
Regressione logistica
Esercizi riepilogativi Analisi Univariata e Bivariata Analisi Fattoriale Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°5.
STATISTICA PER LE DECISIONI DI MARKETING
Associazione tra due variabili
Uso dei Modelli in Statistica
Esercizio Regressione DATI Per un campione casuale di 82 clienti di un'insegna della GDO, sono disponibili le seguenti variabili, riferite ad un mese di.
STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso IL MODELLO DI REGRESSIONE LINEARE MULTIPLA Selezione.
DATA MINING PER IL MARKETING
Questionario Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°7.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5 Analisi Bivariata I° Parte.
Analisi Bivariata: Test Statistici
Esercizi Analisi Fattoriale + Regressione lineare Regressione logistica Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°13.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°11 Regressione lineare multipla: Analisi di influenza. Case Study.
Analisi Fattoriale Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Dall’Analisi Fattoriale alla Regressione Lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n° 11.
Esercizi riepilogativi Analisi Univariata e Bivariata
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: la stima del modello e la sua valutazione, metodi automatici.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°13 Regressione Logistica: La stima e l’interpretazione del del modello.
La regressione II Cristina Zogmaister.
redditività var. continua classi di redditività ( < 0 ; >= 0)
Metodi Quantitativi per Economia, Finanza e Management Lezione n°10 Regressione lineare multipla: la valutazione del modello, metodi automatici di selezione.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9.
Analisi fattoriale Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°7.
Metodi Quantitativi per Economia, Finanza e Management Lezioni n°7-8.
Esercizio Regressione logistica
Metodi Quantitativi per Economia, Finanza e Management Lezione n°5.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°7.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°7.
Regressione lineare - Esercizi
Regressione logistica Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.
Regressione lineare - Esercizi Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°9.
Regressione lineare Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°8.
Esercizio Regressione DATI Per un campione casuale di 82 clienti di un'insegna della GDO, sono disponibili le seguenti variabili, riferite ad un mese di.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9.
Altri concetti sulla regressione. Multicollinearità Varianza comune fra le VI: se è molto elevata produce stime instabili. Ci sono degli indici per indicare.
Metodi Quantitativi per Economia, Finanza e Management Lezione n°13.
DATA MINING PER IL MARKETING (63 ore) Marco Riani Sito web del corso
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Regressione: approccio matriciale Esempio: Su 25 unità sono stati rilevati i seguenti caratteri Y: libbre di vapore utilizzate in un mese X 1: temperatura.
Transcript della presentazione:

Regressione logistica Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°12

Consegna Lavoro di gruppo Scadenze per la consegna del lavoro di gruppo: I scadenza: Lunedì 12 Gennaio 2015 II scadenza: Venerdì 23 Gennaio 2015 Il materiale da consegnare consiste in: stampa cartacea della presentazione in Power Point; un CD/chiavetta USB contenente questionario, base dati in formato Excel, programma SAS, output, presentazione Power Point. NOTA BENE: se il lavoro di gruppo non viene consegnato entro la data della prima scadenza, non è possibile sostenere l’esame al primo appello da frequentanti

Regressione logistica - Modello Modello di regressione logistica si vuole modellare la relazione tra una variabile dipendente dicotomica (0-1) e un insieme di regressori che si ritiene influenzino la variabile dipendente la variabile dicotomica rappresenta presenza/assenza di un fenomeno (es. abbandono cliente, acquisto prodotto…) l’obiettivo è stimare l’equazione dove π:= Pr(Y=1 l X) è la probabilità che il fenomeno si verifichi

Regressione logistica – Esempio DATA SET: banca_churn VARIABILE DIPENDENTE / «TARGET»: 0: non ha abbandonato la banca 1: ha abbandonato la banca Obiettivo: prevedere la probabilità di abbandono a partire da un insieme di variabili indipendenti e capire come queste ultime influenzano l’esito della variabile target

PROC LOGISTIC – Sintassi Modello di regressione logistica – k regressori proc logistic data= dataset descending; model variabile dipendente= regressore_1 . regressore_k /stb selection=stepwise slentry=… slstay=…; run; ordina la variabile dipendente elencare solo le variabili quantitative o dummy OPTIONS: selection=stepwise applica la procedura stepwise per la selezione dei regressori slentry=… livello di significatività richiesto per il test statistico affinché il singolo regressore possa entrare nel modello slstay=… livello di significatività richiesto per il test statistico affinché il singolo regressore non sia rimosso dal modello stb coefficienti standardizzati

Regressione logistica – Sintassi proc logistic data= corso.Banca_churn descending; model target= mesi_bmov pprod utenze mdare mavere flag_acc_sti eta PremiVita PremiDanni NumAssVita NumAssDanni AnzCliente / selection=stepwise slentry=0.01 slstay=0.01 stb; run;

Valutazione bontà del modello Si definiscono PAIRS il numero di coppie di osservazioni (i,h con i≠h) che in un caso hanno Y=1 e nell’altro Y=0. Tanto maggiore è il numero dei CONCORDANT (e quindi tanto minore è il numero dei DISCORDANT), tanto più il modello rappresenterà adeguatamente il fenomeno indagato. La coppia di osservazioni (i,h con i≠h) per la quale Yi =1 e Yh =0 è: concordante se tied se discordante se

Valutazione bontà del modello Percentuale di Concordant  valuta la capacità del modello di stimare la probabilità che il fenomeno si verifichi (quanto più la percentuale è alta tanto migliore è il modello) Altre misure di associazione tra valori predetti e valori osservati  Tanto più questi indicatori sono elevati (si avvicinano a 1), tanto più il modello è “corretto”.

Valutazione bontà del modello Test di significatività congiunta dei coefficienti Likelihood ratio test Score test Wald test (equivalenti al test F nella regressione lineare: valuta la capacità esplicativa del modello)

Valutazione bontà del modello Test di significatività per i singoli coefficienti Wald Chi_square test valuta la significatività dei singoli coefficienti, ossia la rilevanza dei corrispondenti regressori nella spiegazione della variabile dipendente (equivalente al test t nella regressione lineare)

Multicollinearità Per valutare la presenza di multicollinearità tra i regressori, si usa la PROC REG con opzione VIF proc reg data= corso.Banca_churn ; model target= mesi_bmov pprod utenze mdare mavere flag_acc_sti / vif; run; quit; Si leggono solo i valori del VIF

Multicollinearità Per risolvere il problema della multicollinearità, è possibile ricorrere all’analisi fattoriale. Eseguire l’analisi fattoriale considerando TUTTE le variabili indipendenti di partenza (l’esito della stepwise potrebbe essere stato influenzato dalla presenza di multicollinearità); Se si ricorre all’analisi fattoriale unicamente per sanare il problema della multicollinearità, considerare TUTTE le componenti principali calcolate come regressori proc factor data=corso.banca_churn fuzz=0.35 N=12 rotate=varimax reorder out=corso.factors; var mesi_bmov pprod utenze mdare mavere flag_acc_sti eta PremiVita PremiDanni NumAssVita NumAssDanni AnzCliente; quit;

Multicollinearità Factor1 rappresenta la variabile originaria PremiDanni Factor2 rappresenta la variabile originaria mavere …

Stima modello proc logistic data= corso.factors descending; model target= Factor1 Factor2 Factor3 Factor4 Factor5 Factor6 Factor7 Factor8 Factor9 Factor10 Factor11 Factor12 /selection=stepwise slentry=0.01 slstay=0.01 stb; run;

Stima modello Factor2  numero movimentazioni avere Factor3  numero mesi bassa movimentazione ultimo semestre Factor4  flag accredito stipendio Factor9  numero utenze in c/c Factor10  % famiglie prodotti posseduti Factor11  numero movimentazioni dare

Interpretazione dei Coefficienti Importanza dei regressori Si ordinano i regressori in modo decrescente rispetto al valore assoluto del coefficiente standardizzato. Il fattore 2 (numero movimenti avere) è il regressore maggiormente influente nel modello.

Interpretazione dei Coefficienti Analisi del segno dei coefficienti Più è bassa la movimentazione di C/C nell’ ultimo semestre più aumenta la probabilità di abbandono (coeff. std. Factor3= 0.5056 segno positivo) Piu è alta la % di famiglie di prodotti bancari posseduti più diminuisce la probabilità di abbandono (coeff. std. Factor10= - 0.5067 segno negativo) La presenza dell’accredito dello stipendio in C/C diminuisce la probabilità di abbandono (coeff. std. Factor4= - 0.3158 segno negativo)

Regressione logistica – Passi da fare Individuare la variabile oggetto di analisi (variabile dipendente dicotomica (0/1)) e i potenziali regressori (variabili quantitative o dummy) Stimare un modello di regressione logistica utilizzando il metodo di selezione automatica STEPWISE per selezionare le variabili Valutare: la bontà del modello (percentuale di Concordant e altre misure di associazione tra valori predetti e valori osservati) la significatività congiunta dei coefficienti (Likelihood ratio test/Score test/Wald test ) la significatività dei singoli coefficienti stimati (Wald Chi-square test)

Regressione logistica – Passi da fare Valutare la presenza di multicollinearità tra i regressori (utilizzare la PROC REG con opzione VIF) Nel caso di multicollinearità provvedere alla risoluzione del problema, ad esempio tramite un’analisi fattoriale Stimato il modello finale, procedere all’interpretazione dei regressori, valutandone importanza nella spiegazione della variabile target, e segno dei coefficienti