La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Regressione logistica Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10.

Presentazioni simili


Presentazione sul tema: "Regressione logistica Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10."— Transcript della presentazione:

1 Regressione logistica Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10

2 Regressione logistica - Modello Modello di regressione logistica si vuole modellare la relazione tra una variabile dipendente dicotomica (0-1) e un insieme di regressori che si ritiene influenzino la variabile dipendente la variabile dicotomica rappresenta presenza/assenza di un fenomeno oppure successo/fallimento lobiettivo è stimare lequazione dove π:= Pr(Y=1 l X) è la probabilità che il fenomeno si verifichi

3 Regressione logistica – Analisi preliminari Prima di stimare il modello valutare la presenza di multicollinearità tra i regressori (PROC CORR per analizzare la matrice di correlazione tra i regressori che entrano nel modello) eventualmente tenere solo alcune delle variabili fortemente correlate (fare delle prove…)

4 Regressione logistica – Selezione regressori Scelta dei regressori che entrano nel modello eventualmente eliminare a priori alcuni regressori in seguito allanalisi di multicollinearità metodo di selezione automatica (PROC LOGISTIC con opzione STEPWISE) funziona come per la regressione lineare

5 Regressione logistica – Valutazione modello Valutazione della bontà del modello (output della PROC LOGISTIC) Wald Chi_square test OK p-value con valori piccoli equivalente al test t nella regressione lineare (valuta la significatività dei singoli coefficienti = la rilevanza dei corrispondenti regressori nella spiegazione della variabile dipendente) Likelihood ratio test/score test/Wald test OK p-value con valori piccoli equivalenti al test F nella regressione lineare (valuta la capacità esplicativa del modello) Percentuale di concordant valuta la capacità del modello di stimare la probabilità che il fenomeno si verifichi (quanto più la percentuale è alta tanto migliore è il modello)

6 proc logistic data= dataset descending; class regressore_1…regressore_m /param= glm; model variabile dipendente= regressore_1. regressore_k /option(s); run; Modello di regressione logistica – k regressori specificati a priori PROC LOGISTIC – Sintassi OPTIONS: /stb calcola i coefficienti standardizzati /selection=stepwise applica la procedura stepwise per la selezione dei regressori automaticamente crea variabili dummy per i regressori nominali utilizzando il metodo glm ordina la variabile dipendente

7 Regressione logistica – Esempio VARIABILE DIPENDENTE: 0: non utilizza gli MMS 1: utilizza gli MMS DATA SET: TELEFONIA Obiettivo: Obiettivo: prevedere lutilizzo del servizio MMS a partire da un insieme di variabili (continue, discrete, dicotomiche).

8 Sintassi proc logistic data= corso.telefonia_1 descending; class marca sesso sistemazione tecnologia/param = glm; model uso_mms= marca sesso sistemazione tecnologia durata_chiamate_e durata_chiamate_r _g _h eta fisso_g fisso_h imessaging_g imessaging_h importanza num_chiamate_e num_chiamate_r num_contatti perc_altri_ope perc_cell_mattino perc_cell_notte perc_cell_pome perc_cell_sera perc_comunica_mattino perc_comunica_notte perc_comunica_pome perc_comunica_sera perc_estero perc_fisso perc_ope ricarica_importo dolby dvd dvx fisso imessaging lettore_mp3 macchina_foto reddito /selection=stepwise stb; run; ordina la variabile dipendente metodo di selezione stepwise e coeff. standardizzati variabile dipendente creazione dummy

9 Regressione Logistica Il metodo di selezione automatico stepwise seleziona le seguenti variabili: Var qualitativa Var quantitative

10 Multicollinearità Verificare la presenza di multicollinearità tra i regressori ed eventualmente eliminarne alcuni. Se il coeff. di correlazione tra due o più regressori è alto (>0.5) tenere nel modello il regressore più correlato con la variabile dipendente o quello più importante in termini di business. proc corr data= corso.telefonia_1 ; var importanza num_contatti perc_altri_ope perc_comunica_sera ; run;

11 Test statistici (1/2) Test per valutare la significatività congiunta dei coefficienti (Testing Global Null Hypothesis: BETA=0) ipotesi nulla Se il p-value piccolo (rifiuto H0), quindi il modello ha buona capacità esplicativa. P-VALUE N.B. Equivalenti al Test F della regressione lineare

12 Test statistici (2/2) ipotesi nulla N.B. Equivalente al Test t della regressione lineare Test per valutare la significatività dei singoli coefficienti P-VALUE Il coefficiente è significativo (significativamente diverso da 0) se il corrispondente p-value è piccolo (ossia, rifiuto lipotesi di coefficiente nullo) il regressore a cui il coefficiente è associato è rilevante per la spiegazione del fenomeno

13 Interpretazione coefficienti Le femmine usano meno il servizio MMS dei maschi. SESSO F vs. M: Si guarda il segno del coeff. NUM_CONTATTI ( # persone contattate più frequentemente ): PERC_COMUNICA_SERA ( % comunicazioni che avvengono di sera ): Variabili qualitative: Variabili quantitative: Soggetti con community più estese mandano più MMS Chi comunica prevalentemente la sera manda meno MMS segno positivo segno negativo N.B. per le variabili qualitative i parametri stimati sono relativi alle dummy e forniscono la differenza nell effetto di ogni livello confrontato con l ultimo.

14 Segno dei coefficienti Variabili quantitative Variabili qualitative Il segno dei coefficienti deve rispettare la relazione tra il regressore e la variabile dipendente. Come controllare? + : relazione positiva - : relazione negativa proc corr data= corso.telefonia_1 ; var uso_mms; with importanza num_contatti perc_altri_ope perc_comunica_sera ; run; proc freq data=corso.telefonia_1; table sesso*uso_mms; run;

15 Importanza dei coefficienti In presenza di regressori quantitativi, i coefficienti standardizzati possono essere utili per valutare l importanza relativa delle variabili, capire quali sono quelle che pesano di più nel modello. La variabile num_contatti è quella che pesa di più nel modello e perc_comunica_sera è quella meno importante. Si guarda il valore assoluto del coeff. standardizzato

16 Bontà del modello Tanto maggiore è il numero dei CONCORDANT (e quindi tanto minore è il numero dei DISCORDANT), tanto più il modello rappresenterà adeguatamente il fenomeno indagato.


Scaricare ppt "Regressione logistica Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°10."

Presentazioni simili


Annunci Google