Regressione Logistica: valutazione modello

Slides:



Advertisements
Presentazioni simili
Metodologia Sperimentale Agronomica / Metodi Statistici per la Ricerca Ambientale Marco Acutis a.a CdS.
Advertisements

I circuiti elettrici.
IL GOLD STANDARD: INTRODUZIONE
XXXII CONVEGNO NAZIONALE Società Italiana di Chimica Agraria
Il problema dello zaino
Campi di gravità e topografia: analisi con QGIS
Regole associative Gianluca Amato
Ciclo di Seminari e Corso
Valutazione dei risultati della classificazione
Generalità Laboratorio Arduino.
Natura e origini della attuale crisi europea
ECONOMIA DELLE ISTITUZIONI FINANZIARIE
Stato di COMPASS Franco Bradamante CSN1 Roma, 16 luglio 2012.
La struttura dei materiali
ESSERE HOMELESS: PERCORSI DI VITA E FATTORI DETERMINANTI
Introduzione a VPN Ing. Gianpiero Ciacci.
Le verifiche empiriche del teorema di Heckscher-Ohlin: il paradosso di Leontief Wassily Leontief realizzò la prima verifica empirica del teorema di HO.
…. modello di Solow?.
Politica economica: che cosa è?
 π BUZZO GIACOMO D’AGOSTINO ALBERTO DE ANGELIS FEDERICA
“BLAISE PASCAL”- Voghera-
La vitamina C è una molecola contenente C,H e O
REDDITO DI CITTADINANZA E OPPORTUNITA’ ECONOMICA: UN CONFRONTO TRA ITALIA E RESTO D’EUROPA Pasquale Tridico Dipartimento di Economia, Università Roma Tre.
Classificazione e Predizione
L’economia monetaria Corso di Economia delle Istituzioni Finanziarie
L’infiltrazione LM-75: 2016/2017
UN NUOVO MODO DI GUARDARE IL MONDO
LA PREVENZIONE INCENDI NELLE STRUTTURE RELIGIOSE APERTE AL PUBBLICO
LE NOVITÀ DEL BILANCIO 2016 …………………………………………………………………………………………………………..
Le unità territoriali per le analisi socio-economiche
Pompe di calore a integrazione geotermica
ISTITUZIONI (regole scritte e nn scritte che governano l’interazione tra individui) → d.p. e contratti → norme sociali con appropriati Δ delle regole.
Università di Roma Tor Vergata
Convegno europeo sui minori
ATIPICITA’ DEL FATTORE UMANO NEL PILOTAGGIO DEI DRONI
CALENDARIO LEZIONI AGGIORNATO
RAEE è l’acronimo di Rifiuti da Apparecchiature Elettriche ed Elettroniche; ogni elettrodomestico ha un ciclo di vita terminato il quale, sia per malfunzionamento.
Appunti per ostetriche e non solo
Ricerca e innovazione:
Pubblica Amministrazione: semplificazione e costi della politica
Il processo di analisi dei fabbisogni
Comunicazioni Assemblea nazionale TTA 1-2 dicembre 2016
Proactive Care e Proactive Care Advanced
Maria Antonietta Volonté Dipartimento di Neurologia
IL CONFLITTO NELLA CHIESA PRIMITIVA
Piano di formazione Docenti neoassunti a.s. 2016/2017
È possibile rendere comprensibile oggi questo termine filosofico, al di fuori della esigua cerchia degli specialisti? Io una volta ci ho provato in una.
ACCORDO AGROAMBIENTALE D’AREA OPPORTUNITA’ PER LA VALDASO
Il secondo principio.
PROGETTO RELAZIONI PREPOTENTI
Vitamine Sono sostanze organiche a basso peso molecolare strutturalmente assai varie indispensabili per lo svolgimento delle funzioni vitali, di origine.
La misurazione e la valutazione della performance
1.2 Nuovi prodotti alimentari
ASSOCIAZIONE ITALIANA GIURISTI DI IMPRESA
L’evoluzione del Diritto delle Assicurazioni Continuità o rottura con il passato? Avv. Giuseppe Ranieri Studio Legale Tributario Ranieri Comitato Esecutivo.
ADOZIONE INTERNAZIONALE
Esame delle modifiche apportate al precedente ordinamento
e l’associazione in partecipazione
Profilo biografico e opere
IL TOTALITARISMO.
L’Imposta sul reddito delle società (IRES)
Asl Vco – Direzione Generale
Assunzioni, Attività, Investimenti
UROLOGIA - RIMINI VISITE UROLOGICHE AMBULATORIALI REGIME RICOVERO
Endometriosi profonda: quando la chirurgia
Nota AIFA 75 Determinazione 18 novembre 2010 (GU 29 novembre 2010, n. 279): modifiche, con riferimento alla nota AIFA 75,  alla determinazione del 4 gennaio.
PIANO DI RIORDINO PRESIDI DI FOLIGNO E SPOLETO
SINTOMI DEL BASSO APPARATO URINARIO 4 MARZO 2017
Con gli occhi di Maxwell
Transcript della presentazione:

Regressione Logistica: valutazione modello Oltre che a fini interpretativi (i coefficienti β come abbiamo visto ci indicano come le variabili indipendenti influenzano la variabile dipendente) i modelli logistici così come quelli lineari tradizionali vengono utilizzati a fini predittivi Una volta stimati i parametri abbiamo la possibilità di «prevedere» un esito «discreto» in funzione di variabili indipendenti continue. Per esempio analizzando il portafoglio clienti di un’azienda per identificare quali sono le variabili che influenzano la propensione ad aderire ad una campagna promozionale, il modello potrebbe essere usato per prevedere il comportamento in relazione ad una campagna con target simile Per i modelli Regressivi lineari tradizionali un indicatore della bontà del modello è dato dal R quadro, un indicatore che varia tra 0 e 1 misurando la quantità di variabilità del fenomeno analizzato che viene spiegata dalla variabilità del modello stimato

I modelli Regressivi Logistici: valutazione modello Nei modelli regressivi logistici non è possibile parlare di variabilità/varianza Consideriamo le due tabelle sottostanti relative agli esisti di due modelli logistici (A e B), sulle colonne è riportata la classificazione originaria del fenomeno e sulle righe lo stesso fenomeno però stimato dal modello Quali considerazioni possiamo fare per scegliere il modello migliore? Modello A Ha aderito Non ha aderito Totale Previsto SI 55 20 75 Previsto No 45 85 130 100 105 205 Modello B Ha aderito Non ha aderito Totale Previsto SI 70 5 75 Previsto No 30 100 130 105 205

I modelli Regressivi Logistici: valutazione modello Formalmente esistono due indicatori : Sensibilità = Veri_1/Totale_1 nella popolazione = capacità del modello di identificare casi positivi Specificità = Veri_0/Totale_0 nella popolazione = capacità del modello di identificare casi negativi Nelle due tabelle: Modello A Ha aderito Non ha aderito Totale Previsto SI 55/100=.55 20 75 Previsto No 45 85/105=.81 130 100 105 205 Modello B Ha aderito Non ha aderito Totale Previsto SI 70/100=.7 5 75 Previsto No 30 100/105=.95 130 100 105 205

I modelli Regressivi Logistici: valutazione modello Una utile e immediato modo per valutare la «bontà» del modello è rappresentata dalla curva di Roc

I modelli Regressivi Logistici: valutazione modello Rappresentiamo i due modelli E’ evidente il modello migliore è……

Regressione Logistica: Esercizio Una banca desidera classificare i clienti che chiedono un prestito personale tra coloro che sono in grado di ripagare le rate (Y=1) e coloro che avranno dei ritardi o non saranno in grado di ripagare il debito (Y=0). A tal fine effettua un’analisi di regressione logistica su coloro che hanno ricevuto un prestito nel passato che ha dato i seguenti risultati:

Regressione Logistica: Esercizio Determinate gli odds ratio relativi a tutte le variabili; la probabilità di successo per un cliente di 50 anni, che possiede l’abitazione, è un lavoratore straniero ed è sposato; il contributo marginale della variabile sposato per un cliente di 50 anni che possiede l’abitazione ed è un lavoratore straniero (come cambia la probabilità considerando che sposato/non sposato); il contributo marginale della variabile età per un cliente di 40 anni, che non possiede l’abitazione, è un lavoratore italiano ed è sposato Variabile Coefficiente Intercetta -0.5030 Età 0.0423 Abitazione si -0.4934 Lav. Staniero -1.3932 Stato civile – Sposato 0.3910

Regressione Logistica: Esercizio P(Y=1) = 𝑒 𝛼+ 𝛽𝑥 1+ 𝑒 𝛼+ 𝛽𝑥 Dato 𝐞^β ricaviamo: la probabilità di successo per un cliente di 50 anni, che possiede l’abitazione, è un lavoratore straniero ed è sposato implica: P(Y=1|x1 = 50; x2 =1; x3=1; x4=1) exp(−0,503+0,042∗50−0,4934∗1−1,3932∗1+0,391∗1) 1+exp(−0,503+0,042∗50−0,4934∗1−1,3932∗1+0,391∗1) = exp(0,1029) 1+exp(0,1029) = 1,1083 2,1083 =0,53 Variabile β Odds Ratio Intercetta -0,5030 Età 0,0423 1,0432 Abitazione Si -0,4934 0,6105 Lav. Straniero -1,3932 0,2483 Stato civile Sposato 0,3910 1,4785

Regressione Logistica: Esercizio Il contributo marginale della variabile sposato per un cliente di 50 anni che possiede l’abitazione ed è un lavoratore straniero, vale a dire P(Y=1|eta = 50; abit. =1; straniero=1; Sposato=1) =vedi slide precedente - P(Y=1|eta = 50; abitazione =1; straniero=1; Sposato=0)= exp(−0,503+0,042∗50−0,4934∗1−1,3932∗1) 1+exp(−0,503+0,042∗50+0,4934∗1−1,3932∗1) = exp(−0,2881) 1+exp(−0,2881) = 0,7496 1,7496 =0,43 Il contributo marginale è 0.53 - 0.43 = 0.1

Regressione Logistica: Esercizio Il contributo marginale della variabile età per un cliente di 40 anni, che non possiede l’abitazione, è un lavoratore italiano ed è sposato, trattandosi di una variabile continua il contributo marginale è dato da: Quindi 0.04203 * exp(−0,503+0,04203∗40+0,391) (1+exp(−0,503+0,04203∗40+0,391 )) 2 = 0.04203 * exp(1.5692) (1+exp(1.5692 )) 2 = 0.006 = 0.6% Che significa….. 𝛽 𝑗 exp( 𝑥 ′ 𝛽) (1+exp( 𝑥 ′ 𝛽 )) 2 Variabile β Odds ratio Intercetta -0,5030 Età 0,0423 1,5224 Abitazione -0,4934 0,6124 Lav. Straniero -1,3932 0,2483 Stato civile 0,3910 1,4785

Regressione Logistica: Esercizio - aula Nell’ambito di un’analisi sulla fedeltà di marca una società è interessata ad individuare le variabili che contraddistinguono coloro che, in un dato intervallo temporale, hanno effettuato più di un acquisto (Y=1) da coloro che hanno effettuato un solo acquisto. A tale fine effettua un’analisi di regressione logistica sui propri clienti che fornisce i seguenti risultati: Variabile Coeff. Intercetta 0,3028 Età 15-35 -0,5440 Pagamento rateale 1,6107 N. prodotti acquistati al I acquisto 0,3043 Le tre variabili sono tutte dicotomiche. Età 15-35 vale 1 se il cliente ricade in questa classe di età e 0 altrimenti; x2 vale 1 se il cliente paga a rate x3 vale 1 se il cliente al primo acquisto ha acquistato più di un prodotto. Determinate: Gli odds ratio. La probabilità di più acquisti se il cliente ha più di 35 anni, paga a rate ed ha acquistato più di un prodotto la prima volta. L’effetto marginale della variabile pagamento a rate se il cliente ha più di 35 anni ed ha acquistato più di un prodotto la prima volta.

Regressione Logistica: Esercizio - aula Gli odds ratio sono dati da exp(b) quindi: P(Y=1 |x1=0; x2=1; x3=1) = exp(0,3028+1,6107+0,3043) 1+exp(0,3028+1,6107+0,3043) =0,90 L’effetto marginale della variabile pagamento rateale se il cliente ha più di 35 anni ed ha acquistato più di un prodotto la prima volta:   P(Y=|x1=0; x2=1; x3=1)- P(Y=|x1=0; x2=0; x3=1) P(Y=|x1=0; x2=0; x3=1)= exp(0,3028+0,3043) 1+exp(0,3028+0,3043) = 0.65 L’effetto marginale quindi è dato da 0,90-0,65=0,25 Variabile Coeff. Odds Ratio Intercetta 0,3028 Età 15-35 -0,5440 0.58 Pagamento rateale 1,6107 5 N. prodotti acquistati al I acquisto 0,3043 1.36

La regressione logistica con R RStudio è un ambiente di sviluppo integrato (IDE) per R, open-source che gira su Linux, Mac OS X e Windows. RStudio si può scaricare da http://www.rstudio.com L’ambiente di lavoro di RStudio è costituito da quattro finestre: 1. la finestra del codice (scrivere-eseguire script); 2. la finestra della console (riga di comando - output); 3. la finestra degli oggetti (elenco oggetti-cronologia dei comandi); 4. la finestra dei pacchetti, dei grafici, dell’aiuto in linea

La regressione logistica con R Codice / Tabelle Oggetti Console Pacchetti, Grafici, Help

La regressione logistica con R L’ambiente R dispone di un help in linea molto efficiente. > help.start() #apre la pagina principale dell’help di R. > help.search("parola chiave") o ??> parola chiave #cerca “parola chiave” nell’help. > ?funzione o help(funzione) #apre la pagina help del comando “funzione”. > ?"operatore" o help("operatore") #apre la pagina help dell’operatore “operatore”. Sul CRAN (Comprehensive R Archive Network)sono disponibili numerose dispense e manuali di R, anche in italiano. Ad esempio: http://cran.r-project.org/doc/contrib/ Mineo-dispensaR.pdf Attenzione R è case sensitive

La regressione logistica con R Riprendiamo l’esempio dei clienti che hanno acquistato o meno per le due Aree Carichiamo il file ESEMPIO2.txt in R con Import dataset di Rstudio Vediamo il file ESEMPIO2 Area Comprato Non Comprato Totale Area 1 950 250 1200 Area 2 50 300 1500

I modelli Regressivi Logistici : R Creiamo un modello logistico (combinazione per ~ : Alt 126) > fit<-glm(formula = esito ~ area , family = binomial(logit), data = ESEMPIO2) La regressione logistica viene chiamata imponendo la famiglia: family = binomial(logit). Provate >?family Il codice esito ~ area significa che vogliamo creare un modello che ci spieghi la variabile esito (compra, non compra) in funzione della variabile area (Area1 vs Area2). In pratica area è la variabile indipendente X e esito è la variabile dipendente X. Se le variabili sono più di una si indicato separate da «+» Fornita la formula da analizzare, si specifica dove si trovano i dati, data = ESEMPIO1. Con summary(fit) si ottengono una serie di risultati.

I modelli Regressivi Logistici : R

I modelli Regressivi Logistici : R Considerando l’intercetta = 1,3350 e il parametro Var1Area2 = 0,2744 possiamo ricavare la formula per il calcolo della probabilità di acquisto P(Y=1|X) = 𝑒 𝛼+ 𝛽𝑥 1+ 𝑒 𝛼+ 𝛽𝑥 P(Y=Acquisto|X) = 𝑒 1,335+0,2744 𝑥 1+ 𝑒 1,335+0,2744 𝑥 Da cui possiamo ricavare che per clienti in Area 2 (x=1) la probabilità di acquisto è P(Y=Acquisto|Area=2) = 𝑒 1,335+0,2744 ∗1 1+ 𝑒 1,335+0,2744 ∗1 = 83% Mentre la probabilità per clienti in Area 1 ??? P(Y=Acquisto|Area=1) = 𝑒 1,335+0,2744 ∗0 1+ 𝑒 1,335+0,2744∗0 = 79%

I modelli Regressivi Logistici : R Infine possiamo calcolare gli Odds Per clienti in Area 2 = 𝑃(𝑌=1∣𝑥=1) 1 − 𝑃(𝑌=1∣𝑥=1) = 𝑒 𝛼+ 𝛽𝑥 1+ 𝑒 𝛼+ 𝛽𝑥 1 − 𝑒 𝛼+ 𝛽𝑥 1+ 𝑒 𝛼+ 𝛽𝑥 = 𝑒 𝛼+ 𝛽𝑥 1+ 𝑒 𝛼+ 𝛽𝑥 1+ 𝑒 𝛼+ 𝛽𝑥 − 𝑒 𝛼+ 𝛽𝑥 1+ 𝑒 𝛼+ 𝛽𝑥 = 𝑒 𝛼+ 𝛽𝑥 1+ 𝑒 𝛼+ 𝛽𝑥 1 1+ 𝑒 𝛼+ 𝛽𝑥 = 𝑒 𝛼+ 𝛽𝑥 = 𝑒 1.335 + 0.2744∗1 = 5 Per clienti in Area 1 = 𝑃(𝑌=1∣𝑥=0) 1 − 𝑃(𝑌=1∣𝑥=0) = 𝑒 𝛼 1+ 𝑒 𝛼 1 − 𝑒 𝛼 1+ 𝑒 𝛼 = 𝑒 𝛼 1+ 𝑒 𝛼 1+ 𝑒 𝛼 − 𝑒 𝛼 1+ 𝑒 𝛼 = 𝑒 𝛼 1+ 𝑒 𝛼 1 1+ 𝑒 𝛼 = 𝑒 1.335 =3.8 l’Odds ratio 5/3.8 = 1.31 In Area 2 il rapporto acquista/non acquista è del 30% più alto che in Area 1

I modelli Regressivi Logistici : R E’ possibile calcolare gli odds e l’odds ratio con R Coefficienti > fit$coefficients[1] = 1,3350 > fit$coefficients[2] = 0,2744 Odds > exp(fit$coefficients[1]+fit$coefficients[2]*1) = 5 > exp(fit$coefficients[1]+fit$coefficients[2]*0) = 3.8 Odds ratio Area2 su Area1 > exp(fit$coefficients[1]+fit$coefficients[2]*1)/exp(fit$coefficients[1]+fit$coefficients[2]*0)=1.31

I modelli Regressivi Logistici : R –Esercizio aula Carichiamo il file Marks_1.csv Il file contiene la spesa media di 100 clienti in DUE categorie di prodotti CAT_1 e CAT_2 e il conseguente esito rispetto al riacquisto dopo 3 mesi. Stimiamo un modello logistico con variabile indipendenti CAT_1/CAT_2 e dipendente Riacquisto > Model_1<-glm(RIACQUISTO ~ CAT_1+CAT_2, family = binomial(logit), data=Marks_1) > summary(model_1) In base ai risultati calcoliamo L’odds ratio per la variabile Cat_1 e Cat_2 Quali conclusioni possiamo trarre? Quanto vale odds ratio Cat_1/Cat_2 Quale è la probabilità che un cliente con uno scontrino medio di 60 in Cat_1 e 85 in Cat_2 riacquisti entro 3 mesi?

I modelli Regressivi Logistici : R –Esercizio aula

I modelli Regressivi Logistici : R L’odds per Cat_1 e Cat_2 è dato da exp(0.11021) e exp(0.05761) (a meno della costante) odds Cat_1 = 1.1165 > exp(model_1$coefficients[2] odds Cat_2 = 1.059 > exp(model_1$coefficients[3] odds Cat_1/odds Cat_2 = 1.054 quindi….. quindi un incremento unitario di spesa nella Categoria 1 aumenta il rapporto tra probabilità di riacquisto e probabilità di Non riacquisto circa dell’11%

I modelli Regressivi Logistici : R –Esercizio aula Considerando p(y=1) = P(Y=Acquisto) = 𝑒 −12.20636+0.11021∗𝐶𝑎 𝑡 1 +0.05761∗𝐶𝑎𝑡_2 1+ 𝑒 −12.20636+0.11021∗𝐶𝑎 𝑡 1 +0.05761∗𝐶𝑎𝑡_2 = 0.3324 Con R: Definiamo un nuovo data.frame prova <- data.frame(CAT_1=60, CAT_2=85) Quindi stimiamo il valore Comando predict (quale modello, su quale data.frame che tipo di output) predict(model_1,prova,type= "response")

I modelli Regressivi Logistici : R –Esercizio aula Senza specificare il tipo di previsione, per default viene data quella lineare Type = "response" viene data la previsione come probabilità Type = "terms" vengono dati i parametri della funzione logit Log 𝑃(𝑌=1) 1 − 𝑃(𝑌=1) = α + βx

Programma R è da considerarsi un ambiente all’interno del quale è possibile, fra l’altro, gestire e analizzare dati e produrre grafici 4 h per riprendere R e analizzare le tematiche legate ai modelli predittivi, quindi Missing, Outlier, e suddivisione del DB in Traning e Validation 4 h Regressione---> Regressione Logistica 2 h esercitazione 2 h esame Venerdì 2 dicembre pom 2 16-18 Mercoledì 14 dicembre dormi a milano giovedì 15 dicembre pomeriggio 4 15-19 (treno per liuc 13.47) Martedì 20 dicembre dormi a milano mercoledì 21 dicembre pomeriggio 4 15-19 (treno per liuc 13.47) giovedì 22 dicembre pomeriggio 2 14-16 2 dicembre 2 ore = inizio 15 dicembre 4 ore = esercitazione e introduzione R 21 dicembre 4 ore = esercitazioni con R 22 dicembre 2 ore = esercitazione finale