Agenda Modelli Regressivi I modelli Regressivi Logistici

Slides:



Advertisements
Presentazioni simili
La domanda di lavoro dell’impresa concorrenziale Nelle lezioni precedenti abbiamo fornito un quadro di riferimento per l’analisi dei MERCATI DEI PRODOTTI.
Advertisements

LA MISURA IN PSICOLOGIA. Scopo del corso Il corso si propone di offrire allo studente:  un’introduzione alle tematiche connesse alla misura in psicologia.
1 Principali analisi statistiche 1. Confronto fra medie (2 o piú campioni) 2. Correlazione e regressione 3. Analisi di tabelle di contigenza Variabile.
Introduzione all’uso degli indicatori di valutazione ed ai metodi di valutazione Dott.ssa Gabriella Giuliano Direttore Sanitario CREAS-IFC-CNR giugno.
Statistica descrittiva: le variabili Frequenze: tabelle e grafici Indici di posizione, di dispersione e di forma Media e varianza di dati raggruppati Correlazione.
LA STATISTICA. Cenni storici ● In Egitto: si rilevava l'ammontare della popolazione e i vari beni ai fini fiscali; si tenevano elenchi delle famiglie.
Disequazioni in una variabile. LaRegola dei segni La disequazione A(x) · B(x) > 0 è soddisfatta dai valori di per i quali i due fattori A(x) e B(x) hanno.
1 Variabili. 2 Tipi di variabili Una variabile è qualche proprietà di un evento che è stata misurata. Le variabili sono attributi dei fenomeni e pertanto.
Consentono di descrivere la variabilità all’interno della distribuzione di frequenza tramite un unico valore che ne sintetizza le caratteristiche.
Precorso di Statistica per le Lauree Magistrali
x : variabile indipendente
SUMMERMATHCAMP TARVISIO, AGOSTO 2017
Numeri e grafici per capire la salute
= 2x – 3 x Definizione e caratteristiche
DALLA TABELLA DELLE OSSERVAZIONI ALLA TABELLA DELLE FREQUENZE
Distribuzioni limite La distribuzione normale
Dip. Economia Politica e Statistica
La parabola e la sua equazione
Variabili casuali a più dimensioni
Funzioni crescenti e decrescenti
Definizione di logaritmo
L’integrale indefinito
GLI STRUMENTI AUSILIARI
La circonferenza nel piano cartesiano
x : variabile indipendente
Algoritmi di stima con perdita di pacchetti in reti di sensori wireless: modellizzazione a catene di Markov, stima e stima distribuita Chiara Brighenti,
Le primitive di una funzione
DISTRIBUZIONI TEORICHE DI PROBABILITA’
La circonferenza nel piano cartesiano
PIANIFICAZIONE DEI TRASPORTI Regressione lineare
Analisi delle Traiettorie: Modelli di Crescita Latente (LGM)
x : variabile indipendente
Universita’ di Milano Bicocca Corso di Basi di dati 1 in eLearning C
Dip. Economia Politica e Statistica
Equazioni differenziali
Lo studio completo di una funzione
Le trasformazioni nel piano cartesiano
Corso di Laurea in Scienze e tecniche psicologiche
APPUNTI DI STATISTICA INFERENZIALE
Intervalli di Fiducia Introduzione Intervalli di fiducia per la media – Caso varianza nota Intervalli di fiducia per la media – Caso varianza non nota.
Regressione Logistica
Precorso di Statistica per le Lauree Magistrali
I calcoli finanziari: l’interesse
La Statistica Istituto Comprensivo “ M. G. Cutuli”
Agenda Modelli Regressivi I modelli Regressivi Logistici
Statistica descrittiva bivariata
Gli schemi concettuali
Indici di variabilità La variabilità è la ragione dell’esistenza della psicologia. Le persone hanno dei comportamenti diversi che non possono essere predetti.
PROCEDURA per la misura e la relativa stima
RESTITUZIONE PROVE INVALSI 2017
Le primitive di una funzione
Distribuzione per stato di occupazione
Interpretare la grandezza di σ
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: le ipotesi del modello, la stima del modello.
ANALISI DI REGRESSIONE
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: le ipotesi del modello, la stima del modello.
Dip. Economia Politica e Statistica
Precorso di Statistica per le Lauree Magistrali
Esercizio 1 Si vuole studiare la mobilità di voto degli elettori di una certa circoscrizione. Da un sondaggio telefonico risulta che: Si calcolino le distribuzioni.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9
Ing. Maurizio Bassani LOGISTICA - Capitolo 3 - Modulo 1
Corso di Analisi Statistica per le Imprese
Test per campioni indipendenti
Corso di Analisi Statistica per le Imprese
Dip. Economia Politica e Statistica
Variabile interveniente
Gli Indici di Produttività di Divisia
Modello matematico per la risoluzione dei problemi
Statistica descrittiva bivariata
Correlazione e regressione
Transcript della presentazione:

Agenda Modelli Regressivi I modelli Regressivi Logistici Il concetto di odds Il concetto di odds ratio Logit Regressione Logistica Il parametro Beta Esempio Valutazione del modello Esercizio Esercizio - aula I modelli Logistici con R

Premessa : modelli Regressivi L’analisi di regressione è una tecnica per la modellizzazione e l’analisi dei dati Nell’immagine vediamo un insieme di dati «approssimati» (fit) da un modello, obiettivo è trovare un modello che minimizzi la differenza tra i valori stimati e i valori reali In generale i modelli regressivi misurano la relazione tra una variabile dipendente ed un insieme di variabili indipendenti I principali vantaggi legati ai modelli di regressione sono: poter identificare la relazione significativa tra variabile dipendente e variabile indipendente quantificare, pesare, valutare l’impatto delle variabili indipendenti sulla variabile dipendente

Premessa : modelli Regressivi Esistono diversi tipi di modelli regressivi in funzione di: Numero di variabili indipendenti Tipo di variabile dipendente Curva della regressione Nel suo modello standard, Regressione Lineare, si tratta di analizzare una combinazione lineare di più variabili indipendenti legata alla variabile dipendente L’intercetta definisce il centro del range (media) della previsione e i parametri quantificano la crescita/decrescita della variabile target in funzione del cambiamento nelle variabili indipendenti La stima dei parametri e dell’intercetta è effettuata minimizzando l’errore quadratico tra il valore previsto e il valore target Si assume che la variabile dipendente sia continua

Premessa : modelli Regressivi Formalizzando quanto detto abbiamo La Regressione stima i valori della variabile dipendente attraverso un’equazione delle variabili indipendenti La stima dei parametri e dell’intercetta è effettuata così da minimizzare l’errore quadratico ∑( yi – yi )2 ^

I modelli Logistici Nel caso della regressione logistica la variabile dipendente descrive l’appartenenza ad un gruppo (variabile discreta) Qualche esempio ? Una società di analisi vuole stimare la probabilità di fallimento di un’impresa sulla base di indicatori di bilancio e di tendenza del mercato Un servizio di online banking deve essere in grado di determinare se un’operazione svolta sul sito è fraudolenta, sulla base dell’indirizzo IP dell’utente, cronologia delle transazioni passate, e così via Un general store vuole classificare i consumatori e stimare le probabilità di acquisto di determinate categorie di prodotti in base ad alcune caratteristiche demografiche (età, titolo di studio, sesso, etc.)

la probabilità non rispetta questo assunto I modelli Logistici L’obiettivo non è più il valore atteso (stimato) come nella regressione lineare ma la PROBABILITÀ che un determinato soggetto (osservazione) appartenga ad un gruppo piuttosto che ad un altro La variabile dipendente nei modelli tradizionali deve essere CONTINUA assumere quindi valori compresi tra - e +  Nel caso in cui sia discreta (modello logistico), non possiamo semplicemente sostituire la variabile dipendente con la probabilità dal momento che: la probabilità non rispetta questo assunto VARIA TRA 0 E 1

I modelli Logistici: Odds Proviamo ad esprimere la probabilità in un modo diverso… Tradizionalmente la probabilità è il rapporto fra la frequenza con cui un fenomeno assume un dato valore sul totale delle manifestazioni dello stesso fenomeno Introduciamo un nuovo concetto: ODDS Rapporto tra la probabilità che un evento si manifesti e la probabilità che Non si manifesti 𝑷(𝒚=𝟏) 𝑷(𝒚≠𝟏) 𝑷(𝒚=𝟏) 𝟏−𝑷(𝒚=𝟏)

I modelli Logistici: Odds Immaginate una corsa dei cavalli dove un cavallo è dato 8 a 1, cosa significa? …si assume che il cavallo su 9 gare ne vinca 1, che significa che il cavallo ha una probabilità su 9 di vincere = 1/9 = 0.111,….. il suo odds, rapporto tra la probabilità di vincere e la probabilità di perdere è: 𝑃𝑟𝑜𝑏( 𝑉𝑖𝑛𝑐𝑒𝑟𝑒) 𝑃𝑟𝑜𝑏 (𝑁𝑜𝑛 𝑉𝑖𝑛𝑐𝑒𝑟𝑒) = 1 9 1− 1 9 = 1 9 9−1 9 = 1 9 8 9 = 1 9 * 9 8 = 1 8 = 0.125 Più in generale odds è il rapporto tra vincere e non vincere 𝑃𝑟𝑜𝑏( 𝑉𝑖𝑛𝑐𝑒𝑟𝑒) 𝑃𝑟𝑜𝑏 (𝑁𝑜𝑛 𝑉𝑖𝑛𝑐𝑒𝑟𝑒) = 1 9 8 9 = 1/8 Odds ha una serie di proprietà interessanti: Se la probabilità di successo e di insuccesso sono uguali vale 1 Se la probabilità di successo > di insuccesso vale >1 Se la probabilità di successo < di insuccesso vale <1 A differenza della probabilità NON ha limiti di variabilità

I modelli Logistici: Odds Vediamo ora un esempio Dato un portafoglio clienti di 1.500 clienti, 1.200 hanno comperato il prodotto X e 300 no, la probabilità di essere un compratore del prodotto X è 1.200/1.500 = 80% l’odds quindi è Probabilità di comprare/Probabilità di NON comprare 80% 20% =4.0 In altri termini possiamo dire che nel nostro database abbiamo 4 clienti che hanno comprato ogni cliente che non ha comprato

I modelli Logistici: Odds Ratio Introduciamo il concetto di Odds ratio: Supponiamo che ci sia un altro cavallo dato 2 a 1, la probabilità di vincere è 1/3, infatti vincerà una gara ogni 3, il suo Odds…. Odds= 1/3 1−1/3 = 1/3 2/3 = 1 3 ∗ 3 2 = 1 2 L’odds ratio (rapporto degli odds) del secondo cavallo su primo = 0.5/0.125 = 4.0 del primo sul secondo = 0.125/0.5 = 0.25 Quindi l’odds del secondo cavallo è 4 volte quello del primo Quindi? Scommettere sul primo cavallo mi permette di vincere 4 volte tanto quanto vincerei se vincesse il secondo cavallo Attenzione NON significa che il secondo cavallo ha una probabilità 4 volte superiore al primo di vincere, infatti il rapporto delle probabilità sarebbe 1/3 su 1/9 = 3.

I modelli Logistici: Odds Ratio Utilizziamo il concetto di odds ratio per legare l’odds di un evento alle variabili indipendenti Supponiamo di analizzare il fenomeno descritto precedentemente, clienti che hanno o non hanno comprato, con riferimento però a due diverse aree geografiche: Area 1 e Area 2 Area Comprato Non Comprato Totale Area 1 950 250 1200 Area 2 50 300 1500

I modelli Logistici: Odds Ratio Area Comprato Non Comprato Totale Area 1 950 250 1200 Area 2 50 300 1500 Il rapporto tra chi ha comprato e chi Non ha comprato in Area 1 (odds_1) e in Area 2 (odds_2) è lo stesso? E’ evidente che se la risposta è NO l’appartenenza ad un area da parte di un soggetto influenza la sua propensione a comprare Obiettivo è dunque quello di valutare se esiste un legame ma soprattutto quantificarlo In Area 1 odds vale 950/250 = 3.8 in Area 2 vale 250/50 = 5 quindi l’odds ratio Area 1 verso Area 2, vale: 3.8/5 = 0.76

I modelli Logistici: Odds Ratio Area Comprato Non Comprato Totale Area 1 950 250 1200 Area 2 50 300 1500 Come interpretiamo il valore di odds ratio = 0.76 ? La proporzione di acquirenti in Area 1 è circa del 24% (1-0.76) inferiore a quella in Area 2 La lettura dell’odds ratio è ovviamente legata all’ordine : Area2/Area1 = 5/3.8 = 1.31 Quindi? La proporzione di acquirenti in Area 2 è circa del 31% in più rispetto ai clienti in Area 1 Se devo scegliere dove proporre il prodotto quale Area sceglierò? Quindi possiamo dire che l’appartenenza ad un’Area piuttosto che ad un’altra influenza la propensione ad acquistare

I modelli Logistici: Logit Abbiamo visto la definizione di odds come il rapporto tra la probabilità di successo (p) e la probabilità di Non successo (q) Odds= 𝑃𝑟𝑜𝑏( 𝑉𝑖𝑛𝑐𝑒𝑟𝑒) 𝑃𝑟𝑜𝑏 (𝑁𝑜𝑛 𝑉𝑖𝑛𝑐𝑒𝑟𝑒) = 𝑝 𝑞 Il suo logaritmo naturale, definito Logit, ha una serie di proprietà interessanti… Se odds=1, probabilità di successo e di insuccesso sono uguali, logit = log(1) = 0 Se odds>1, probabilità di successo > di insuccesso, logit=log(>1)= >0 Se odds<1, probabilità di successo < di insuccesso, logit=log(<1)= <0 La trasformazione non ha senso se p=0

I modelli Logistici: la regressione Logistica Vediamo come i concetti di odds e odds ratio possono aiutare nel caso in cui si voglia analizzare la relazione tra una variabile dipendente DISCRETA e un insieme di variabili indipendenti Consideriamo l’equazione base di un modello lineare : g(E(y)) = α + βx1 + γx2 E(Y) = valore atteso (previsto) della variabile dipendete in funzione dei valori delle variabili indipendenti X Nel caso della regressione logistica NON dobbiamo stimare il valore atteso della Y ma la probabilità che un determinato evento si verifichi o meno, quindi g(y), deve avere due caratteristiche fondamentali, proprie della probabilità: deve essere positiva non può assumere valori maggiori di 1

I modelli Logistici: la regressione Logistica Vogliamo stimare la probabilità che un cliente riacquisti in funzione della sua età : P(Riacquisto=si) = βo + β(Età) Considerando l’esponenziale, eo soddisfiamo la prima condizione: positiva Exp(p) = exp(βo + β(Età)) = 𝑒 (βo + β(Età)) Inoltre se dividiamo p per (p+1) soddisfiamo anche la seconda condizione: <= 1 p = e^ (βo + β(Età)) 1+e^ (βo + β(Età))

I modelli Logistici: la regressione Logistica La probabilità che il cliente NON riacquisti 1-p = (1-p) = 1- 𝑒 (βo + β(Età)) 1+ 𝑒 (βo + β(Età)) Odds è quindi p/(1-p) 𝑝 1−𝑝 = 𝑒 (βo + β(Età)) 1+ 𝑒 (βo + β(Età)) 1− 𝑒 (βo + β(Età)) 1+ 𝑒 (βo + β(Età)) = 𝑒 (βo + β(Età)) 1+ 𝑒 (βo + β(Età)) ∗ 1+ 𝑒 (βo + β(Età)) 1 = 𝑒 (βo + β(Età)) p = 𝑒 (βo + β(Età)) 1+ 𝑒 (βo + β(Età))

I modelli Logistici: la regressione Logistica Log 𝑃(𝑌=1) 1 − 𝑃(𝑌=1) è definito trasformazione logistica o più semplicemente Logit In questo modo otteniamo il modello di regressione logistica: Logit [P(y=1)] = = 𝑒 (βo + β(x)) = α + βx Il logit[P(y = 1)] varia linearmente in funzione di X oltre l’intervallo [0, 1], mentre la [P(y = 1)] varia seguendo la funzione logistica entro l’intervallo [0, 1] Il valore di β indica se la [P(y = 1)] cresce (β > 0) o decresce (β < 0) al crescere di X

I modelli Logistici: la regressione Logistica Ricapitolando Dovevamo stimare la probabilità di un vento in funzione di n variabili indipendenti Y = P(Y=1) = α + βx1 + γx2 Abbiamo ricavato la funzione Logit per cui P = e^ y 1+e^ y = 𝑒 α + βx1 + γx2 1+ 𝑒 α + βx1 + γx2

I modelli Logistici: il parametro β Il valore di β, in analogia la modello di regressione tradizionale misura l‘impatto, il legame tra la variabile indipendente e la variabile dipendente la probabilità di successo cresce quando β > 0 o decresce quando β < 0 al crescere di X Le stime dei parametri α e β sono ottenute applicando il Metodo della Massima Verosimiglianza vale a dire i valori che massimizzano la probabilità di ottenere il valore dato

I modelli Logistici: il parametro β Un’altra caratteristica…. quando P(y = 1) = 0.50, che significa probabilità di insuccesso = probabilità di insuccesso quindi odds ratio, P(y = 1)/[1 − P(y = 1)] è = 1 quindi il suo logaritmo è = 0 quindi log(odds ratio) = α + βx, = 0 risolvendo per x otteniamo il valore x per il quale P(y = 1) = 0.50 vale a dire quando x = −α/β In questo modo, conoscendo α e β, determiniamo il valore di X per il quale la probabilità di successo eguaglia quella di insuccesso

Regressione Logistica: esempio Si consideri un campione di n = 100 adulti selezionati casualmente in Italia. Si è rilevato il reddito annuale (migliaia di euro) e se possedevano o meno una carta di credito La variabile risposta è dicotomica (possesso CC: 1 = Si, 0 = No). Il predittore è quantitativo continuo (il reddito annuale) A ciascun livello di reddito (X), si può calcolare la probabilità di possedere una CC, attraverso il rapporto tra i soggetti che posseggono una CC e il totale soggetti con quel livello di reddito Fonte: Si ringrazia R. Piccarreta, Università Bocconi, Milano e Nicola Tedesco, Università di Cagliari

Regressione Logistica: esempio Il modello stimato logt(p(y=1)) ha fornito i seguenti parametri = -3.518 + 0.105X il valore β = 0.105 > 0 indica al crescere del reddito Annuale cresce la probabilità di avere una Carta di Credito Qual è il livello di reddito sopra il quale la probailità di avere una CC è maggiore del 50% Ricordando che l’uguaglianza probabilità di successo/probabilità di insuccesso si ha per -a/β, otteniamo -3.518/0.105 = 33.5 quindi la probabilità di avere una CC per redditi superiori a 33.5 è superiore al 50% mentre è inferiore a 50% per redditi inferiori a tale soglia Proviamo a verificarlo dalla tabella Abbiamo 81 persone con redditi fino a 33.5 migliaia di euro, di questi 18 (22%) hanno la carta di credito La percentuale di possessori di carte di credito per redditi di almeno 34.000 euro è di oltre il 68% (13/19)

Regressione Logistica: esempio Torniamo ora alla probabilità iniziale P(Y=1|X) = 𝒆 𝜶+ 𝜷𝒙 𝟏+ 𝒆 𝜶+ 𝜷𝒙 Conoscendo α e β possiamo ricavare la probabilità di successo per qualunque valore di X Supponiamo un soggetto con reddito di 25 mila euro, quale è la probabilità che abbia una carta di credito? Ricordando la stima logt(p(y=1)) = -3.518 + 0.105X per cui α=-3.518 e β=0.105 Ricaviamo: P(Y=1) = 𝑒 −3.52+0.105∗25 1+ 𝑒 −3.52+0.105∗25 = 𝑒 −0.895 1+ 𝑒 −0.895 = 0.4086 1.40 = 0.28 = 28%

Regressione Logistica: esempio Analizziamo meglio l’output fornito dal software e vediamo di meglio interpretare il valore β Rispetto al modello lineare tradizionale lineare l’interpretazione del coefficiente β non è immediata, infatti ricordiamo : Log 𝑃(𝑌=1) 1 − 𝑃(𝑌=1) = α + βx Applichiamo l’antilogaritmo ad entrambi i membri, cioè calcoliamo l’esponenziale 𝑒 Log 𝑃(𝑌=1) 1 − 𝑃(𝑌=1) = 𝑃(𝑌=1) 1 − 𝑃(𝑌=1) = 𝑒 α + βx = 𝑒 α * ( 𝑒 β ) 𝑥 A questo punto è 𝐞 β che indica di quanto si modifica l’odds (rapporto tra le probabilità di successo e insuccesso) ad un incremento unitario (miglia di euro) di X Negli output dei principali software di analisi statistica 𝐞 β è definito odds ratio

Regressione Logistica: esempio Riprendiamo i nostro esempio, un incremento di 1.000 euro comporta un aumento di circa 11% nel rapporto tra le probabilità Se passiamo per esempio da 30 a 31 mila euro abbiamo ? Per cui 0.7672/0.6907 = 1.11 Se fossimo interessanti a valutare come varia l’odds passando da 40 a 61 mila euro di reddito annuo? Per x=40.000 = 𝑃(𝑌=1) 1 − 𝑃(𝑌=1) = 𝑒 −3.5179 + 0.1054∗40 = 2.00 Per x=61.000 = 𝑃(𝑌=1) 1 − 𝑃(𝑌=1) = 𝑒 −3.5179 + 0.1054∗61 = 18.38 Da cui 18.38/2 = 9.14 O più semplicemente: 𝟏.𝟏𝟏 (𝟔𝟏−𝟒𝟎) = 1.11 21 =9.14 Un incremento da 40 a 61 mila euro comporta un aumento di 9 volte della probabilità di avere una CC

Regressione Logistica: valutazione modello Oltre che a fini interpretativi (i coefficienti β come abbiamo visto ci indicano come le variabili indipendenti influenzano la variabile dipendente) i modelli logistici così come quelli lineari tradizionali vengono utilizzati a fini predittivi Una volta stimati i parametri abbiamo la possibilità di «prevedere» un esito «discreto» in funzione di variabili indipendenti continue. Per esempio analizzando il portafoglio clienti di un’azienda per identificare quali sono le variabili che influenzano la propensione ad aderire ad una campagna promozionale, il modello potrebbe essere usato per prevedere il comportamento in relazione ad una campagna con target simile Per i modelli Regressivi lineari tradizionali un indicatore della bontà del modello è dato dal R quadro, un indicatore che varia tra 0 e 1 misurando la quantità di variabilità del fenomeno analizzato che viene spiegata dalla variabilità del modello stimato

I modelli Regressivi Logistici: valutazione modello Nei modelli regressivi logistici non è possibile parlare di variabilità/varianza Consideriamo le due tabelle sottostanti relative agli esisti di due modelli logistici (A e B), sulle colonne è riportata la classificazione originaria del fenomeno e sulle righe lo stesso fenomeno però stimato dal modello Quali considerazioni possiamo fare per scegliere il modello migliore? Modello A Ha aderito Non ha aderito Totale Previsto SI 55 20 75 Previsto No 45 85 130 100 105 205 Modello B Ha aderito Non ha aderito Totale Previsto SI 70 5 75 Previsto No 30 100 130 105 205

I modelli Regressivi Logistici: valutazione modello Formalmente esistono due indicatori : Sensibilità = Veri_1/Totale_1 nella popolazione = capacità del modello di identificare casi positivi Specificità = Veri_0/Totale_0 nella popolazione = capacità del modello di identificare casi negativi Nelle due tabelle: Modello A Ha aderito Non ha aderito Totale Previsto SI 55/100=.55 20 75 Previsto No 45 85/105=.81 130 100 105 205 Modello B Ha aderito Non ha aderito Totale Previsto SI 70/100=.7 5 75 Previsto No 30 100/105=.95 130 100 105 205

I modelli Regressivi Logistici: valutazione modello Una utile e immediato modo per valutare la «bontà» del modello è rappresentata dalla curva di Roc

I modelli Regressivi Logistici: valutazione modello Rappresentiamo i due modelli E’ evidente il modello migliore è……

Regressione Logistica: Esercizio Una banca desidera classificare i clienti che chiedono un prestito personale tra coloro che sono in grado di ripagare le rate (Y=1) e coloro che avranno dei ritardi o non saranno in grado di ripagare il debito (Y=0). A tal fine effettua un’analisi di regressione logistica su coloro che hanno ricevuto un prestito nel passato che ha dato i seguenti risultati:

Regressione Logistica: Esercizio Determinate gli odds ratio relativi a tutte le variabili; la probabilità di successo per un cliente di 50 anni, che possiede l’abitazione, è un lavoratore straniero ed è sposato; il contributo marginale della variabile sposato per un cliente di 50 anni che possiede l’abitazione ed è un lavoratore straniero (come cambia la probabilità considerando che sposato/non sposato); il contributo marginale della variabile età per un cliente di 40 anni, che non possiede l’abitazione, è un lavoratore italiano ed è sposato Variabile Coefficiente Intercetta -0.5030 Età 0.0423 Abitazione si -0.4934 Lav. Staniero -1.3932 Stato civile – Sposato 0.3910

Regressione Logistica: Esercizio P(Y=1) = 𝑒 𝛼+ 𝛽𝑥 1+ 𝑒 𝛼+ 𝛽𝑥 Dato 𝐞^β ricaviamo: la probabilità di successo per un cliente di 50 anni, che possiede l’abitazione, è un lavoratore straniero ed è sposato implica: P(Y=1|x1 = 50; x2 =1; x3=1; x4=1) exp(−0,503+0,042∗50−0,4934∗1−1,3932∗1+0,391∗1) 1+exp(−0,503+0,042∗50−0,4934∗1−1,3932∗1+0,391∗1) = exp(0,1029) 1+exp(0,1029) = 1,1083 2,1083 =0,53 Variabile β Odds Ratio Intercetta -0,5030 Età 0,0423 1,0432 Abitazione Si -0,4934 0,6105 Lav. Straniero -1,3932 0,2483 Stato civile Sposato 0,3910 1,4785

Regressione Logistica: Esercizio Il contributo marginale della variabile sposato per un cliente di 50 anni che possiede l’abitazione ed è un lavoratore straniero, vale a dire P(Y=1|eta = 50; abit. =1; straniero=1; Sposato=1) =vedi slide precedente - (meno) P(Y=1|eta = 50; abitazione =1; straniero=1; Sposato=0)= exp(−0,503+0,042∗50−0,4934∗1−1,3932∗1) 1+exp(−0,503+0,042∗50+0,4934∗1−1,3932∗1) = exp(−0,2881) 1+exp(−0,2881) = 0,7496 1,7496 =0,43 Il contributo marginale è 0.53 - 0.43 = 0.1

Regressione Logistica: Esercizio Il contributo marginale della variabile età per un cliente di 40 anni, che non possiede l’abitazione, è un lavoratore italiano ed è sposato, trattandosi di una variabile continua il contributo marginale è dato da: Quindi 0.04203 * exp(−0,503+0,04203∗40+0,391) (1+exp(−0,503+0,04203∗40+0,391 )) 2 = 0.04203 * exp(1.5692) (1+exp(1.5692 )) 2 = 0.006 = 0.6% Che significa….. 𝛽 𝑗 exp( 𝑥 ′ 𝛽) (1+exp( 𝑥 ′ 𝛽 )) 2 Variabile β Odds ratio Intercetta -0,5030 Età 0,0423 1,5224 Abitazione -0,4934 0,6124 Lav. Straniero -1,3932 0,2483 Stato civile 0,3910 1,4785

Regressione Logistica: Esercizio - aula Nell’ambito di un’analisi sulla fedeltà di marca una società è interessata ad individuare le variabili che contraddistinguono coloro che, in un dato intervallo temporale, hanno effettuato più di un acquisto (Y=1) da coloro che hanno effettuato un solo acquisto. A tale fine effettua un’analisi di regressione logistica sui propri clienti che fornisce i seguenti risultati: Variabile Coeff. Intercetta 0,3028 Età 15-35 -0,5440 Pagamento rateale 1,6107 N. prodotti acquistati al 1° acquisto 0,3043 Le tre variabili sono tutte dicotomiche. Età 15-35 vale 1 se il cliente ricade in questa classe di età e 0 altrimenti; x2 vale 1 se il cliente paga a rate x3 vale 1 se il cliente al primo acquisto ha acquistato più di un prodotto. Determinate: Gli odds ratio. La probabilità di più acquisti se il cliente ha più di 35 anni, paga a rate ed ha acquistato più di un prodotto la prima volta. L’effetto marginale della variabile pagamento a rate se il cliente ha più di 35 anni ed ha acquistato più di un prodotto la prima volta.

Regressione Logistica: Esercizio - aula Gli odds ratio sono dati da exp(b) quindi: P(Y=1 |x1=0; x2=1; x3=1) = exp(0,3028+1,6107+0,3043) 1+exp(0,3028+1,6107+0,3043) =0,90 L’effetto marginale della variabile pagamento rateale se il cliente ha più di 35 anni ed ha acquistato più di un prodotto la prima volta:   P(Y=|x1=0; x2=1; x3=1)- P(Y=|x1=0; x2=0; x3=1) P(Y=|x1=0; x2=0; x3=1)= exp(0,3028+0,3043) 1+exp(0,3028+0,3043) = 0.65 L’effetto marginale quindi è dato da 0,90-0,65=0,25 Variabile Coeff. Odds Ratio Intercetta 0,3028 Età 15-35 -0,5440 0.58 Pagamento rateale 1,6107 5 N. prodotti acquistati al I acquisto 0,3043 1.36

La regressione logistica con R RStudio è un ambiente di sviluppo integrato (IDE) per R, open-source che gira su Linux, Mac OS X e Windows. RStudio si può scaricare da http://www.rstudio.com L’ambiente di lavoro di RStudio è costituito da quattro finestre: 1. la finestra del codice (scrivere-eseguire script); 2. la finestra della console (riga di comando - output); 3. la finestra degli oggetti (elenco oggetti-cronologia dei comandi); 4. la finestra dei pacchetti, dei grafici, dell’aiuto in linea

La regressione logistica con R Codice / Tabelle Oggetti Console Pacchetti, Grafici, Help

La regressione logistica con R L’ambiente R dispone di un help in linea molto efficiente. > help.start() #apre la pagina principale dell’help di R. > help.search("parola chiave") o ??> parola chiave #cerca “parola chiave” nell’help. > ?funzione o help(funzione) #apre la pagina help del comando “funzione”. > ?"operatore" o help("operatore") #apre la pagina help dell’operatore “operatore”. Sul CRAN (Comprehensive R Archive Network)sono disponibili numerose dispense e manuali di R, anche in italiano. Ad esempio: http://cran.r-project.org/doc/contrib/ Mineo-dispensaR.pdf Attenzione R è case sensitive

La regressione logistica con R Riprendiamo l’esempio dei clienti che hanno acquistato o meno per le due Aree Carichiamo il file ESEMPIO2.txt in R con Import dataset di Rstudio Vediamo il file ESEMPIO2 Area Comprato Non Comprato Totale Area 1 950 250 1200 Area 2 50 300 1500

I modelli Regressivi Logistici : R Creiamo un modello logistico (combinazione per ~ : Alt 126) > fit<-glm(formula = esito ~ area , family = binomial(logit), data = ESEMPIO2) La regressione logistica viene chiamata imponendo la famiglia: family = binomial(logit). Provate >?family Il codice esito ~ area significa che vogliamo creare un modello che ci spieghi la variabile esito (compra, non compra) in funzione della variabile area (Area1 vs Area2). In pratica area è la variabile indipendente X e esito è la variabile dipendente X. Se le variabili sono più di una si indicato separate da «+» Fornita la formula da analizzare, si specifica dove si trovano i dati, data = ESEMPIO1. Con summary(fit) si ottengono una serie di risultati.

I modelli Regressivi Logistici : R

I modelli Regressivi Logistici : R Considerando l’intercetta = 1,3350 e il parametro Var1Area2 = 0,2744 possiamo ricavare la formula per il calcolo della probabilità di acquisto P(Y=1|X) = 𝑒 𝛼+ 𝛽𝑥 1+ 𝑒 𝛼+ 𝛽𝑥 P(Y=Acquisto|X) = 𝑒 1,335+0,2744 𝑥 1+ 𝑒 1,335+0,2744 𝑥 Da cui possiamo ricavare che per clienti in Area 2 (x=1) la probabilità di acquisto è P(Y=Acquisto|Area=2) = 𝑒 1,335+0,2744 ∗1 1+ 𝑒 1,335+0,2744 ∗1 = 83% Mentre la probabilità per clienti in Area 1 ??? P(Y=Acquisto|Area=1) = 𝑒 1,335+0,2744 ∗0 1+ 𝑒 1,335+0,2744∗0 = 79%

I modelli Regressivi Logistici : R Infine possiamo calcolare gli Odds Per clienti in Area 2 = 𝑃(𝑌=1∣𝑥=1) 1 − 𝑃(𝑌=1∣𝑥=1) = 𝑒 𝛼+ 𝛽𝑥 1+ 𝑒 𝛼+ 𝛽𝑥 1 − 𝑒 𝛼+ 𝛽𝑥 1+ 𝑒 𝛼+ 𝛽𝑥 = 𝑒 𝛼+ 𝛽𝑥 1+ 𝑒 𝛼+ 𝛽𝑥 1+ 𝑒 𝛼+ 𝛽𝑥 − 𝑒 𝛼+ 𝛽𝑥 1+ 𝑒 𝛼+ 𝛽𝑥 = 𝑒 𝛼+ 𝛽𝑥 1+ 𝑒 𝛼+ 𝛽𝑥 1 1+ 𝑒 𝛼+ 𝛽𝑥 = 𝑒 𝛼+ 𝛽𝑥 = 𝑒 1.335 + 0.2744∗1 = 5 Per clienti in Area 1 = 𝑃(𝑌=1∣𝑥=0) 1 − 𝑃(𝑌=1∣𝑥=0) = 𝑒 𝛼 1+ 𝑒 𝛼 1 − 𝑒 𝛼 1+ 𝑒 𝛼 = 𝑒 𝛼 1+ 𝑒 𝛼 1+ 𝑒 𝛼 − 𝑒 𝛼 1+ 𝑒 𝛼 = 𝑒 𝛼 1+ 𝑒 𝛼 1 1+ 𝑒 𝛼 = 𝑒 1.335 =3.8 l’Odds ratio 5/3.8 = 1.31 In Area 2 il rapporto acquista/non acquista è del 30% più alto che in Area 1

I modelli Regressivi Logistici : R E’ possibile calcolare gli odds e l’odds ratio con R Coefficienti > fit$coefficients[1] = 1,3350 > fit$coefficients[2] = 0,2744 Odds > exp(fit$coefficients[1]+fit$coefficients[2]*1) = 5 > exp(fit$coefficients[1]+fit$coefficients[2]*0) = 3.8 Odds ratio Area2 su Area1 > exp(fit$coefficients[1]+fit$coefficients[2]*1)/exp(fit$coefficients[1]+fit$coefficients[2]*0)=1.31

I modelli Regressivi Logistici : R –Esercizio aula Carichiamo il file Marks_1.csv Il file contiene la spesa media di 100 clienti in DUE categorie di prodotti CAT_1 e CAT_2 e il conseguente esito rispetto al riacquisto dopo 3 mesi. Stimiamo un modello logistico con variabile indipendenti CAT_1/CAT_2 e dipendente Riacquisto > Model_1<-glm(RIACQUISTO ~ CAT_1+CAT_2, family = binomial(logit), data=Marks_1) > summary(model_1) In base ai risultati calcoliamo L’odds ratio per la variabile Cat_1 e Cat_2 Quali conclusioni possiamo trarre? Quanto vale odds ratio Cat_1/Cat_2 Quale è la probabilità che un cliente con uno scontrino medio di 60 in Cat_1 e 85 in Cat_2 riacquisti entro 3 mesi?

I modelli Regressivi Logistici : R –Esercizio aula

I modelli Regressivi Logistici : R L’odds per Cat_1 e Cat_2 è dato da exp(0.11021) e exp(0.05761) (a meno della costante) odds Cat_1 = 1.1165 > exp(model_1$coefficients[2] odds Cat_2 = 1.059 > exp(model_1$coefficients[3] odds Cat_1/odds Cat_2 = 1.054 quindi….. quindi un incremento unitario di spesa nella Categoria 1 aumenta il rapporto tra probabilità di riacquisto e probabilità di Non riacquisto circa dell’11%

I modelli Regressivi Logistici : R –Esercizio aula Considerando p(y=1) = P(Y=Acquisto) = 𝑒 −12.20636+0.11021∗𝐶𝑎 𝑡 1 +0.05761∗𝐶𝑎𝑡_2 1+ 𝑒 −12.20636+0.11021∗𝐶𝑎 𝑡 1 +0.05761∗𝐶𝑎𝑡_2 = 0.3324 Con R: Definiamo un nuovo data.frame prova <- data.frame(CAT_1=60, CAT_2=85) Quindi stimiamo il valore Comando predict (quale modello, su quale data.frame che tipo di output) predict(model_1,prova,type= "response")

I modelli Regressivi Logistici : R –Esercizio aula Senza specificare il tipo di previsione, per default viene data quella lineare Type = "response" viene data la previsione come probabilità Type = "terms" vengono dati i parametri della funzione logit Log 𝑃(𝑌=1) 1 − 𝑃(𝑌=1) = α + βx