Regressione Logistica

Slides:



Advertisements
Presentazioni simili
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 11.
Advertisements

Modello di regressione lineare semplice
1 Principali analisi statistiche 1. Confronto fra medie (2 o piú campioni) 2. Correlazione e regressione 3. Analisi di tabelle di contigenza Variabile.
Introduzione all’uso degli indicatori di valutazione ed ai metodi di valutazione Dott.ssa Gabriella Giuliano Direttore Sanitario CREAS-IFC-CNR giugno.
Statistica descrittiva: le variabili Frequenze: tabelle e grafici Indici di posizione, di dispersione e di forma Media e varianza di dati raggruppati Correlazione.
Teoria dei Sistemi di Trasporto Tematica 6.a: Utilizzo aggregato dei modelli di scelta discreta.
Ragionamento Bayesiano Esercizi. Classificatore Naïve Bayes: richiami (credits: P. Velardi-uniroma1) Si applica quando le ipotesi in H sono rappresentabili.
CONGIUNTURA FLASH ANDAMENTO SALDI ESTIVI REPORT
Corso di Analisi Statistica per le imprese
Precorso di Statistica per le Lauree Magistrali
ESERCITAZIONE RIEPILOGO di Statistica Descrittiva
PIANIFICAZIONE DEI TRASPORTI Esercitazione sui modelli di generazione
Distribuzioni limite La distribuzione normale
I COMPORTAMENTI DI SPESA DELLE FAMIGLIE DURANTE LA CRISI
Dip. Economia Politica e Statistica
PIL italiano a prezzi costanti 2009
Precorso di Statistica per le Lauree Magistrali
Valutazione dell’incertezza associata alla mappa acustica dinamica di Milano Giovanni Zambon; Roberto Benocci; Maura Smiraglia; H. Eduardo Roman.
Variabili casuali a più dimensioni
Corso di Analisi Statistica per le Imprese Cross tabulation e relazioni tra variabili Prof. L. Neri a.a
Esercizi.
GLI STRUMENTI AUSILIARI
Esercitazioni su testi d’esame
Metodi Quantitativi per Economia, Finanza e Management Lezione n°12 Regressione Logistica: Le ipotesi del modello, la stima del modello.
DISTRIBUZIONI TEORICHE DI PROBABILITA’
Esercitazione finale Esemplificazione testo esame
PIANIFICAZIONE DEI TRASPORTI Regressione lineare
Analisi delle Traiettorie: Modelli di Crescita Latente (LGM)
Statistica per l’economia e l’impresa
Outlook dei consumi Comportamenti di consumo e clima di fiducia delle famiglie italiane Primo trimestre 2007 Censis-Confcommercio.
Precorso di Statistica per le Lauree Magistrali
Dip. Economia Politica e Statistica
Elementi di teoria delle probabilità
Corso di Laurea in Scienze e tecniche psicologiche
Intervalli di Fiducia Introduzione Intervalli di fiducia per la media – Caso varianza nota Intervalli di fiducia per la media – Caso varianza non nota.
Confronto tra diversi soggetti:
Accenni di analisi monovariata e bivariata
Precorso di Statistica per le Lauree Magistrali
Misurazione Raccolta sistematica e organizzata di elementi per
INFERENZA NEL MODELLO DI REGRESSIONE LINEARE SEMPLICE
Agenda Modelli Regressivi I modelli Regressivi Logistici
Corso di Analisi Statistica per le Imprese 2
Corso di Analisi Statistica per le Imprese Sintesi della distribuzione di un carattere: indici di posizione Prof. L. Neri a.a
Metodi Quantitativi per Economia, Finanza e Management Lezione n°11 Regressione Logistica: Le ipotesi del modello, la stima del modello, l’interpretazione.
Confronto tra diversi soggetti:
Statistica descrittiva bivariata
Statistica descrittiva bivariata
Soluzioni e strumenti innovativi a supporto
Agenda Modelli Regressivi I modelli Regressivi Logistici
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: le ipotesi del modello, la stima del modello.
Raccolta sistematica e organizzata di elementi per
ANALISI DI REGRESSIONE
Dipartimento scienze Economiche , Aziendali e statistiche
Metodi Quantitativi per Economia, Finanza e Management Lezione n°9 Regressione lineare multipla: le ipotesi del modello, la stima del modello.
Dip. Economia Politica e Statistica
Precorso di Statistica per le Lauree Magistrali
Corso di Analisi Statistica per le imprese
Esercizio 1 Si vuole studiare la mobilità di voto degli elettori di una certa circoscrizione. Da un sondaggio telefonico risulta che: Si calcolino le distribuzioni.
Metodi Quantitativi per Economia, Finanza e Management Lezione n° 9
Corso di Analisi Statistica per le Imprese Sintesi della distribuzione di un carattere: indici di posizione Prof. L. Neri a.a
Statistica per l’economia e l’impresa
Metodi Quantitativi per Economia, Finanza e Management Lezione n°11 Regressione Logistica: Le ipotesi del modello, la stima del modello, l’interpretazione.
1 – 70 1 – Aprile – Maggio – Giugno – Luglio 1985
Dip. Economia Politica e Statistica
Interazioni tra v.i.: analisi di moderazione
Statistica e probabilità Università degli Studi di Sassari Facoltà di Medicina veterinaria Corso di Laurea in Medicina veterinaria Anno Accademico 2017/2018.
Nord-Italia verso l’Europa, Sud altrove
Variabile interveniente
Analisi Univariata Metodi Quantitativi per Economia, Finanza e Management Esercitazione n°3.
L’Analisi della Varianza ANOVA (ANalysis Of VAriance)
Transcript della presentazione:

Regressione Logistica Nella Regressione Logistica, il valore atteso della variabile target è una variabile dicotomica 0/1, quindi l’obiettivo è stimare la probabilità di assumere valore 1 dato il vettore delle variabili indipendenti p(x)=P(Y=1|X). La relazione può essere descritta attraverso una funzione logistica p(x) La regressione lineare NON potrebbe essere utilizzata infatti il risultato sarebbe un valore NON limitato e quindi esterno all’intervallo di una probabilità che è [0,1] Consideriamo Logit[p(x)]=Ln(p(x)/1-p(x), vale a dire il logaritmo naturale del rapporto della probabilità condizionata di possedere l’attributo alla probabilità condizionata di non possederlo. Si può dimostrare che Quindi, mentre p(x) è funzione non lineare delle variabili X1, X2, …, Xp, il logaritmo dell’ Odds , detto logit, è funzione lineare delle stesse

Coefficiente di regressione parziale Regressione Lineare Nella Regressione Lineare l’obiettivo è quello di esaminare la relazione lineare fra una variabile dipendente continua (Y) e più variabili indipendenti (Xi) Nel modello di regressione lineare si assume che ciascun valore osservato della variabile dipendente sia esprimibile come funzione lineare dei corrispondenti valori delle variabili esplicative, più un termine residuo che traduce l’incapacità del modello di riprodurre con esattezza la realtà osservata. Coefficiente di regressione parziale Intercetta Errore casuale

Valutazione del modello: ASE, RASE, AIC e BSC Altri due tra i più diffusi criteri per la scelta del modello: dove k è il numero di parametri nel modello statistico, n il numero di osservazioni e L è il valore massimizzato della funzione di verosimiglianza del modello stimato Average square error ASE= n-1i (yi- )2 Root Average square error RASE= n-1i (yi- )2 Schwarz's Bayesian Criterion SBC = -2ln(L) + k ln(n) Akaike's Information criterion AIC= -2ln(L) + 2k

Esercitazione (1) Clienti In una situazione di forte crisi economica e concorrenza l’azienda tessile Alfa per mantenere la propria base clienti attiva deve ridurre il tasso di abbandono della propria clientela La direzione dell’azienda tessile vuole conoscere la propensione al riacquisto di ogni cliente, con l’assegnazione della relativa probabilità L’azienda ha un programma di loyalty per fidelizzare i propri clienti. Per ogni cliente sono stati analizzati tutti gli acquisti e sono state calcolate le variabili potenzialmente impattanti sulla probabilità di riacquisto. Il dataset ha 52 variabili e 5.000 clienti che hanno effettuato almeno un acquisto nel periodo t0. Clienti che hanno fatto un acquisto nel periodo t0 Quanti hanno fatto un altro acquisto nel periodo t1? Maggio 2012 Ottobre 2012 Novembre 2012 Aprile 2013 Maggio 2013 Aprile 2014 Semestre s1 Semestre s2 Clienti Clienti con almeno un acquisto valido nel semestre t0 Target = 1 clienti che hanno riacquistato nel periodo successivo Target = 0 clienti che non hanno riacquistato nel periodo successivo

Esercitazione (1) Chi Cosa Quando Quanto Dove Età in classi Area Nielsen Regione di residenza Cosa Numero prodotti “Completi e Tailleur” Numero prodotti “Abiti e Gonne” Numero prodotti “Accessori” Numero prodotti “Pantaloni” Numero prodotti “Foulard e Sciarpe” Numero prodotti “Intimo e Mare” Numero prodotti “Camice e Camicette” Numero prodotti “Scarpe e Borse” Numero prodotti “Maglieria Tricot” Numero prodotti“Maglieria/Top” Numero prodotti “Giacche” Quando Distanza media dall’ultimo acquisto a fine periodo analizzato Numero acquisti in periodo di Saldo Numero acquisti a Dicembre Numero acquisti in Primavera Estate Quanto Prezzo Medio item acquistati Totale Spesa Totale Acquisti nel periodo s1 Coefficiente di variazione del prezzo dei prodotti acquistati Totale Spesa nel periodo s1 Totale Acquisti nel periodo s2 Totale Spesa nel periodo s2 Variazione % acquisti nel periodo s1 vs s2 Numero di acquisti cross Variazione % spesa nel periodo s1 vs s2 UPT; UPT in s1; UPT in s2 Numero di acquisti con sconto Totale Acquisti Variazione % UPT in s1 e in s2 Dove Regione Negozio Numero acquisti nel negozio polo turistico Distanza Media dal pdv più vicino (minuti in auto) Numeri acquisti nel negozio di residenza

Esercitazione (1) Creare un nuovo progetto ‘Esercitazione Regressione’ Assegnare la libreria ‘Corso’ Creare un nuovo script ‘Churn’ Importare il file churn.sas7bdat, quante variabili e quante osservazioni? Verificare le varabili importate Quali variabili presentano dati «mancanti» Quale variabile presenta NA e quanti? Sostituire i valori missing con la media (per variabili quantitative) e la moda (per variabili categoriche) Se tolgo tutti i missing quante osservazioni perdo? Creare due dataset: Train e Validazione Stimare il modello migliore secondo il criterio AIC (ATTENZIONE alla prima variabile che deve essere esclusa) Quali sono le variabili selezionate? Quali NON hanno una stima significativa dei coefficienti? Disegnare la curva di ROC Disegnare il LIFT

Clienti che hanno fatto un acquisto nel periodo t0 Esercitazione (2) L’azienda tessile Beta ha bisogno di capire quali sono i driver principali che incidono sulla spesa complessiva annuale dei propri clienti, riclassificata nella variabile target 1 per spesa >600 euro La direzione dell’azienda tessile vuole capire come orientare il proprio business in base ai risultati del modello applicato stimando per ogni cliente la spesa prevista L’azienda ha un programma di loyalty per fidelizzare i propri clienti. Per ogni cliente sono stati analizzati tutti gli acquisti Il dataset ha 30 variabili e 3.000 clienti che hanno effettuato almeno un acquisto nel periodo t0. Clienti che hanno fatto un acquisto nel periodo t0 Gennaio 2014 Dicembre 2014 Calcolo di 30 variabili per ogni cliente Target discreto = spesa totale annua Commenti

Esercitazione (2) Importare il dataset esercizio_2A.sav Cancellare le variabili prezzo medio ed età Verifichiamo presenza campi «vuoti» Quali sono le variabili che presentano valori missing? Sostituire i valori missing con la mediana(per variabili quantitative) e la moda (per variabili categoriche) Calcolare curtosi e simmetria per le variabili numeriche del datset a partire dalla 5 variabile Verificare simmetria delle variabili cv_prezzo e distanza_last_acquisto Trasformare le variabili continue con il loro logaritmo Attenzione alla variabile Target……. Creare due dataset con 60% training e 40% validation

Esercitazione (2) Stimare il modello di regressione logistica, per il dataset di training, migliore secondo il criterio di AIC Quali sono le variabili significative? Quali sono le tre con maggiore impatto (positivo/negativo) sulla variabile target? Stimare un nuovo modello secondo il criterio di AIC Costruire un nuovo modello con solo le variabili con coefficienti significativi, considerando anche una variabile che identifichi i clienti in Area Nielsen Nord Est Valutare il modello con la curva di ROC