La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso GLI ALBERI DI CLASSIFICAZIONE Introduzione alla metodologia.

Presentazioni simili


Presentazione sul tema: "STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso GLI ALBERI DI CLASSIFICAZIONE Introduzione alla metodologia."— Transcript della presentazione:

1 STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso GLI ALBERI DI CLASSIFICAZIONE Introduzione alla metodologia Zani-Cerioli, Cap. XI

2 Analogia con la regressione logistica: Analogia con la regressione logistica: –La variabile da prevedere Y è qualitativa (nominale): appartenenza a differenti classi; spesso Y è dicotomica –Le variabili esplicative X 1, X 2, … forniscono informazioni su fattori ritenuti rilevanti nella previsione di Y e possono essere sia qualitative che quantitative Cè però una differenza cruciale rispetto alla regressione logistica: NON si esplicita un modello, ma si utilizza un algoritmo gerarchico di segmentazione analisi esplorativa (analogia con cluster analysis, anche se con gli alberi la classificazione è supervisionata) Cè però una differenza cruciale rispetto alla regressione logistica: NON si esplicita un modello, ma si utilizza un algoritmo gerarchico di segmentazione analisi esplorativa (analogia con cluster analysis, anche se con gli alberi la classificazione è supervisionata) Grande capacità di calcolo e software specializzato (SPSS) Grande capacità di calcolo e software specializzato (SPSS) Output di tipo grafico: struttura ad albero Output di tipo grafico: struttura ad albero Negli alberi di classificazione lobiettivo è di tipo previsivo, ma si ottiene anche Negli alberi di classificazione lobiettivo è di tipo previsivo, ma si ottiene anche –selezione delle variabili (che è problematica nella regressione) –segmentazione delle unità (ad esempio clienti)

3 Vantaggi degli alberi di classificazione Lalgoritmo di segmentazione è di tipo sequenziale (ricorsivo) veloce (per un computer) e in grado di gestire data set di grandi dimensioni: utile nelle applicazioni di data mining Lalgoritmo di segmentazione è di tipo sequenziale (ricorsivo) veloce (per un computer) e in grado di gestire data set di grandi dimensioni: utile nelle applicazioni di data mining Nasce come metodo di segmentazione e previsione: sono un obiettivo centrale, non un sottoprodotto del modello (a differenza della regressione) semplicità duso per lutente e facilità di interpretazione dei risultati a fini di marketing: regole decisionali Nasce come metodo di segmentazione e previsione: sono un obiettivo centrale, non un sottoprodotto del modello (a differenza della regressione) semplicità duso per lutente e facilità di interpretazione dei risultati a fini di marketing: regole decisionali Non utilizzando un modello, cè meno dipendenza da ipotesi sulla forma di distribuzione delle variabili Non utilizzando un modello, cè meno dipendenza da ipotesi sulla forma di distribuzione delle variabili Il metodo è facilmente applicabile anche con variabili esplicative rilevate su scale differenti (variabili quantitative, ordinali e nominali) Il metodo è facilmente applicabile anche con variabili esplicative rilevate su scale differenti (variabili quantitative, ordinali e nominali) Lalgoritmo produce automaticamente anche una regola di selezione delle variabili (che nella regressione può essere problematica) Lalgoritmo produce automaticamente anche una regola di selezione delle variabili (che nella regressione può essere problematica)

4 Svantaggi degli alberi di classificazione Lalgoritmo di segmentazione è di tipo sequenziale (ricorsivo) le scelte effettuate ad un passo influenzano anche quelle nei passi successivi: non è possibile recuperare dopo una scelta non ottimale ad un certo passo ad es. regole talvolta non coerenti Lalgoritmo di segmentazione è di tipo sequenziale (ricorsivo) le scelte effettuate ad un passo influenzano anche quelle nei passi successivi: non è possibile recuperare dopo una scelta non ottimale ad un certo passo ad es. regole talvolta non coerenti Notevole variabilità/instabilità dei risultati Notevole variabilità/instabilità dei risultati In pratica, il guadagno rispetto alla regressione (logistica) in termini di accuratezza della classificazione è spesso abbastanza modesto In pratica, il guadagno rispetto alla regressione (logistica) in termini di accuratezza della classificazione è spesso abbastanza modesto Performance migliori si possono ottenere con ulteriori estensioni degli alberi di classificazione, che però sono più complesse e più difficili da implementare: random forests Performance migliori si possono ottenere con ulteriori estensioni degli alberi di classificazione, che però sono più complesse e più difficili da implementare: random forests

5 Algoritmo - introduzione Due variabili esplicative X 1 e X 2 ; variabile dipendente Y Due variabili esplicative X 1 e X 2 ; variabile dipendente Y Algoritmo sequenziale con split dicotomici Algoritmo sequenziale con split dicotomici Al primo passo lo split (suddivisione) è in corrispondenza di X 1 = t 1 : si individuano 2 regioni del piano, entro cui la previsione di Y è costante Al primo passo lo split (suddivisione) è in corrispondenza di X 1 = t 1 : si individuano 2 regioni del piano, entro cui la previsione di Y è costante Al passo successivo la regione X 1 t 1 è suddivisa in corrispondenza di X 2 =t 2 ; poi la regione X 1 >t 1 è suddivisa in corrispondenza di X 1 = t 3 ; etc. Al passo successivo la regione X 1 t 1 è suddivisa in corrispondenza di X 2 =t 2 ; poi la regione X 1 >t 1 è suddivisa in corrispondenza di X 1 = t 3 ; etc. Regioni R 1, …, R 5 la previsione di Y è costante entro ogni regione Regioni R 1, …, R 5 la previsione di Y è costante entro ogni regione Rappresentazione ad albero (v. grafico) Rappresentazione ad albero (v. grafico) Separazione lineare tra le classi

6 Algoritmo – introduzione 2 Le 5 regioni costituiscono una partizione dello spazio delle variabili esplicative (feature space) Le 5 regioni costituiscono una partizione dello spazio delle variabili esplicative (feature space) Regola di previsione (Y quantitativo) o di classificazione (Y dicotomico o nominale): ad ogni punto dello spazio delle variabili esplicative è associato un valore adattato (v. grafico) Regola di previsione (Y quantitativo) o di classificazione (Y dicotomico o nominale): ad ogni punto dello spazio delle variabili esplicative è associato un valore adattato (v. grafico) La regola è non parametrica: non è necessario specificare una forma funzionale (con parametri) per f(X) La regola è non parametrica: non è necessario specificare una forma funzionale (con parametri) per f(X) Y quantitativo: alberi di regressione Y quantitativo: alberi di regressione Y qualitativo (dicotomico o nominale): alberi di classificazione Y qualitativo (dicotomico o nominale): alberi di classificazione

7 Algoritmo – introduzione 3 La regola è sequenziale (ricorsiva): lalgoritmo non è in grado di ottenere una partizione del tipo seguente (in cui ai punti A e B è associata la stessa previsione di Y): La regola è sequenziale (ricorsiva): lalgoritmo non è in grado di ottenere una partizione del tipo seguente (in cui ai punti A e B è associata la stessa previsione di Y): Svantaggio: nellalbero, non è possibile riconsiderare leffetto di uno split. Ad esempio i punti A e B appartengono alla stessa regione nel grafico sopra riportato. Nellalbero essi sarebbero invece divisi dallo split in corrispondenza di X 1 =t Svantaggio: nellalbero, non è possibile riconsiderare leffetto di uno split. Ad esempio i punti A e B appartengono alla stessa regione nel grafico sopra riportato. Nellalbero essi sarebbero invece divisi dallo split in corrispondenza di X 1 =t Vantaggio: interpretabilità della rappresentazione ad albero che è sempre in 2 dimensioni anche quando le dimensioni di X sono molto grandi (il grafico sopra riportato è invece ottenibile solo con 2 variabili esplicative) Vantaggio: interpretabilità della rappresentazione ad albero che è sempre in 2 dimensioni anche quando le dimensioni di X sono molto grandi (il grafico sopra riportato è invece ottenibile solo con 2 variabili esplicative) t A B

8 Algoritmo – esempio (v. libro) Previsione di Y = rischio di credito (2 classi); 3 variabili esplicative Previsione di Y = rischio di credito (2 classi); 3 variabili esplicative Y = variabile nominale con J modalità (classificazione); nelles. J=2 Y = variabile nominale con J modalità (classificazione); nelles. J=2 X 1, …, X p : p variabili esplicative x i = (x i1, …, x ip ); = feature space X 1, …, X p : p variabili esplicative x i = (x i1, …, x ip ); = feature space Regola che associa a ogni x un intero j {1, … J}: Regola che associa a ogni x un intero j {1, … J}: d(x): x j Regola di classificazione: partizione di in J sottoinsiemi A 1, …, A J : Regola di classificazione: partizione di in J sottoinsiemi A 1, …, A J : A j = {x: d(x) = j}j=1,…,J Radice (root): nodo iniziale da cui si diramano i successivi tutte le unità sono in un unico gruppo: la classificazione (in base a Y) è la stessa per tutte le unità Radice (root): nodo iniziale da cui si diramano i successivi tutte le unità sono in un unico gruppo: la classificazione (in base a Y) è la stessa per tutte le unità Ramo: insieme dei nodi che discendono da un determinato nodo Ramo: insieme dei nodi che discendono da un determinato nodo Foglie: nodi terminali Foglie: nodi terminali

9 Algoritmo – esempio Nodo iniziale: classificazione degli 8 clienti che minimizza la probabilità di errore: v. distribuzione marginale rischio di credito Nodo iniziale: classificazione degli 8 clienti che minimizza la probabilità di errore: v. distribuzione marginale rischio di credito probabilità di errore (stimata) = 3/8 = 37.5% probabilità di errore (stimata) = 3/8 = 37.5% Suddivisione del nodo iniziale in base a un predittore: Patrimonio Suddivisione del nodo iniziale in base a un predittore: Patrimonio Max. riduzione della probabilità di errore conoscendo il Patrimonio: Max. riduzione della probabilità di errore conoscendo il Patrimonio: Se Patrimonio = basso la previsione è Rischio = alto; se Patrimonio = medio o alto la previsione è Rischio = basso Se Patrimonio = basso la previsione è Rischio = alto; se Patrimonio = medio o alto la previsione è Rischio = basso La probabilità (stimata) di errore si riduce: 0/2 + 1/6 = La probabilità (stimata) di errore si riduce: 0/2 + 1/6 = Passi successivi: v. albero Passi successivi: v. albero Y stimato = basso

10 Esempio – SPSS (v. file: Esempio_alberi_intro.sav) Analizza – classifica – albero Analizza – classifica – albero Modifichiamo i criteri di crescita perché in questo esempio il campione è piccolo (n=8)

11 Successione gerarchica di partizioni: ad ogni passo, è scelto lo split che max il miglioramento nella capacità previsiva (min leterogeneità dei gruppi) Successione gerarchica di partizioni: ad ogni passo, è scelto lo split che max il miglioramento nella capacità previsiva (min leterogeneità dei gruppi) Ogni nodo è attribuito alla classe di Y con frequenza massima Ogni nodo è attribuito alla classe di Y con frequenza massima Selezione delle esplicative Selezione delle esplicative Lalbero è stato fatto crescere fino alla profondità max: le foglie sono perfettamente omogenee per quanto riguarda Y Lalbero è stato fatto crescere fino alla profondità max: le foglie sono perfettamente omogenee per quanto riguarda Y In pratica, si vogliono strutture meno complesse: vantaggi interpretativi e di stabilità differenti regole per la crescita e la potatura dellalbero In pratica, si vogliono strutture meno complesse: vantaggi interpretativi e di stabilità differenti regole per la crescita e la potatura dellalbero Quattro nodi terminali (foglie): associabili a uno specifico valore di Y regola di classificazione Quattro nodi terminali (foglie): associabili a uno specifico valore di Y regola di classificazione

12 Esempio – Regola di classificazione Nodo 3 e Nodo 6: basso rischio (Y = 1) Nodo 3 e Nodo 6: basso rischio (Y = 1) Nodo 1 e Nodo 5: alto rischio (Y = 2) Nodo 1 e Nodo 5: alto rischio (Y = 2) Partizione degli 8 clienti in 4 gruppi (segmenti): tale regola può essere utilizzata per allocare nuovi clienti in una delle classi di rischio Partizione degli 8 clienti in 4 gruppi (segmenti): tale regola può essere utilizzata per allocare nuovi clienti in una delle classi di rischio Effetti negativi della gerarchia degli split binari: Effetti negativi della gerarchia degli split binari: –La segmentazione finale non sempre è consistente. Ad es.: patrimonio = medio basso rischio se risparmio medio (nodo 3); patrimonio = medio alto rischio se risparmio > medio (nodo 5) –Instabilità dellalbero a seguito di piccole variazioni nei dati o nei criteri di analisi v. ZC, Fig. 11.3: effetti della modifica di unosservazione j=1: basso rischio j=2: alto rischio griglia: alto rischio grigio: basso rischio

13 Fasi di una segmentazione gerarchica 1. Dicotomizzazione delle variabili esplicative 2. Scelta del criterio di suddivisione dei nodi 3. Definizione dei criteri di arresto per la crescita dellalbero e/o di semplificazione della struttura ottenuta 4. Scelta della regola di attribuzione delle foglie alle modalità di Y (regola di classificazione) 5. Stima del tasso di errata classificazione

14 1. Split dicotomici Ad ogni passo si effettua una suddivisione in due gruppi: è necessario rendere dicotomica ogni variabile esplicativa Ad ogni passo si effettua una suddivisione in due gruppi: è necessario rendere dicotomica ogni variabile esplicativa Se X j è continua occorre individuare un valore di soglia: in pratica si possono testare come possibili soglie gli n-1 valori osservati di X j nel campione dal primo al penultimo Se X j è continua occorre individuare un valore di soglia: in pratica si possono testare come possibili soglie gli n-1 valori osservati di X j nel campione dal primo al penultimo Se X j è discreta (quantitativa in classi o ordinale) con r modalità: r-1 possibili split, coerenti con lordinamento delle modalità (v. esempio) Se X j è discreta (quantitativa in classi o ordinale) con r modalità: r-1 possibili split, coerenti con lordinamento delle modalità (v. esempio) Se X j è nominale con r modalità: il numero di split possibili cresce molto rapidamente con r. Ad es.: 4 modalità {a,b,c,d} 7 possibili split binari: Se X j è nominale con r modalità: il numero di split possibili cresce molto rapidamente con r. Ad es.: 4 modalità {a,b,c,d} 7 possibili split binari: {a} + {b,c,d}{b} + {a,c,d}{c} + {a,b,d}{d} + {a,b,c} {a,b} + {c,d}{a,c} + {b,d}{a,d} + {b,d}

15 2. Suddivisione dei nodi La scelta dello split da effettuare avviene confrontando tutte le variabili e tutti i possibili split (dicotomici) di ciascuna variabile La scelta dello split da effettuare avviene confrontando tutte le variabili e tutti i possibili split (dicotomici) di ciascuna variabile Si sceglie lo split che garantisce il più elevato miglioramento nella capacità predittiva su Y Si sceglie lo split che garantisce il più elevato miglioramento nella capacità predittiva su Y La misura di tale miglioramento non è però univoca differenti algoritmi di classificazione (anche in SPSS): v. slide successive La misura di tale miglioramento non è però univoca differenti algoritmi di classificazione (anche in SPSS): v. slide successive

16 3. Regole di arresto e semplificazione Nellesempio precedente lalbero è stato fatto crescere fino alla dimensione max: foglie omogenee Nellesempio precedente lalbero è stato fatto crescere fino alla dimensione max: foglie omogenee Tale procedura ha però vari inconvenienti: Tale procedura ha però vari inconvenienti: –Difficoltà di lettura dellalbero quando n è grande –Grande instabilità dei risultati –Scarsa capacità predittiva (overfitting) Per questo si prevedono regole per Per questo si prevedono regole per –Limitare la crescita dellalbero e/o garantire nodi sufficientemente grandi (v. opzioni SPSS) implicazioni di marketing –Semplificare la struttura dellalbero, senza pregiudicare la capacità classificatoria: pruning

17 4. Regola di classificazione Se la foglia è omogenea, la classe assegnata è lunica presente Se la foglia è omogenea, la classe assegnata è lunica presente Se la foglia è eterogenea, si adotta la regola della maggioranza: la classe assegnata alla foglia è quella più frequente (min la percentuale di errori di classificazione) Se la foglia è eterogenea, si adotta la regola della maggioranza: la classe assegnata alla foglia è quella più frequente (min la percentuale di errori di classificazione) La regola di classificazione così ottenuta può essere utilizzata anche per classificare nuove unità sulla base del loro profilo sulle variabili esplicative La regola di classificazione così ottenuta può essere utilizzata anche per classificare nuove unità sulla base del loro profilo sulle variabili esplicative E cruciale valutare la capacità previsiva della regola ottenuta, cioè la corrispondenza tra classe stimata e classe effettiva delle nuove unità E cruciale valutare la capacità previsiva della regola ottenuta, cioè la corrispondenza tra classe stimata e classe effettiva delle nuove unità

18 Probabilità di avere un falso positivo: Probabilità di avere un falso positivo: Probabilità di avere un falso negativo: Probabilità di avere un falso negativo: Analogia con errori I e II specie nella verifica di ipotesi Analogia con errori I e II specie nella verifica di ipotesi Specificità della regola di classificazione: Specificità della regola di classificazione: Sensitività della regola di classificazione: Sensitività della regola di classificazione: Tabella di errata classificazione; curva ROC Tabella di errata classificazione; curva ROC Errori di classificazione per Y dicotomica (v. regressione logistica)

19 5. Stima del tasso di errata classificazione Un primo criterio consiste nel calcolare il tasso di errata classificazione nei nodi terminali dellalbero: stima di risostituzione (p. 531) Un primo criterio consiste nel calcolare il tasso di errata classificazione nei nodi terminali dellalbero: stima di risostituzione (p. 531) Tale stima è 1 – Hit rate nella tabella di errata classificazione Tale stima è 1 – Hit rate nella tabella di errata classificazione Nellesempio relativo al Rischio di credito: Nellesempio relativo al Rischio di credito: La stima della probabilità di errore sarebbe 0: foglie perfettamente omogenee La stima della probabilità di errore sarebbe 0: foglie perfettamente omogenee E una stima affidabile? E una stima affidabile?

20 Overfitting Loverfitting si verifica quando il modello è troppo complesso per i dati a disposizione (curse of dimensionality – rasoio di Occam) Loverfitting si verifica quando il modello è troppo complesso per i dati a disposizione (curse of dimensionality – rasoio di Occam) In presenza di overfitting si ha ottimo adattamento ma pessima capacità previsiva cause ed esempi di overfitting In presenza di overfitting si ha ottimo adattamento ma pessima capacità previsiva cause ed esempi di overfitting Possibili soluzioni: Possibili soluzioni: –Penalizzare le strutture complesse –Stimare lerrore di generalizzazione, suddividendo il campione in due parti: training set (usato per lapprendimento, cioè la stima del modello) e test set (usato per la convalida, cioè la verifica del modello su nuove unità) le misure calcolate sul test set forniscono una stima più accurata dellerrore di generalizzazione Dimensione ottima dellalbero oltre tale soglia si segmenta rumore Stima per risostituzione del tasso di errata class.


Scaricare ppt "STATISTICA PER LE DECISIONI DI MARKETING Andrea Cerioli Sito web del corso GLI ALBERI DI CLASSIFICAZIONE Introduzione alla metodologia."

Presentazioni simili


Annunci Google