LA SEGMENTAZIONE DEL MERCATO Un caso di analisi CHAID COOP Emilio Gagliardi Debora Facchini Giulia Bravo gagliardiemi@yahoo.it facchini.debora@libero.it giulia.bravo@libero.it
Strumento di analisi ed obiettivo Tecniche di segmentazione a priori basate sull’ implementazione dell’ algoritmo CHAID (Chi-squared Automatic Interaction Detection) valutazione del grado di omogeneità entro i gruppi e di eterogeneità tra gli stessi tramite il test 2, la cui significatività statistica viene normalizzata con fattore di Bonferroni analisi di un collettivo oggetto di studio al fine di suddividere lo stesso in gruppi di consumatori omogenei al loro interno ma tra loro eterogenei sulla base di variabili maggiormente correlate ad uno specifico target, per poter così predisporre specifiche politiche di marketing OBIETTIVO
Analisi preliminare Dataset iniziale: 7200 osservazioni, ciascuna delle quali riferita ad un’intervista effettuata in un PV Coop a soci Coop o ad individui appartenenti a nuclei familiari che comprendono soci Coop Variabili: - socio-demografiche ed economiche - punteggi di soddisfazione sul servizio di distribuzione e relative variazioni - variabili coop tutte le variabili sono state categorizzate per limitare l’ impatto della metrica sui predittori, e presentano le modalità di seguito illustrate:
Analisi preliminare Età: meno di 35 anni; da 36 a 50 anni; da 51 a 65 anni; più di 65 anni Professione: ‘1’; ‘2’; ‘3’; ‘4’ Titolo di studio: elementare/media inferiore; media superiore/università Stato civile: celibe/nubile; sposato/a; vedovo/a Area di acquisto: Romagna/Marche; Veneto; Bologna Componenti della famiglia: 1; 2; 3; più di 3 Numero minorenni: 1; più di 1 Numero percettori reddito: 1; 2; più di 2 Numero occupati: modalità corrispondenti Numero auto possedute: 1; più di 1
I VALORI MISSING VENGONO INCLUSI NELL’ANALISI COME CATEGORIA DISTINTA Analisi preliminare Punteggi soddisfazione relativi al servizio distributivo: - bassa (da 1 a 7) - media (8) - alta (9-10) Giudizi su variazioni del servizio distributivo: - peggiorato/molto peggiorato - più o meno uguale - migliorato Preferenza su Coop: dicotomica si/no Canale di Vendita: iper; non iper(supermercato,discount,tradizionali,mercato,altro) Numero di soci presenti in famiglia: 1; da 2 in poi I VALORI MISSING VENGONO INCLUSI NELL’ANALISI COME CATEGORIA DISTINTA
Scelta della variabile target Primo livello di analisi Target: CANALE DI VENDITA 49.90% 29.65% Variabili indipendenti: tutte insieme a blocchi 20.45% MISSING
Scelta della variabile target Target: SOCIO per la modalità NON IPER di CANALE DI VENDITA Secondo livello di analisi 56.05% 43.95% Variabili indipendenti: tutte insieme a blocchi
Primo livello di analisi Intero data set variabile target CANALE DI VENDITA
SEGMENTAZIONE IN BASE ALLA VARIABILE TARGET CANALE Variabile target: CANALE con modalità - IPER - NON IPER Variabili indipendenti: - Socio-demografiche ed economiche - Punteggi di soddisfazione sul servizio di distribuzione e relative variazioni - Variabili “Coop”
Tasso di corretta classificazione Dimensione dell’albero che ottimizza il tasso di corretta classificazione: 14 nodi terminali
Matrice di Confusione Tassi di corretta classificazione IPER NON Totale 420 23.93% 262 14.93% 682 38.86% 193 11.00% 880 50.14% 1073 61.14% 613 34.93% 1142 65.07% 1755 100% Frequenza valori mancanti=1 Tassi di corretta classificazione
Rappresentazione grafica dell’albero -1- -2- -3- -4- -5- -6- -2- -3- -4- -5- -7- -8- -9- -9- -10- -11- -12- -13- -14- Variabile target CANALE
Variabili esplicative maggiormente influenti sulla variabile target Variabile target CANALE
Descrizione nodi terminali NODO DESCRIZIONE NODO %IPER %NON IPER Numerosità NODO 1 Unità che frequentano PV in Romagna-Marche aventi medio-bassa soddisfazione per pesce 36% 64% 488 2 Unità che frequentano PV in Veneto aventi medio-bassa soddisfazione per pesce 26% 74% 214 3 Unità che frequentano PV in Romagna-Marche e Veneto aventi alta soddisfazione per pesce 44% 56% 367 4 Unità che frequentano PV in zona Bologna aventi alta soddisfazione per pesce 69% 31% 454 5 Unità con media soddisfazione per l’assortimento e soddisfazione non nota per pesce 19% 81% 402 6 Unità con bassa soddisfazione per l’assortimento e soddisfazione non nota per pesce 6% 94% 662 7 Unità con alta soddisfazione per l’assortimento che frequentano PV in zona Bologna e hanno una medio-bassa soddisfazione per pesce 78% 22% 243 8 Unità che frequentano PV in Veneto con alta soddisfazione per l’assortimento e soddisfazione sconosciuta per pesce 10% 90% 79 9 Unità che frequentano PV in Romagna_Marche con alta soddisfazione per l’assortimento e soddisfazione sconosciuta per pesce 23% 77% 175 …….continua
Descrizione nodi terminali 10 Unità che frequentano PV in Zona Bologna con alta soddisfazione per l’assortimento e soddisfazione sconosciuta per pesce 67% 33% 151 11 Soci Coop con media soddisfazione per l’assortimento, frequentano punti vendita in zona Bologna e hanno medio-bassa soddisfazione per pesce 69% 31% 270 12 Non soci coop con media soddisfazione per l’assortimento, frequentano punti vendita in zona Bologna e hanno medio-bassa soddisfazione per pesce 45% 55% 128 13 Soci Coop con bassa soddisfazione per l’assortimento, frequentano punti vendita in zona Bologna e hanno medio-bassa soddisfazione per pesce 56% 44% 185 14 Non soci coop con bassa soddisfazione per l’assortimento, frequentano punti vendita in zona Bologna e hanno medio-bassa soddisfazione per pesce 27% 73% 146 Variabile target CANALE
SEGMENTAZIONE: VARIABILE TARGET CANALE VARIABILI INDIPENDENTI SOCIO-DEMOGRAFICHE ED ECONOMICHE Variabile target: CANALE con modalità - IPER - NON IPER Variabili indipendenti: - Sesso - Età - Professione - Titolo di studio - Stato civile - Area di acquisto - Numero componenti famiglia - Numero minorenni - Numero percettori reddito - Numero occupati - Numero auto possedute
Tasso di corretta classificazione Dimensione dell’albero ottimale: 4 nodi terminali
Matrice di confusione Tassi di corretta classificazione IPER NON Totale 467 26.61% 215 12.25% 682 38.86% 375 21.37% 698 39.77% 1073 61.14% 842 47.98% 913 52.02% 1755 100% Frequenza valori mancanti=1 Tassi di corretta classificazione
Rappresentazione grafica dell’albero -1- -2- -3- -4- Variabile target: CANALE variabili indipendenti: SOCIO-DEMOGRAFICHE ed ECONOMICHE
Variabili esplicative maggiormente influenti sulla variabile target Variabile target: CANALE variabili indipendenti: SOCIO-DEMOGRAFICHE ed ECONOMICHE
Descrizione nodi terminali NODO DESCRIZIONE NODO %IPER %NON IPER Numerosità NODO 1 Unità frequentanti PV situati in Romagna-Marche 29% 71% 1308 2 Unità frequentanti PV situati in Veneto 16% 84% 653 3 Unità che possiedono 1 o più auto e la cui zona d’acquisto è Bologna 55% 45% 1831 4 Unità il cui numero di auto possedute non è conosciuto, ma la cui zona d’acquisto è Bologna 35% 65% 172 NODO DESCRIZIONE NODO %IPER %NON IPER 1 Unità frequentanti PV situati in Romagna-Marche 29% 71% 2 Unità frequentanti PV situati in Veneto 16% 84% 3 Unità che possiedono 1 o più auto e la cui zona d’acquisto è Bologna 55% 45% 4 Unità il cui numero di auto possedute non è conosciuto, ma la cui zona d’acquisto è Bologna 35% 65% Variabile target: CANALE variabili indipendenti: SOCIO-DEMOGRAFICHE ed ECONOMICHE
Variabile target: CANALE con modalità -IPER -NON IPER SEGMENTAZIONE: VARIABILE TARGET CANALE VARIABILI INDIPENDENTI PUNTEGGI DI SODDISFAZIONE SERVIZIO DISTRIBUTIVO E RELATIVE VARIAZIONI Variabile target: CANALE con modalità -IPER -NON IPER Variabili indipendenti: - Generale - Prezzi - Promozioni - Assortimento - Personale, servizio - Pulizia, igiene - Qualità prodotti freschi - Reparto ortofrutta - Reparto carne - Reparto pane, pasticceria - Reparto salumi, formaggi, Gastronomia - Reparto pesce fresco - Prodotti non food.
Tasso di corretta classificazione Dimensione dell’albero ottimale: 12 nodi terminali
Matrice di confusione Tassi di corretta classificazione IPER NON Totale 417 23.76% 265 15.10% 682 38.86% 279 15.90% 794 45.24% 1073 61.14% 696 39.66% 1059 60.34% 1755 100% Frequenza valori mancanti=1 Tassi di corretta classificazione
Rappresentazione grafica dell’albero
Variabili esplicative maggiormente influenti sulla variabile target Variabile target: CANALE variabili indipendenti: PUNTEGGI SODDISF. SERV. DISTRIB.E RELATIVE VARIAZ.
Descrizione dei nodi terminali NODO DESCRIZIONE NODO %IPER %NON IPER Numerosità NODO 1 Unità con bassa soddisfazione per assortimento ed una media-bassa soddisfazione per pesce 33% 67% 570 2 Unità con media-alta soddisfazione per le promozioni ed un’alta soddisfazione per pesce 61% 39% 700 3 Unità con bassa soddisfazione per le promozioni ed un’alta soddisfazione per pesce 37% 63% 121 4 Unità con una media soddisfazione per l’assortimento la cui soddisfazione per pesce non è nota 18% 81% 402 5 Unità con bassa soddisfazione per l’assortimento la cui soddisfazione per pesce non è nota 6% 94% 662 6 Unità con alta soddisfazione per i prezzi, per l’assortimento ma medio-bassa per pesce 78% 22% 190 ……continua
Descrizione dei nodi terminali 7 Unità con una media soddisfazione per i prezzi, alta per l’assortimento e medio-bassa per pesce 68% 32% 162 8 Unità con bassa soddisfazione per i prezzi, alta per l’assortimento e medio-bassa per pesce 44% 56% 82 9 Unità con media soddisfazione per le promozioni e per l’assortimento e medio-bassa per pesce 55% 45% 378 10 Unità con alta/bassa soddisfazione per le promozioni, media per l’assortimento e medio-bassa per pesce 40% 60% 292 11 Unità con alta soddisfazione per il personale, per l’assortimento e con soddisfazione per pesce non nota 28% 71% 277 12 Unita con medio-bassa soddisfazione per il personale, alta per l’assortimento e con soddisfazione per pesce non nota 54% 46% 128 Variabile target: CANALE variabili indipendenti: PUNTEGGI SODDISF. SERV. DISTRIB.E RELATIVE VARIAZ.
SEGMENTAZIONE: VARIABILE TARGET CANALE VARIABILI INDIPENDENTI COOP Variabile target: CANALE con modalità -IPER -NON IPER Variabili indipendenti: - Canale di vendita - Socio/non socio - Insegna - Numero soci in famiglia - Preferenza su Coop - Area di acquisto
Tasso di corretta classificazione Numero di foglie ottimale
Matrice di confusione Tassi di corretta classificazione IPER NON Totale 375 21.37% 307 17.49% 682 38.86% 199 11.34% 874 49.80% 1073 61.14% 574 32.71% 1181 67.29% 1755 100% Frequenza valori mancanti=1 Tassi di corretta classificazione
Rappresentazione grafica dell’albero -1- -2- -3- -4- -5- -6- Variabile target: CANALE variabili indipendenti: COOP
Variabili esplicative maggiormente influenti sulla variabile target Variabile target: CANALE variabili indipendenti: COOP
Descrizione nodi terminali NODO DESCRIZIONE NODO %IPER %NON IPER Numerosità NODO 1 Unità che frequentano punti vendita in Romagna-Marche 29% 71% 1308 2 Unità che frequentano PV in Veneto 16% 84% 653 3 Unità che scelgono altre insegne e che frequentano PV di Bologna 30% 70% 239 4 Unità che frequentano PV di Bologna di cui non è nota la preferenza per l’insegna 2% 98% 147 5 Unità non soci che frequentano PV Coop a Bologna 49% 51% 435 6 Unità soci che frequentano PV Coop a Bologna 66% 34% 1182 Variabile target: CANALE variabili indipendenti: COOP
Confronto tra modelli name target Target event Root ASE Valid: root ASE CANALE_TUTTE canale non iper 0,424182 0,427693 CANALE_COOP 0,444124 0,445294 CANALE_SODDISF 0,437022 0,445671 CANALE_DEMOG 0,462142 0,460323 il modello canale_demog presenta un errore superiore agli altri modelli considerati
Confronto tra modelli name target Target event Misclassification Rate Valid: Misclassification Rate CANALE_TUTTE canale non iper 0,265893 0,259259 CANALE_COOP 0,264399 0,288319 CANALE_SODDISF 0,295409 0,309972 CANALE_DEMOG 0,344097 0,336182 i modelli canale_coop e canale_soddisf presentano un tasso di errata classificazione pressoché simile a quello del modello completo canale_tutte
Confronto tra modelli Confrontando le curve, nel primo decile i modelli canale_tutte e canale_soddisf hanno un potere di classificazione migliore rispetto agli altri due modelli. Dal quinto all’ottavo decile il modello canale_coop acquisisce un potere di classificazione superiore rispetto al modello canale_soddisf.
Confronto tra modelli La funzione lift evidenzia che i modelli canale_tutte e canale_soddisf consentono di ottenere un miglioramento rispetto ad una classificazione casuale delle unità (baseline).
Secondo livello di analisi dataset NON IPER variabile target SOCIO
Segmentazione con tutte le variabili Variabile target: SOCIO modalità - SI - NO Variabili indipendenti: - Variabili Socio-demografiche ed economiche - Punteggi di soddisfazione sul servizio di distribuzione e relative variazioni - Variabili “Coop”
Tasso di corretta classificazione la dimensione dell’albero che ottimizza il tasso di corretta classificazione è pari a 5 foglie
Matrice di confusione Tassi di corretta classificazione NO SI Totale 329 31.36% 146 13.92% 475 45.28% 13 1.24% 561 53.48% 574 54.72% 342 32.60% 707 67.40% 1049 100% Tassi di corretta classificazione
Rappresentazione grafica dell’albero -1- -2- -3- -4- -5- Variabile target: SOCIO per canale di vendita NON IPER
Variabili esplicative maggiormente influenti sulla variabile target Variabile target: SOCIO per canale di vendita NON IPER
Descrizione nodi terminali NODO DESCRIZIONE % SOCI % NON SOCI Numerosità NODO 1 Unità di cui non si conosce il valore per la variabile insegna 7% 93% 276 2 Unità che frequentano come primo PV Coop 81% 19% 1591 3 Unità che non frequentano come primo PV Coop 11% 89% 100 4 Unità che frequentano come primo PV altre insegne 0% 100% 395 5 Unità che non frequentano come primo PV altre insegne 85 Variabile target: SOCIO per canale di vendita NON IPER
Segmentazione con variabili socio-demografiche ed economiche Variabile target: SOCIO con modalità - SI - NO Variabili indipendenti: - Sesso - Età - Professione - Titolo di studio - Stato civile - Area di acquisto - Numero componenti famiglia - Numero minorenni - Numero percettori reddito - Numero occupati - Numero auto possedute
Tasso di corretta classificazione l’albero si arresta a tre nodi terminali
Matrice di confusione Tassi di corretta classificazione NO SI Totale 223 21.26% 252 24.02% 475 45.28% 188 17.92% 386 36.80% 574 54.72% 411 39.18% 638 60.82% 1049 100% Tassi di corretta classificazione
Rappresentazione grafica dell’albero -1- -2- -3- Variabile target: SOCIO per canale di vendita NON IPER e variabili indipendenti SOCIO-DEMOGRAFICHE ED ECONOMICHE
Descrizione dei nodi terminali NODO DESCRIZIONE % SOCI % NON SOCI Numerosità NODO 1 Unità che frequentano PV in zona Bologna 49% 51% 959 2 Unità che frequentano PV in zona Romagna-Marche 60% 40% 957 3 Unità che frequentano PV in zona Veneto 66% 34% 531 L’ unica variabile utilizzata nella costruzione dell’albero è ZONA
Segmentazione con variabili relative alla soddisfazione Variabile target: SOCIO con modalità -SI -NO Variabili indipendenti: - Generale - Prezzi - Promozioni - Assortimento - Personale, servizio - Pulizia, igiene - Qualità prodotti freschi - Reparto ortofrutta - Reparto carne - Reparto pane, pasticceria - Reparto salumi, formaggi, Gastronomia - Reparto pesce fresco - Prodotti non food
Tasso di corretta classificazione dimensione ottimale dell’albero: 8 nodi terminali
Matrice di confusione Tassi di corretta classificazione NO SI Totale 244 23.26% 231 22,02% 475 45.28% 94 8.96% 480 45.76% 574 54.72% 338 32.22% 711 67.78% 1049 100% Tassi di corretta classificazione
Rappresentazione grafica dell’albero -1- -2- -3- -4- -5- -6- -7- -8-
Variabili esplicative maggiormente influenti sulla variabile target Variabile target: SOCIO per canale di vendita NON IPER e variabili indipendenti di SODDISFAZIONE
Descrizione nodi terminali NODO DESCRIZIONE % SOCI % NON SOCI Numerosità NODO 1 Unità con alta soddisfazione per le promozioni ed una soddisfazione generale medio-alta 76% 24% 544 2 Unità con medio-bassa soddisfazione per le promozioni ed una soddisfazione generale medio-alta 64% 36% 946 3 Unità con soddisfazione per le promozioni non nota ed una soddisfazione generale medio-alta 40% 60% 30 4 Unità per le quali la soddisfazione per pesce è migliorata e che presentano bassa soddisfazione generale ed una soddisfazione generica per carne 38% 62% 93 5 Unità per le quali la soddisfazione per pesce è peggiorata e che presentano bassa soddisfazione generale ed una soddisfazione generica per carne 47% 53% 426 6 Unità per le quali la variazione di soddisfazione per pesce non è nota e che presentano bassa soddisfazione generale ed una soddisfazione generica per carne 165 7 Unità di cui non è nota la soddisfazione per carne, con bassa soddisfazione generale 26% 74% 94 8 Unità con soddisfazione generale non nota 4% 96% 149
Segmentazione con variabili coop Variabile target: SOCIO con modalità - SI - NO Variabili indipendenti: - Canale di vendita - Insegna - Numero soci in famiglia - Preferenza su Coop - Area di acquisto
Tasso di corretta classificazione l’albero si arresta a cinque nodi terminali
Matrice di confusione Tassi di corretta classificazione NO SI Totale 329 31.36% 146 13.92% 475 45.28% 13 1.24% 561 53.48% 574 54.72% 342 32.60% 707 67.40% 1049 100% Tassi di corretta classificazione
Rappresentazione grafica dell’albero -1- -2- -3- -4- -5- Variabile target: SOCIO per canale di vendita NON IPER e variabili indipendenti COOP
Variabili esplicative maggiormente influenti sulla variabile target Variabile target: SOCIO per canale di vendita NON IPER e variabili indipendenti COOP
Descrizione nodi terminali NODO DESCRIZIONE % SOCI % NON SOCI Numerosità NODO 1 Unità di cui non è nota la preferenza per insegna 7% 93% 276 2 Unità il cui primo PV è Coop 81% 19% 1591 3 Unità il cui primo PV non è Coop 11% 89% 100 4 Unità il cui primo PV è rappresentato da altre insegne 0% 100% 395 5 Unità il cui primo PV non è rappresentato da altre insegne 85 Variabile target: SOCIO per canale di vendita NON IPER e variabili indipendenti COOP
Confronto tra modelli name target Target event Root ASE Valid: root ASE SOCIO_COOP socio si 0.3356 0.3473 SOCIO_SODDIS 0.4591 0.4582 SOCIO_DEMO 0.4903 0.4925 SOCIO_TUTTE il modello socio_demog presenta un errore superiore agli altri modelli considerati
Misclassification Rate Confronto tra modelli name target Target event Misclassification Rate Valid: Misclassification Rate SOCIO_COOP socio si 0.1381 0.1515 SOCIO_SODDIS 0.3322 0.3098 SOCIO_DEMO 0.4217 0.4194 SOCIO_TUTTE il modello socio_coop presenta un tasso di errata classificazione corrispondente a quello del modello completo socio_tutte, a conferma dei risultati ottenuti nella costruzione degli alberi
Confronto tra modelli Confrontando le curve, i modelli socio_tutte e socio_coop hanno il medesimo potere di classificazione (le curve sono sovrapposte), superiore rispetto agli altri due modelli.
Confronto tra modelli La funzione lift evidenzia che i modelli socio_tutte e socio_coop (curve sovrapposte) consentono di ottenere un miglioramento rispetto ad una classificazione casuale delle unità (baseline).