ANALISI DI SEGMENTAZIONE: un’applicazione del metodo CHAID PRESENTAZIONE A CURA DI : Chiara Cimini Miriam Gotti Alessandro Raspanti Marco Stella Dott.ssa Chiara Cimini e-mail: chiaracimini@hotmail.com Dott.ssa Miriam Gotti e-mail: mirigot@hotmail.com Dott.re Alessandro Raspanti e-mail: alexrasp@libero.it Dott.re Marco Stella: stella174@virgilio.it
OBIETTIVO Suddividere un insieme di individui, intervistati presso distributori COOP, in funzione delle loro caratteristiche socio-demografiche, comportamentali e di giudizio
MODELLO Segmentazione multipla CHAID (Chi-squared Automatic Interaction Detection); Applicazione del test chi-quadro con l’obiettivo di massimizzare l’eterogeneità tra i gruppi e l’omogeneità entro i gruppi; Normalizzazione della significatività del chi-quadro mediante il fattore di Bonferroni, per rendere confrontabili situazioni che derivano da tabelle di contingenza diverse
ANALISI DEL DATASET Numero di osservazioni: 7200 Variabili suddivise in: variabili socio-demografiche ed economiche; punteggi di soddisfazione sul servizio di distribuzione; variabili “Coop”
ANALISI DEL DATASET Variabili socio-demografiche ed economiche: sesso, età, professione, titolo di studio, stato civile, area di acquisto, numero componenti famiglia, numero minorenni, numero percettori reddito, numero occupati, numero auto possedute Punteggi di soddisfazione: generale, prezzi, promozioni, assortimento, personale e servizio, pulizia e igiene, qualità prodotti freschi, reparto ortofrutta, reparto carne, reparto pane e pasticceria, reparto salumi, formaggi e gastronomia, reparto pesce fresco, prodotti non food Variabili Coop: canale di vendita, socio/non socio, insegna, numero soci in famiglia, area di acquisto, preferenza su Coop
ANALISI DEL DATASET CATEGORIZZAZIONE DELLE VARIABILI ETA’: <35, 36-50,51-65,>65 PROFESSIONE: 4 modalità TITOLO DI STUDIO: elementare-media inferiore, media superiore-università STATO CIVILE: celibe/nubile, sposato/a, vedovo/a NUMERO MINORENNI: 1, >1 Area di acquisto: Romagna e Marche, Veneto, Bologna NUMERO PERCETTORI REDDITO: 1, 2, >2 NUMERO OCCUPATI: modalità corrispondenti NUMERO AUTO POSSEDUTE: 1, >1 PUNTEGGI DI SODDISFAZIONE: bassa (da 1 a 7), media (8), alta (9,10) PREFERENZA SU COOP: si, no CANALE DI VENDITA: iper, non iper NUMERO SOCI IN FAMIGLIA: 1, >1
SCHEMA DEL PROGETTO
PRIMO LIVELLO DI ANALISI TUTTE LE VARIABILI DISPONIBILI VARIABILE TARGET: PRIMO_PV DISTRIBUZIONE ASIMMETRICA DELLA VARIABILE TARGET (94,6% SI, 5,4% NO) CAMPIONAMENTO DELLA VARIABILE NELLA PROPORZIONE DI 80% E 20% NUMERO DI OSSERVAZIONI: 1950 SUDDIVISIONE DEL CAMPIONE IN TRAINING SET E VALIDATION SET (80% - 20%)
PRIMO LIVELLO DI ANALISI VARIABILI CONSIDERATE: TUTTE Numero di nodi terminali: 4 Tasso di corretta classificazione sul validation set: 89,49%
PRIMO LIVELLO DI ANALISI VARIABILI CONSIDERATE: TUTTE
PRIMO LIVELLO DI ANALISI VARIABILI CONSIDERATE: TUTTE In termini relativi predomina chi frequenta insegne Coop In relazione alla variabile risposta primo_pv Coop il segmento con la percentuale maggiore è quello dei non soci che frequentano altre insegne
PRIMO LIVELLO DI ANALISI PRIMO PV - VARIABILI CONSIDERATE TUTTE Nessun frequentatore di Coop come “Primo PV” è malclassificato Il 56% dei non frequentatori di Coop come “Primo PV” sono malclassificati
PRIMO LIVELLO DI ANALISI VARIABILI CONSIDERATE: SODDISFAZIONE Il tasso di corretta classificazione risulta costante
PRIMO LIVELLO DI ANALISI VARIABILI CONSIDERATE: SODDISFAZIONE NESSUNA SEGMENTAZIONE
PRIMO LIVELLO DI ANALISI VARIABILI CONSIDERATE: “COOP” Numero di nodi terminali: 4 Tasso di corretta classificazione sul validation set: 89,49%
PRIMO LIVELLO DI ANALISI VARIABILI CONSIDERATE: “COOP”
PRIMO LIVELLO DI ANALISI VARIABILI CONSIDERATE: “COOP” In termini relativi predomina chi frequenta insegne Coop In relazione alla variabile risposta primo_pv Coop il segmento con la percentuale maggiore è quello dei non soci che frequentano altre insegne
PRIMO LIVELLO DI ANALISI PRIMO PV - VARIABILI CONSIDERATE TUTTE Nessun frequentatore di Coop come “Primo PV” è malclassificato Il 56% dei non frequentatori di Coop come “Primo PV” sono malclassificati
PRIMO LIVELLO DI ANALISI VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE Il tasso di corretta classificazione risulta costante fino alla foglia 8 e poi decresce
PRIMO LIVELLO DI ANALISI VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE NESSUNA SEGMENTAZIONE
PRIMO LIVELLO DI ANALISI CONFRONTO TRA MODELLI RISULTATI UGUALI PER I MODELLI “COOP” E “PPVTUTTE” LE VARIABILI DEMOGRAFICHE E SODDISFAZIONE NON GENERANO PARTIZIONI SIGNIFICATIVE
PRIMO LIVELLO DI ANALISI CONFRONTO TRA MODELLI TASSO DI ERRATA CLASSIFICAZIONE MIGLIORE: 9,5% ( VARIABILI “TUTTE” E “COOP” )
CONCLUSIONI: primo livello PRIMO PV Le variabili COOP sono quelle che generano la segmentazione migliore; le variabili socio-demografiche e quelle di soddisfazione non sono utili ai fini della segmentazione per la variabile target primo_pv; i soci scelgono COOP come primo punto vendita e tendono a frequentare l’insegna COOP; coloro che frequentano altre insegne sono prevalentemente i non soci anche se scelgono COOP come primo punto vendita;
SCHEMA DEL PROGETTO
SECONDO LIVELLO DI ANALISI: CANALE VARIABILE TARGET: CANALE CREAZIONE NUOVO DATASET CONTENENTE SOLO LA MODALITA’ “SI’” PER LA VARIABILE PRIMO_PV DISTRIBUZIONE QUASI SIMMETRICA DELLA VARIABILE TARGET : IPER 31,28% NON IPER 47,82% MISSING 20,90% NUMERO DI OSSERVAZIONI: 1560
SECONDO LIVELLO DI ANALISI: CANALE VARIABILI CONSIDERATE: TUTTE Numero di nodi terminali: 5 Tasso di corretta classificazione sul validation set: 72,24%
SECONDO LIVELLO DI ANALISI: CANALE VARIABILI CONSIDERATE: TUTTE
SECONDO LIVELLO DI ANALISI: CANALE VARIABILI CONSIDERATE: TUTTE Segmento più numeroso risulta essere quello della zona Romagna-Marche Prevale il canale non Iper in Veneto ed in Romagna-Marche (intero campione 59%); Segmentazione della zona di Bologna anche in base alla soddisfazione per l’assortimento canale Iper in caso di soddisfazione alta o media dell’assortimento Canale non Iper in caso di soddisfazione bassa dell’assortimento
SECONDO LIVELLO DI ANALISI: CANALE CANALE - VARIABILI CONSIDERATE “TUTTE” Il 48% dei frequentatori “Iper ” è malclassificato Il 17% dei frequentatori “Non Iper” è malclassificato
SECONDO LIVELLO DI ANALISI: CANALE VARIABILI CONSIDERATE: SODDISFAZIONE Numero di nodi terminali: 7 Tasso di corretta classificazione sul validation set: 68,98%
SECONDO LIVELLO DI ANALISI: CANALE VARIABILI CONSIDERATE: SODDISFAZIONE
SECONDO LIVELLO DI ANALISI: CANALE VARIABILI CONSIDERATE: SODDISFAZIONE Nel canale non Iper si registra una prevalenza di soddisfazione bassa per l’assortimento ma alta per il personale Al contrario nel canale Iper la soddisfazione per il personale è più bassa e quella per il pesce è più alta
SECONDO LIVELLO DI ANALISI: CANALE CANALE - VARIABILI CONSIDERATE “SODDISFAZIONE” Il 46% dei frequentatori “Iper ” è malclassificato Il 23% dei frequentatori “Non Iper” è malclassificato
SECONDO LIVELLO DI ANALISI: CANALE VARIABILI CONSIDERATE: “COOP” Numero di nodi terminali: 5 Tasso di corretta classificazione sul validation set: 68,98%
SECONDO LIVELLO DI ANALISI: CANALE VARIABILI CONSIDERATE: “COOP”
SECONDO LIVELLO DI ANALISI: CANALE VARIABILI CONSIDERATE: “COOP” Il nodo più numeroso risulta quello dei frequentatori dell’insegna Coop dell’area di Bologna (dove prevale Iper) Tra coloro che frequentano altre insegne nell’area di Bologna prevale il canale non Iper così come in Romagna-Marche e Veneto
SECONDO LIVELLO DI ANALISI: CANALE CANALE - VARIABILI CONSIDERATE “COOP” Il 35% dei frequentatori “Iper ” è malclassificato Il 29% dei frequentatori “Non Iper” è malclassificato
SECONDO LIVELLO DI ANALISI: CANALE VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE Numero di nodi terminali: 6 Tasso di corretta classificazione sul validation set: 68,98%
SECONDO LIVELLO DI ANALISI: CANALE VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE
SECONDO LIVELLO DI ANALISI: CANALE VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE Il nodo più numeroso risulta quello della zona Romagna-Marche In Veneto, Romagna – Marche e a Bologna (tra coloro che sono in possesso di un basso titolo di studio e con un solo componente in famiglia, quindi, presumibilmente, gli anziani) prevale il canale Non Iper Nell’area di Bologna, in famiglie con 3 componenti e basso titolo di studio così come tra coloro che hanno un titolo più alto, prevale il canale Iper
SECONDO LIVELLO DI ANALISI: CANALE CANALE - VARIABILI CONSIDERATE “SOCIO-DEMO” Il 53% dei frequentatori “Iper ” è malclassificato Il 19% dei frequentatori “Non Iper” è malclassificato
SECONDO LIVELLO DI ANALISI: CANALE CONFRONTO TRA MODELLI RISULTATI SIMILI PER I MODELLI TUTTI MODELLI RISULTANO MIGLIORI RISPETTO ALL’ESTRAZIONE CASUALE
SECONDO LIVELLO DI ANALISI: CANALE CONFRONTO TRA MODELLI IL MODELLO MIGLIORE E’ QUELLLO CHE CONSIDERA TUTTE LE VARIABILI (TASSO DI ERRATA CLASSIFICAZIONE 27,8%) ANCHE SE LE DIFFERNZE NON SONO COSI’ EVIDENTI
CONCLUSIONI: CANALE La segmentazione migliore è quella che utilizza tutte le variabili; il campione iniziale è segmentato in base alla variabile zona e soddisfazione per l’assortimento; in Veneto ed in Romagna-Marche prevale il canale non Iper ; nella zona di Bologna predomina il canale non Iper in caso di soddisfazione bassa dell’assortimento e il canale Iper in caso di soddisfazione alta o media dell’assortimento
SECONDO LIVELLO DI ANALISI: SOCIO VARIABILE TARGET: SOCIO SELEZIONE DELLE OSSERVAZIONI CON MODALITA’ “SI’” PER LA VARIABILE PRIMO_PV DISTRIBUZIONE SIMMETRICA DELLA VARIABILE TARGET: SI’ 50,90% NO 49,10% NUMERO DI OSSERVAZIONI: 1560
SECONDO LIVELLO DI ANALISI: SOCIO VARIABILI CONSIDERATE: TUTTE Numero di nodi terminali: 2 Tasso di corretta classificazione sul validation set: 88,78%
SECONDO LIVELLO DI ANALISI: SOCIO VARIABILI CONSIDERATE: TUTTE
SECONDO LIVELLO DI ANALISI: SOCIO VARIABILI CONSIDERATE: TUTTE Il nodo più numeroso risulta quello dei frequentatori l’insegna Coop Tra questi la percentuale di soci è notevolmente superiore rispetto a quella del training set chi frequenta altre insegne non è socio
SECONDO LIVELLO DI ANALISI: SOCIO SOCIO - VARIABILI CONSIDERATE “TUTTE” Il 25% dei “Non Soci” è malclassificato Nessun “Socio” è malclassificato
SECONDO LIVELLO DI ANALISI: SOCIO VARIABILI CONSIDERATE: SODDISFAZIONE Numero di nodi terminali: 3 Tasso di corretta classificazione sul validation set: 78,21%
SECONDO LIVELLO DI ANALISI: SOCIO VARIABILI CONSIDERATE: SODDISFAZIONE
SECONDO LIVELLO DI ANALISI: SOCIO VARIABILI CONSIDERATE: SODDISFAZIONE Il nodo più numeroso risulta quello dei clienti con soddisfazione generale medio-alta (56,7%) Tra questi la percentuale di soci è notevolmente superiore rispetto a quella del training set cioè i clienti maggiormente soddisfatti sono i soci
SECONDO LIVELLO DI ANALISI: SOCIO SOCIO - VARIABILI CONSIDERATE “SODDISFAZIONE” Il 21% dei “Non Soci” è malclassificato L’1% dei “Soci” è malclassificato
SECONDO LIVELLO DI ANALISI: SOCIO VARIABILI CONSIDERATE: “COOP” Numero di nodi terminali: 2 Tasso di corretta classificazione sul validation set: 88,78%
SECONDO LIVELLO DI ANALISI: SOCIO VARIABILI CONSIDERATE: “COOP”
SECONDO LIVELLO DI ANALISI: SOCIO VARIABILI CONSIDERATE: “COOP” Il nodo più numeroso risulta quello dei frequentatori l’insegna Coop Tra questi la percentuale di soci è notevolmente superiore rispetto a quella del training set chi frequenta altre insegne non è socio
SECONDO LIVELLO DI ANALISI: SOCIO SOCIO - VARIABILI CONSIDERATE “COOP” Il 25% dei “Non Soci” è malclassificato Nessun “Socio” è malclassificato
SECONDO LIVELLO DI ANALISI: SOCIO VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE Il tasso di corretta classificazione sul validation set è massimo in corrispondenza di un nodo terminale
SECONDO LIVELLO DI ANALISI: SOCIO VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE NESSUNA SEGMENTAZIONE
SECONDO LIVELLO DI ANALISI: SOCIO CONFRONTO TRA MODELLI I MODELLI MIGLIORI SONO ALL_SOCIO E COOP_SOCIO TUTTI MODELLI RISULTANO NETTAMENTE MIGLIORI RISPETTO ALL’ESTRAZIONE CASUALE
SECONDO LIVELLO DI ANALISI: SOCIO CONFRONTO TRA MODELLI I MODELLI MIGLIORI SONO QUELLI CHE CONSIDERANO TUTTE LE VARIABILI E LE VARIABILI “COOP” CON UN TASSO DI ERRATA CLASSIFICAZIONE DEL 11,2% . TALE TASSO E’ SOSTANZIALMENTE INFERIORE AL 45,5% DEL MODELLO CHE CONSIDERA LE VARIABILI SOCIO-DEMOGRAFICHE
CONCLUSIONI: SOCIO Si ripetono gli stessi risultati ottenuti nel primo livello di analisi (ovvero le variabili COOP permettono la migliore segmentazione); anche in questo caso le variabili socio-demografiche non sono utili ai fini della segmentazione; chi frequenta l’insegna COOP, nella stragrande maggioranza dei casi, è socio; chi frequenta altre insegne non lo è; I soci esprimono una soddisfazione generale medio-alta
FINE