Scaricare la presentazione
PubblicatoFerro Lentini Modificato 11 anni fa
1
ANALISI DI SEGMENTAZIONE: un’applicazione del metodo CHAID
PRESENTAZIONE A CURA DI : Chiara Cimini Miriam Gotti Alessandro Raspanti Marco Stella Dott.ssa Chiara Cimini Dott.ssa Miriam Gotti Dott.re Alessandro Raspanti Dott.re Marco Stella:
2
OBIETTIVO Suddividere un insieme di individui, intervistati presso distributori COOP, in funzione delle loro caratteristiche socio-demografiche, comportamentali e di giudizio
3
MODELLO Segmentazione multipla CHAID (Chi-squared Automatic Interaction Detection); Applicazione del test chi-quadro con l’obiettivo di massimizzare l’eterogeneità tra i gruppi e l’omogeneità entro i gruppi; Normalizzazione della significatività del chi-quadro mediante il fattore di Bonferroni, per rendere confrontabili situazioni che derivano da tabelle di contingenza diverse
4
ANALISI DEL DATASET Numero di osservazioni: 7200
Variabili suddivise in: variabili socio-demografiche ed economiche; punteggi di soddisfazione sul servizio di distribuzione; variabili “Coop”
5
ANALISI DEL DATASET Variabili socio-demografiche ed economiche:
sesso, età, professione, titolo di studio, stato civile, area di acquisto, numero componenti famiglia, numero minorenni, numero percettori reddito, numero occupati, numero auto possedute Punteggi di soddisfazione: generale, prezzi, promozioni, assortimento, personale e servizio, pulizia e igiene, qualità prodotti freschi, reparto ortofrutta, reparto carne, reparto pane e pasticceria, reparto salumi, formaggi e gastronomia, reparto pesce fresco, prodotti non food Variabili Coop: canale di vendita, socio/non socio, insegna, numero soci in famiglia, area di acquisto, preferenza su Coop
6
ANALISI DEL DATASET CATEGORIZZAZIONE DELLE VARIABILI
ETA’: <35, 36-50,51-65,>65 PROFESSIONE: 4 modalità TITOLO DI STUDIO: elementare-media inferiore, media superiore-università STATO CIVILE: celibe/nubile, sposato/a, vedovo/a NUMERO MINORENNI: 1, >1 Area di acquisto: Romagna e Marche, Veneto, Bologna NUMERO PERCETTORI REDDITO: 1, 2, >2 NUMERO OCCUPATI: modalità corrispondenti NUMERO AUTO POSSEDUTE: 1, >1 PUNTEGGI DI SODDISFAZIONE: bassa (da 1 a 7), media (8), alta (9,10) PREFERENZA SU COOP: si, no CANALE DI VENDITA: iper, non iper NUMERO SOCI IN FAMIGLIA: 1, >1
7
SCHEMA DEL PROGETTO
8
PRIMO LIVELLO DI ANALISI
TUTTE LE VARIABILI DISPONIBILI VARIABILE TARGET: PRIMO_PV DISTRIBUZIONE ASIMMETRICA DELLA VARIABILE TARGET (94,6% SI, 5,4% NO) CAMPIONAMENTO DELLA VARIABILE NELLA PROPORZIONE DI 80% E 20% NUMERO DI OSSERVAZIONI: 1950 SUDDIVISIONE DEL CAMPIONE IN TRAINING SET E VALIDATION SET (80% - 20%)
9
PRIMO LIVELLO DI ANALISI
VARIABILI CONSIDERATE: TUTTE Numero di nodi terminali: 4 Tasso di corretta classificazione sul validation set: 89,49%
10
PRIMO LIVELLO DI ANALISI
VARIABILI CONSIDERATE: TUTTE
11
PRIMO LIVELLO DI ANALISI
VARIABILI CONSIDERATE: TUTTE In termini relativi predomina chi frequenta insegne Coop In relazione alla variabile risposta primo_pv Coop il segmento con la percentuale maggiore è quello dei non soci che frequentano altre insegne
12
PRIMO LIVELLO DI ANALISI
PRIMO PV - VARIABILI CONSIDERATE TUTTE Nessun frequentatore di Coop come “Primo PV” è malclassificato Il 56% dei non frequentatori di Coop come “Primo PV” sono malclassificati
13
PRIMO LIVELLO DI ANALISI
VARIABILI CONSIDERATE: SODDISFAZIONE Il tasso di corretta classificazione risulta costante
14
PRIMO LIVELLO DI ANALISI
VARIABILI CONSIDERATE: SODDISFAZIONE NESSUNA SEGMENTAZIONE
15
PRIMO LIVELLO DI ANALISI
VARIABILI CONSIDERATE: “COOP” Numero di nodi terminali: 4 Tasso di corretta classificazione sul validation set: 89,49%
16
PRIMO LIVELLO DI ANALISI
VARIABILI CONSIDERATE: “COOP”
17
PRIMO LIVELLO DI ANALISI
VARIABILI CONSIDERATE: “COOP” In termini relativi predomina chi frequenta insegne Coop In relazione alla variabile risposta primo_pv Coop il segmento con la percentuale maggiore è quello dei non soci che frequentano altre insegne
18
PRIMO LIVELLO DI ANALISI
PRIMO PV - VARIABILI CONSIDERATE TUTTE Nessun frequentatore di Coop come “Primo PV” è malclassificato Il 56% dei non frequentatori di Coop come “Primo PV” sono malclassificati
19
PRIMO LIVELLO DI ANALISI
VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE Il tasso di corretta classificazione risulta costante fino alla foglia 8 e poi decresce
20
PRIMO LIVELLO DI ANALISI
VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE NESSUNA SEGMENTAZIONE
21
PRIMO LIVELLO DI ANALISI
CONFRONTO TRA MODELLI RISULTATI UGUALI PER I MODELLI “COOP” E “PPVTUTTE” LE VARIABILI DEMOGRAFICHE E SODDISFAZIONE NON GENERANO PARTIZIONI SIGNIFICATIVE
22
PRIMO LIVELLO DI ANALISI
CONFRONTO TRA MODELLI TASSO DI ERRATA CLASSIFICAZIONE MIGLIORE: 9,5% ( VARIABILI “TUTTE” E “COOP” )
23
CONCLUSIONI: primo livello
PRIMO PV Le variabili COOP sono quelle che generano la segmentazione migliore; le variabili socio-demografiche e quelle di soddisfazione non sono utili ai fini della segmentazione per la variabile target primo_pv; i soci scelgono COOP come primo punto vendita e tendono a frequentare l’insegna COOP; coloro che frequentano altre insegne sono prevalentemente i non soci anche se scelgono COOP come primo punto vendita;
24
SCHEMA DEL PROGETTO
25
SECONDO LIVELLO DI ANALISI: CANALE
VARIABILE TARGET: CANALE CREAZIONE NUOVO DATASET CONTENENTE SOLO LA MODALITA’ “SI’” PER LA VARIABILE PRIMO_PV DISTRIBUZIONE QUASI SIMMETRICA DELLA VARIABILE TARGET : IPER 31,28% NON IPER 47,82% MISSING 20,90% NUMERO DI OSSERVAZIONI: 1560
26
SECONDO LIVELLO DI ANALISI: CANALE
VARIABILI CONSIDERATE: TUTTE Numero di nodi terminali: 5 Tasso di corretta classificazione sul validation set: 72,24%
27
SECONDO LIVELLO DI ANALISI: CANALE
VARIABILI CONSIDERATE: TUTTE
28
SECONDO LIVELLO DI ANALISI: CANALE
VARIABILI CONSIDERATE: TUTTE Segmento più numeroso risulta essere quello della zona Romagna-Marche Prevale il canale non Iper in Veneto ed in Romagna-Marche (intero campione 59%); Segmentazione della zona di Bologna anche in base alla soddisfazione per l’assortimento canale Iper in caso di soddisfazione alta o media dell’assortimento Canale non Iper in caso di soddisfazione bassa dell’assortimento
29
SECONDO LIVELLO DI ANALISI: CANALE
CANALE - VARIABILI CONSIDERATE “TUTTE” Il 48% dei frequentatori “Iper ” è malclassificato Il 17% dei frequentatori “Non Iper” è malclassificato
30
SECONDO LIVELLO DI ANALISI: CANALE
VARIABILI CONSIDERATE: SODDISFAZIONE Numero di nodi terminali: 7 Tasso di corretta classificazione sul validation set: 68,98%
31
SECONDO LIVELLO DI ANALISI: CANALE
VARIABILI CONSIDERATE: SODDISFAZIONE
32
SECONDO LIVELLO DI ANALISI: CANALE
VARIABILI CONSIDERATE: SODDISFAZIONE Nel canale non Iper si registra una prevalenza di soddisfazione bassa per l’assortimento ma alta per il personale Al contrario nel canale Iper la soddisfazione per il personale è più bassa e quella per il pesce è più alta
33
SECONDO LIVELLO DI ANALISI: CANALE
CANALE - VARIABILI CONSIDERATE “SODDISFAZIONE” Il 46% dei frequentatori “Iper ” è malclassificato Il 23% dei frequentatori “Non Iper” è malclassificato
34
SECONDO LIVELLO DI ANALISI: CANALE
VARIABILI CONSIDERATE: “COOP” Numero di nodi terminali: 5 Tasso di corretta classificazione sul validation set: 68,98%
35
SECONDO LIVELLO DI ANALISI: CANALE
VARIABILI CONSIDERATE: “COOP”
36
SECONDO LIVELLO DI ANALISI: CANALE
VARIABILI CONSIDERATE: “COOP” Il nodo più numeroso risulta quello dei frequentatori dell’insegna Coop dell’area di Bologna (dove prevale Iper) Tra coloro che frequentano altre insegne nell’area di Bologna prevale il canale non Iper così come in Romagna-Marche e Veneto
37
SECONDO LIVELLO DI ANALISI: CANALE
CANALE - VARIABILI CONSIDERATE “COOP” Il 35% dei frequentatori “Iper ” è malclassificato Il 29% dei frequentatori “Non Iper” è malclassificato
38
SECONDO LIVELLO DI ANALISI: CANALE
VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE Numero di nodi terminali: 6 Tasso di corretta classificazione sul validation set: 68,98%
39
SECONDO LIVELLO DI ANALISI: CANALE
VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE
40
SECONDO LIVELLO DI ANALISI: CANALE
VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE Il nodo più numeroso risulta quello della zona Romagna-Marche In Veneto, Romagna – Marche e a Bologna (tra coloro che sono in possesso di un basso titolo di studio e con un solo componente in famiglia, quindi, presumibilmente, gli anziani) prevale il canale Non Iper Nell’area di Bologna, in famiglie con 3 componenti e basso titolo di studio così come tra coloro che hanno un titolo più alto, prevale il canale Iper
41
SECONDO LIVELLO DI ANALISI: CANALE
CANALE - VARIABILI CONSIDERATE “SOCIO-DEMO” Il 53% dei frequentatori “Iper ” è malclassificato Il 19% dei frequentatori “Non Iper” è malclassificato
42
SECONDO LIVELLO DI ANALISI: CANALE
CONFRONTO TRA MODELLI RISULTATI SIMILI PER I MODELLI TUTTI MODELLI RISULTANO MIGLIORI RISPETTO ALL’ESTRAZIONE CASUALE
43
SECONDO LIVELLO DI ANALISI: CANALE
CONFRONTO TRA MODELLI IL MODELLO MIGLIORE E’ QUELLLO CHE CONSIDERA TUTTE LE VARIABILI (TASSO DI ERRATA CLASSIFICAZIONE 27,8%) ANCHE SE LE DIFFERNZE NON SONO COSI’ EVIDENTI
44
CONCLUSIONI: CANALE La segmentazione migliore è quella che utilizza tutte le variabili; il campione iniziale è segmentato in base alla variabile zona e soddisfazione per l’assortimento; in Veneto ed in Romagna-Marche prevale il canale non Iper ; nella zona di Bologna predomina il canale non Iper in caso di soddisfazione bassa dell’assortimento e il canale Iper in caso di soddisfazione alta o media dell’assortimento
45
SECONDO LIVELLO DI ANALISI: SOCIO
VARIABILE TARGET: SOCIO SELEZIONE DELLE OSSERVAZIONI CON MODALITA’ “SI’” PER LA VARIABILE PRIMO_PV DISTRIBUZIONE SIMMETRICA DELLA VARIABILE TARGET: SI’ 50,90% NO 49,10% NUMERO DI OSSERVAZIONI: 1560
46
SECONDO LIVELLO DI ANALISI: SOCIO
VARIABILI CONSIDERATE: TUTTE Numero di nodi terminali: 2 Tasso di corretta classificazione sul validation set: 88,78%
47
SECONDO LIVELLO DI ANALISI: SOCIO
VARIABILI CONSIDERATE: TUTTE
48
SECONDO LIVELLO DI ANALISI: SOCIO
VARIABILI CONSIDERATE: TUTTE Il nodo più numeroso risulta quello dei frequentatori l’insegna Coop Tra questi la percentuale di soci è notevolmente superiore rispetto a quella del training set chi frequenta altre insegne non è socio
49
SECONDO LIVELLO DI ANALISI: SOCIO
SOCIO - VARIABILI CONSIDERATE “TUTTE” Il 25% dei “Non Soci” è malclassificato Nessun “Socio” è malclassificato
50
SECONDO LIVELLO DI ANALISI: SOCIO
VARIABILI CONSIDERATE: SODDISFAZIONE Numero di nodi terminali: 3 Tasso di corretta classificazione sul validation set: 78,21%
51
SECONDO LIVELLO DI ANALISI: SOCIO
VARIABILI CONSIDERATE: SODDISFAZIONE
52
SECONDO LIVELLO DI ANALISI: SOCIO
VARIABILI CONSIDERATE: SODDISFAZIONE Il nodo più numeroso risulta quello dei clienti con soddisfazione generale medio-alta (56,7%) Tra questi la percentuale di soci è notevolmente superiore rispetto a quella del training set cioè i clienti maggiormente soddisfatti sono i soci
53
SECONDO LIVELLO DI ANALISI: SOCIO
SOCIO - VARIABILI CONSIDERATE “SODDISFAZIONE” Il 21% dei “Non Soci” è malclassificato L’1% dei “Soci” è malclassificato
54
SECONDO LIVELLO DI ANALISI: SOCIO
VARIABILI CONSIDERATE: “COOP” Numero di nodi terminali: 2 Tasso di corretta classificazione sul validation set: 88,78%
55
SECONDO LIVELLO DI ANALISI: SOCIO
VARIABILI CONSIDERATE: “COOP”
56
SECONDO LIVELLO DI ANALISI: SOCIO
VARIABILI CONSIDERATE: “COOP” Il nodo più numeroso risulta quello dei frequentatori l’insegna Coop Tra questi la percentuale di soci è notevolmente superiore rispetto a quella del training set chi frequenta altre insegne non è socio
57
SECONDO LIVELLO DI ANALISI: SOCIO
SOCIO - VARIABILI CONSIDERATE “COOP” Il 25% dei “Non Soci” è malclassificato Nessun “Socio” è malclassificato
58
SECONDO LIVELLO DI ANALISI: SOCIO
VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE Il tasso di corretta classificazione sul validation set è massimo in corrispondenza di un nodo terminale
59
SECONDO LIVELLO DI ANALISI: SOCIO
VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE NESSUNA SEGMENTAZIONE
60
SECONDO LIVELLO DI ANALISI: SOCIO
CONFRONTO TRA MODELLI I MODELLI MIGLIORI SONO ALL_SOCIO E COOP_SOCIO TUTTI MODELLI RISULTANO NETTAMENTE MIGLIORI RISPETTO ALL’ESTRAZIONE CASUALE
61
SECONDO LIVELLO DI ANALISI: SOCIO
CONFRONTO TRA MODELLI I MODELLI MIGLIORI SONO QUELLI CHE CONSIDERANO TUTTE LE VARIABILI E LE VARIABILI “COOP” CON UN TASSO DI ERRATA CLASSIFICAZIONE DEL 11,2% . TALE TASSO E’ SOSTANZIALMENTE INFERIORE AL 45,5% DEL MODELLO CHE CONSIDERA LE VARIABILI SOCIO-DEMOGRAFICHE
62
CONCLUSIONI: SOCIO Si ripetono gli stessi risultati ottenuti nel primo livello di analisi (ovvero le variabili COOP permettono la migliore segmentazione); anche in questo caso le variabili socio-demografiche non sono utili ai fini della segmentazione; chi frequenta l’insegna COOP, nella stragrande maggioranza dei casi, è socio; chi frequenta altre insegne non lo è; I soci esprimono una soddisfazione generale medio-alta
63
FINE
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.