La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

ANALISI DI SEGMENTAZIONE: un’applicazione del metodo CHAID

Presentazioni simili


Presentazione sul tema: "ANALISI DI SEGMENTAZIONE: un’applicazione del metodo CHAID"— Transcript della presentazione:

1 ANALISI DI SEGMENTAZIONE: un’applicazione del metodo CHAID
PRESENTAZIONE A CURA DI : Chiara Cimini Miriam Gotti Alessandro Raspanti Marco Stella Dott.ssa Chiara Cimini Dott.ssa Miriam Gotti Dott.re Alessandro Raspanti Dott.re Marco Stella:

2 OBIETTIVO Suddividere un insieme di individui, intervistati presso distributori COOP, in funzione delle loro caratteristiche socio-demografiche, comportamentali e di giudizio

3 MODELLO Segmentazione multipla CHAID (Chi-squared Automatic Interaction Detection); Applicazione del test chi-quadro con l’obiettivo di massimizzare l’eterogeneità tra i gruppi e l’omogeneità entro i gruppi; Normalizzazione della significatività del chi-quadro mediante il fattore di Bonferroni, per rendere confrontabili situazioni che derivano da tabelle di contingenza diverse

4 ANALISI DEL DATASET Numero di osservazioni: 7200
Variabili suddivise in: variabili socio-demografiche ed economiche; punteggi di soddisfazione sul servizio di distribuzione; variabili “Coop”

5 ANALISI DEL DATASET Variabili socio-demografiche ed economiche:
sesso, età, professione, titolo di studio, stato civile, area di acquisto, numero componenti famiglia, numero minorenni, numero percettori reddito, numero occupati, numero auto possedute Punteggi di soddisfazione: generale, prezzi, promozioni, assortimento, personale e servizio, pulizia e igiene, qualità prodotti freschi, reparto ortofrutta, reparto carne, reparto pane e pasticceria, reparto salumi, formaggi e gastronomia, reparto pesce fresco, prodotti non food Variabili Coop: canale di vendita, socio/non socio, insegna, numero soci in famiglia, area di acquisto, preferenza su Coop

6 ANALISI DEL DATASET CATEGORIZZAZIONE DELLE VARIABILI
ETA’: <35, 36-50,51-65,>65 PROFESSIONE: 4 modalità TITOLO DI STUDIO: elementare-media inferiore, media superiore-università STATO CIVILE: celibe/nubile, sposato/a, vedovo/a NUMERO MINORENNI: 1, >1 Area di acquisto: Romagna e Marche, Veneto, Bologna NUMERO PERCETTORI REDDITO: 1, 2, >2 NUMERO OCCUPATI: modalità corrispondenti NUMERO AUTO POSSEDUTE: 1, >1 PUNTEGGI DI SODDISFAZIONE: bassa (da 1 a 7), media (8), alta (9,10) PREFERENZA SU COOP: si, no CANALE DI VENDITA: iper, non iper NUMERO SOCI IN FAMIGLIA: 1, >1

7 SCHEMA DEL PROGETTO

8 PRIMO LIVELLO DI ANALISI
TUTTE LE VARIABILI DISPONIBILI VARIABILE TARGET: PRIMO_PV DISTRIBUZIONE ASIMMETRICA DELLA VARIABILE TARGET (94,6% SI, 5,4% NO) CAMPIONAMENTO DELLA VARIABILE NELLA PROPORZIONE DI 80% E 20% NUMERO DI OSSERVAZIONI: 1950 SUDDIVISIONE DEL CAMPIONE IN TRAINING SET E VALIDATION SET (80% - 20%)

9 PRIMO LIVELLO DI ANALISI
VARIABILI CONSIDERATE: TUTTE Numero di nodi terminali: 4 Tasso di corretta classificazione sul validation set: 89,49%

10 PRIMO LIVELLO DI ANALISI
VARIABILI CONSIDERATE: TUTTE

11 PRIMO LIVELLO DI ANALISI
VARIABILI CONSIDERATE: TUTTE In termini relativi predomina chi frequenta insegne Coop In relazione alla variabile risposta primo_pv Coop il segmento con la percentuale maggiore è quello dei non soci che frequentano altre insegne

12 PRIMO LIVELLO DI ANALISI
PRIMO PV - VARIABILI CONSIDERATE TUTTE Nessun frequentatore di Coop come “Primo PV” è malclassificato Il 56% dei non frequentatori di Coop come “Primo PV” sono malclassificati

13 PRIMO LIVELLO DI ANALISI
VARIABILI CONSIDERATE: SODDISFAZIONE Il tasso di corretta classificazione risulta costante

14 PRIMO LIVELLO DI ANALISI
VARIABILI CONSIDERATE: SODDISFAZIONE NESSUNA SEGMENTAZIONE

15 PRIMO LIVELLO DI ANALISI
VARIABILI CONSIDERATE: “COOP” Numero di nodi terminali: 4 Tasso di corretta classificazione sul validation set: 89,49%

16 PRIMO LIVELLO DI ANALISI
VARIABILI CONSIDERATE: “COOP”

17 PRIMO LIVELLO DI ANALISI
VARIABILI CONSIDERATE: “COOP” In termini relativi predomina chi frequenta insegne Coop In relazione alla variabile risposta primo_pv Coop il segmento con la percentuale maggiore è quello dei non soci che frequentano altre insegne

18 PRIMO LIVELLO DI ANALISI
PRIMO PV - VARIABILI CONSIDERATE TUTTE Nessun frequentatore di Coop come “Primo PV” è malclassificato Il 56% dei non frequentatori di Coop come “Primo PV” sono malclassificati

19 PRIMO LIVELLO DI ANALISI
VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE Il tasso di corretta classificazione risulta costante fino alla foglia 8 e poi decresce

20 PRIMO LIVELLO DI ANALISI
VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE NESSUNA SEGMENTAZIONE

21 PRIMO LIVELLO DI ANALISI
CONFRONTO TRA MODELLI RISULTATI UGUALI PER I MODELLI “COOP” E “PPVTUTTE” LE VARIABILI DEMOGRAFICHE E SODDISFAZIONE NON GENERANO PARTIZIONI SIGNIFICATIVE

22 PRIMO LIVELLO DI ANALISI
CONFRONTO TRA MODELLI TASSO DI ERRATA CLASSIFICAZIONE MIGLIORE: 9,5% ( VARIABILI “TUTTE” E “COOP” )

23 CONCLUSIONI: primo livello
PRIMO PV Le variabili COOP sono quelle che generano la segmentazione migliore; le variabili socio-demografiche e quelle di soddisfazione non sono utili ai fini della segmentazione per la variabile target primo_pv; i soci scelgono COOP come primo punto vendita e tendono a frequentare l’insegna COOP; coloro che frequentano altre insegne sono prevalentemente i non soci anche se scelgono COOP come primo punto vendita;

24 SCHEMA DEL PROGETTO

25 SECONDO LIVELLO DI ANALISI: CANALE
VARIABILE TARGET: CANALE CREAZIONE NUOVO DATASET CONTENENTE SOLO LA MODALITA’ “SI’” PER LA VARIABILE PRIMO_PV DISTRIBUZIONE QUASI SIMMETRICA DELLA VARIABILE TARGET : IPER 31,28% NON IPER 47,82% MISSING 20,90% NUMERO DI OSSERVAZIONI: 1560

26 SECONDO LIVELLO DI ANALISI: CANALE
VARIABILI CONSIDERATE: TUTTE Numero di nodi terminali: 5 Tasso di corretta classificazione sul validation set: 72,24%

27 SECONDO LIVELLO DI ANALISI: CANALE
VARIABILI CONSIDERATE: TUTTE

28 SECONDO LIVELLO DI ANALISI: CANALE
VARIABILI CONSIDERATE: TUTTE Segmento più numeroso risulta essere quello della zona Romagna-Marche Prevale il canale non Iper in Veneto ed in Romagna-Marche (intero campione 59%); Segmentazione della zona di Bologna anche in base alla soddisfazione per l’assortimento canale Iper in caso di soddisfazione alta o media dell’assortimento Canale non Iper in caso di soddisfazione bassa dell’assortimento

29 SECONDO LIVELLO DI ANALISI: CANALE
CANALE - VARIABILI CONSIDERATE “TUTTE” Il 48% dei frequentatori “Iper ” è malclassificato Il 17% dei frequentatori “Non Iper” è malclassificato

30 SECONDO LIVELLO DI ANALISI: CANALE
VARIABILI CONSIDERATE: SODDISFAZIONE Numero di nodi terminali: 7 Tasso di corretta classificazione sul validation set: 68,98%

31 SECONDO LIVELLO DI ANALISI: CANALE
VARIABILI CONSIDERATE: SODDISFAZIONE

32 SECONDO LIVELLO DI ANALISI: CANALE
VARIABILI CONSIDERATE: SODDISFAZIONE Nel canale non Iper si registra una prevalenza di soddisfazione bassa per l’assortimento ma alta per il personale Al contrario nel canale Iper la soddisfazione per il personale è più bassa e quella per il pesce è più alta

33 SECONDO LIVELLO DI ANALISI: CANALE
CANALE - VARIABILI CONSIDERATE “SODDISFAZIONE” Il 46% dei frequentatori “Iper ” è malclassificato Il 23% dei frequentatori “Non Iper” è malclassificato

34 SECONDO LIVELLO DI ANALISI: CANALE
VARIABILI CONSIDERATE: “COOP” Numero di nodi terminali: 5 Tasso di corretta classificazione sul validation set: 68,98%

35 SECONDO LIVELLO DI ANALISI: CANALE
VARIABILI CONSIDERATE: “COOP”

36 SECONDO LIVELLO DI ANALISI: CANALE
VARIABILI CONSIDERATE: “COOP” Il nodo più numeroso risulta quello dei frequentatori dell’insegna Coop dell’area di Bologna (dove prevale Iper) Tra coloro che frequentano altre insegne nell’area di Bologna prevale il canale non Iper così come in Romagna-Marche e Veneto

37 SECONDO LIVELLO DI ANALISI: CANALE
CANALE - VARIABILI CONSIDERATE “COOP” Il 35% dei frequentatori “Iper ” è malclassificato Il 29% dei frequentatori “Non Iper” è malclassificato

38 SECONDO LIVELLO DI ANALISI: CANALE
VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE Numero di nodi terminali: 6 Tasso di corretta classificazione sul validation set: 68,98%

39 SECONDO LIVELLO DI ANALISI: CANALE
VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE

40 SECONDO LIVELLO DI ANALISI: CANALE
VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE Il nodo più numeroso risulta quello della zona Romagna-Marche In Veneto, Romagna – Marche e a Bologna (tra coloro che sono in possesso di un basso titolo di studio e con un solo componente in famiglia, quindi, presumibilmente, gli anziani) prevale il canale Non Iper Nell’area di Bologna, in famiglie con 3 componenti e basso titolo di studio così come tra coloro che hanno un titolo più alto, prevale il canale Iper

41 SECONDO LIVELLO DI ANALISI: CANALE
CANALE - VARIABILI CONSIDERATE “SOCIO-DEMO” Il 53% dei frequentatori “Iper ” è malclassificato Il 19% dei frequentatori “Non Iper” è malclassificato

42 SECONDO LIVELLO DI ANALISI: CANALE
CONFRONTO TRA MODELLI RISULTATI SIMILI PER I MODELLI TUTTI MODELLI RISULTANO MIGLIORI RISPETTO ALL’ESTRAZIONE CASUALE

43 SECONDO LIVELLO DI ANALISI: CANALE
CONFRONTO TRA MODELLI IL MODELLO MIGLIORE E’ QUELLLO CHE CONSIDERA TUTTE LE VARIABILI (TASSO DI ERRATA CLASSIFICAZIONE 27,8%) ANCHE SE LE DIFFERNZE NON SONO COSI’ EVIDENTI

44 CONCLUSIONI: CANALE La segmentazione migliore è quella che utilizza tutte le variabili; il campione iniziale è segmentato in base alla variabile zona e soddisfazione per l’assortimento; in Veneto ed in Romagna-Marche prevale il canale non Iper ; nella zona di Bologna predomina il canale non Iper in caso di soddisfazione bassa dell’assortimento e il canale Iper in caso di soddisfazione alta o media dell’assortimento

45 SECONDO LIVELLO DI ANALISI: SOCIO
VARIABILE TARGET: SOCIO SELEZIONE DELLE OSSERVAZIONI CON MODALITA’ “SI’” PER LA VARIABILE PRIMO_PV DISTRIBUZIONE SIMMETRICA DELLA VARIABILE TARGET: SI’ 50,90% NO 49,10% NUMERO DI OSSERVAZIONI: 1560

46 SECONDO LIVELLO DI ANALISI: SOCIO
VARIABILI CONSIDERATE: TUTTE Numero di nodi terminali: 2 Tasso di corretta classificazione sul validation set: 88,78%

47 SECONDO LIVELLO DI ANALISI: SOCIO
VARIABILI CONSIDERATE: TUTTE

48 SECONDO LIVELLO DI ANALISI: SOCIO
VARIABILI CONSIDERATE: TUTTE Il nodo più numeroso risulta quello dei frequentatori l’insegna Coop Tra questi la percentuale di soci è notevolmente superiore rispetto a quella del training set chi frequenta altre insegne non è socio

49 SECONDO LIVELLO DI ANALISI: SOCIO
SOCIO - VARIABILI CONSIDERATE “TUTTE” Il 25% dei “Non Soci” è malclassificato Nessun “Socio” è malclassificato

50 SECONDO LIVELLO DI ANALISI: SOCIO
VARIABILI CONSIDERATE: SODDISFAZIONE Numero di nodi terminali: 3 Tasso di corretta classificazione sul validation set: 78,21%

51 SECONDO LIVELLO DI ANALISI: SOCIO
VARIABILI CONSIDERATE: SODDISFAZIONE

52 SECONDO LIVELLO DI ANALISI: SOCIO
VARIABILI CONSIDERATE: SODDISFAZIONE Il nodo più numeroso risulta quello dei clienti con soddisfazione generale medio-alta (56,7%) Tra questi la percentuale di soci è notevolmente superiore rispetto a quella del training set cioè i clienti maggiormente soddisfatti sono i soci

53 SECONDO LIVELLO DI ANALISI: SOCIO
SOCIO - VARIABILI CONSIDERATE “SODDISFAZIONE” Il 21% dei “Non Soci” è malclassificato L’1% dei “Soci” è malclassificato

54 SECONDO LIVELLO DI ANALISI: SOCIO
VARIABILI CONSIDERATE: “COOP” Numero di nodi terminali: 2 Tasso di corretta classificazione sul validation set: 88,78%

55 SECONDO LIVELLO DI ANALISI: SOCIO
VARIABILI CONSIDERATE: “COOP”

56 SECONDO LIVELLO DI ANALISI: SOCIO
VARIABILI CONSIDERATE: “COOP” Il nodo più numeroso risulta quello dei frequentatori l’insegna Coop Tra questi la percentuale di soci è notevolmente superiore rispetto a quella del training set chi frequenta altre insegne non è socio

57 SECONDO LIVELLO DI ANALISI: SOCIO
SOCIO - VARIABILI CONSIDERATE “COOP” Il 25% dei “Non Soci” è malclassificato Nessun “Socio” è malclassificato

58 SECONDO LIVELLO DI ANALISI: SOCIO
VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE Il tasso di corretta classificazione sul validation set è massimo in corrispondenza di un nodo terminale

59 SECONDO LIVELLO DI ANALISI: SOCIO
VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE NESSUNA SEGMENTAZIONE

60 SECONDO LIVELLO DI ANALISI: SOCIO
CONFRONTO TRA MODELLI I MODELLI MIGLIORI SONO ALL_SOCIO E COOP_SOCIO TUTTI MODELLI RISULTANO NETTAMENTE MIGLIORI RISPETTO ALL’ESTRAZIONE CASUALE

61 SECONDO LIVELLO DI ANALISI: SOCIO
CONFRONTO TRA MODELLI I MODELLI MIGLIORI SONO QUELLI CHE CONSIDERANO TUTTE LE VARIABILI E LE VARIABILI “COOP” CON UN TASSO DI ERRATA CLASSIFICAZIONE DEL 11,2% . TALE TASSO E’ SOSTANZIALMENTE INFERIORE AL 45,5% DEL MODELLO CHE CONSIDERA LE VARIABILI SOCIO-DEMOGRAFICHE

62 CONCLUSIONI: SOCIO Si ripetono gli stessi risultati ottenuti nel primo livello di analisi (ovvero le variabili COOP permettono la migliore segmentazione); anche in questo caso le variabili socio-demografiche non sono utili ai fini della segmentazione; chi frequenta l’insegna COOP, nella stragrande maggioranza dei casi, è socio; chi frequenta altre insegne non lo è; I soci esprimono una soddisfazione generale medio-alta

63 FINE


Scaricare ppt "ANALISI DI SEGMENTAZIONE: un’applicazione del metodo CHAID"

Presentazioni simili


Annunci Google