La Grande Distribuzione MISSION (extract): defend the family budget, offering quality goods and services at the best condition promote the spirit of solidarity.

Slides:



Advertisements
Presentazioni simili
Premessa: si assume di aver risolto (correttamente
Advertisements

Titolo presentazione 25/03/2017
Ricorsione in SQL-99.
Introduzione ai grafi Grafo diretto e non diretto
Sistemi di Classificazione usando NCD
Introduzione al datawarehouse
Generazione di Piani attraverso Grafi di Pianificazione
Sistemi di supporto alle decisioni 2. Features space
CLUSTER ANALYSIS Insieme di tecniche con l’obiettivo di unire le unità di un insieme statistico in un numero finito di classi o gruppi i quali devono.
Gli errori nell’analisi statistica
Workshop «La misura dellinflazione per classi di spesa delle famiglie» Istat - Aula Magna, Roma,10 Maggio 2013 La misura dellinflazione per classi di spesa.
Identificazione delle attività
Apprendimento Non Supervisionato
Analisi e sintesi di circuiti combinatori
La marca del distributore
PROGETTI DI SISTEMI INFORMATIVI DIREZIONALI
Seminario su clustering dei dati – Parte I
Tecniche e algoritmi di base per l’estrazione di conoscenza
CONTENUTI DEL DOCUMENTO
Analisi dei gruppi – Cluster Analisys
Chapter 14, Hastie , Tibshirani and Friedman
Intelligenza Artificiale
STATISTICA PER LE DECISIONI DI MARKETING
PARTE SECONDA: Reti Senza Fili
Algoritmi e Strutture Dati
PARTE PRIMA: Reti Cablate
MIGRAZIONE DELLA SISMICITA DURANTE LA SEQUENZA DI PIETRALUNGA DEL 2010 [Very detailed seismic pattern and migration inferred from the April 2010 Pietralunga.
CLUSTERING WITH WEKA Branca Stefano Dosi Clio Gnudi Edward William.
Web Communities and their identificaton
COMUNICAZIONE ONLINE, RETI E VIRTUALITA MATTEO CRISTANI.
ROCK A Robust Clustering Algorithm for Categorical Attributes Sudipto Guha, Rajeev Rastogi, Kyuseok Shim Sistemi Informativi per le Decisioni a.a. 2005/2006.
Metaclassificazione Giovedì, 18 novembre 2004 Francesco Folino ( Combinare Classificatori Lecture 8.
Alberi di copertura minimi. Dato un grafo pesato G = (V,E), si richiede di trovare un albero T = (V,E’), E’  E, tale che la somma dei pesi associati.
Gruppo 2 17 marzo 2006 Sistemi informativi per le decisioni Mining the stock market: which measure is best? M.Gavrilov D.Anguelov P.Indyk R.Motwani.
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl 1 Strutture dati per.
4 < 12 5 > −3 a < b a > b a ≤ b a ≥ b
5 C A P I T O L O 5 Marketing J. Paul Peter James H. Donnelly, Jr. La segmentazione del mercato.
Capitolo 13 Cammini minimi: Ordinamento topologico Algoritmi e Strutture Dati.
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
Claudio Arbib Università dell’Aquila Ricerca Operativa Metodo del simplesso per problemi di distribuzione single-commodity.
Sistemi basati su conoscenza Metodi di ricerca informata Prof. M.T. PAZIENZA a.a
Cap I canali distributivi
L’attività di Customer Profiling Alberto Saccardi Milano, 14 ottobre 2008.
Flusso di Costo Minimo Trasformazioni Equivalenti e Trasformazioni Inverse Viene data la seguente rete di flusso, in cui i valori riportati vicino agli.
Automi temporizzati.
Flusso di Costo Minimo Applicazione di algoritmi: Cammini Minimi Successivi (SSP) Esercizio 1 Sia data la seguente rete di flusso, in cui i valori riportati.
Un’applicazione della segmentazione a priori: l’algoritmo CHAID
Lo scenario dei consumi e del retail in Italia
Titolo: Sistemi di bigliettazione elettronica: analisi dati e data mining Relatore: Andrea Gaffi.
DATA MINING PER IL MARKETING Andrea Cerioli Sito web del corso GLI ALBERI DI CLASSIFICAZIONE Introduzione alla metodologia Zani-Cerioli,
Work Breakdown Structure Diagramma di Gantt PERT/CPM
Confidential – graphic materials for illustration only Scopri il nuovo webshop di Lyreco Design moderno e nuove funzioni!
La Grande Distribuzione MISSION (extract): defend the family budget, offering quality goods and services at the best condition promote the spirit of solidarity.
22 settembre 2015 – L’innovazione per nutrire il pianeta – Milano L’INNOVAZIONE PER NUTRIRE IL PIANETA: A cura di: Alessandra Cavanna e Elisabetta Baraggioni.
Le politiche di prodotto
REALIZZAZIONE DI UN SISTEMA DI CLASSIFICAZIONE Prof. Roberto Tagliaferri Studente: Ragognetti Gianmarco Corso di Reti Neurali e Knowledge Discovery A.A.
SMART GRID: Predictive analytics per i consumi energetici Ing. Luca Ghelardoni DITEN – Department of Information Technology Electrical.
Wind Waves Stewart: Capitolo 16.. Deep- and Shallow-Water Motion.
OTTIMIZZAZIONE DI UN PERCORSO GRAFO CAMMINO MINIMO.
Comune di Lurate Caccivio Assessorato all’Ambiente e alla Partecipazione in collaborazione con Commissione Ambiente ed Ecologia AVVISO IMPORTANTE.
I modelli di offerta per i sistemi di trasporto Corso di Progettazione dei Sistemi di Trasporto Prof. B. Montella a. a. 2015/16.
Le politiche di prodotto. 2 Il prodotto è un sistema di attributi tangibili ed intangibili che rappresenta una piattaforma potenziale per la creazione.
Self-Organizing Map (SOM Kohonen, 1981) è una tecnica di visualizzazione dei dati multidimensionali SOM è una mappa mono- (bi-)dimensionale che rappresenta.
APPLICAZIONE DELLA SNA IN SANITA’* 1. PROGETTAZIONE E MODELLI DI ORGANIZZAZIONI SANITARIE (OSPEDALI, UNITA’ OSPEDALIERE E DIPARTIMENTI) 2.FRUIZIONE DEI.
Lezioni di Ricerca Operativa Corso di Laurea in Informatica
Presentazione 2009/ : (continua) il miglioramento della banca dati INEA Brevi cenni sulle dinamiche del 2010 e dei primi 9 mesi del
Data warehouse(B.2.8) Nei database ci sono molti dati di tipo diverso e ciascuna tipologia di dato può avere un formato diverso. Alcuni provengono da legacy.
Algoritmi Avanzati a.a.2014/2015 Prof.ssa Rossella Petreschi Lezione n°9.
Transcript della presentazione:

La Grande Distribuzione MISSION (extract): defend the family budget, offering quality goods and services at the best condition promote the spirit of solidarity among customers, employees and their families, offering for their free time socially useful initiatives protect health and safety of consumers help developing Nations and weaker social categories, even through Fair Trade […]

Qualche numero Oltre 7 anni di venduto (dal 1/1/2007 fino ad Aprile 2014) ~1 M di clienti attivi e riconoscibili 138 negozi (Toscana, Umbria, Lazio, Campania) ~450K diversi tipi di prodotti ~280M di scontrini ~280G di scansioni

La distribuzione dei clienti e dei negozi

Il Data Warehouse (1)

Il Data Warehouse (2)

Il Data Warehouse (3)

La gerarchia Marketing Area – 3 valori Macrosettore – 4 valori Settore – 13 valori Reparto – 76 valori Categoria – 529 valori Sottocategoria – 2665 valori Segmento – 7656 valori Articolo – valori

La gerarchia Marketing - Esempi AreaMacrosettoreSettore Alimentari Freschi Freschissimi Generi variGrocery Alimentari Altro Confezionato per vendita Erogazione carburanti Iniziative speciali Non definito Non alimentariNo Food Casa Chimica Multimedia Persona Salute Stagionali e Brico AreaAlimentari MacrosettoreGeneri vari SettoreGrocery alimentari RepartoLiquidi CategoriaBibite SottocategoriaCole SegmentoDecaffeinata Esempio: coche decaffeinate COCA-COLA SENZA CAFFEINA LATTINA ML.330X6 COCA COLA SENZA CAFFEINA BOTTIGLIA PET ML.500 COCA COLA SENZA CAFFEINA LATTINA ML.330 COCA COLA SENZA CAFFEINA PET LT.1,5 COCA-COLA SENZA CAFFEINA LATTINA ML.330 COCA COLA SENZA CAFFEINA PET ML.500X4 COCA COLA SENZA CAFFEINA LATTINA ML.330 X6 COCA COLA SENZA CAFFEINA PET LT. 1,5 + ML. 250 OMAGGIO BIBITA COCA COLA SENZA CAFFEINA CLUSTER LT.1,5 X 6 COLA SENZA CAFFEINA COOP NO COLOR. NUOVA RICETTA BOTTIGLIA PET LT 1,5 COLA SENZA CAFFEINA COOP PET. LT. 1,5 COLA SENZA CAFFEINA HAPPYHAND PET LT 1,5 COLA SENZA CAFFEINA PERLA PET 1,5 L BIBITA PEPSI BOOM JUNIOR PET ML.330X4 BIBITA PEPSI BOOM PET LT.1,5 PEPSI BOOM PET LT.2 BIBITA PEPSI BOOM LATTINA ML. 330 I primi 3 livelli

I Dati …

Diego Pennacchioli, Michele Coscia, Dino Pedreschi. Overlap Versus Partition: Marketing Classification and Customer Profiling in Complex Networks of Products. Data Engineering Workshop (ICDEW) Classificazione di prodotti utilizzando analisi di reti complesse e community discovery

Obiettivo di analisi: utilizzare gli strumenti di Complex Networks Analysis per far emergere una classificazione dei prodotti “data driven”, basata sulla frequenza con cui questi vengono comprati insieme. Strumenti Utilizzati: – 2 algoritmi di Community Discovery (Infomap e HLC) – Misura di Entropia per valutazione comunità

Data Preparation Venduto COOP Filtri: – Esclusi articoli venduti in una singola provincia o in un singolo punto vendita – Considerati i 6 articoli più venduti per ognuno dei segmenti – Vendite nel biennio ProdottoScontrino A1 B1 C1 A2 D2

Dimensioni dataset: – battute di cassa – scontrini – prodotti Rete di prodotti A B C D A B A C B C A D

Data Preparation (cnt) Problema: le relazioni sono poco significative, in quanto vengono modellate indipendentemente dal numero di scontrini in cui i due prodotti appaiono Filtro archi: si utlizza una misura di interesse

Dataset di sperimentazione Finito il Data Preparation, il dataset di sperimentazione è modellato con una rete di prodotti, dove gli archi rappresentano un acquisto “significativo” dei due prodotti contemporaneamente.

Sperimentazione: community discovery Il community discovery è l’attività di cercare gruppi di nodi fortemente connessi tra loro all’interno di una rete. Vengono usati due algoritmi che si distinguono per il tipo di community che restituiscono: – Infomap: community non overlapping (un nodo può appartenere ad una sola community, quindi restituisce un partizionamento della rete) – HLC: community overlapping (un nodo può appartenere a più community)

Risultati Community Discovery community non overlapping con Infomap community overlapping con HLC A questo punto, si sfrutta la classificazione fornita da COOP (tabella marketing) per valutare le community estratte

Valutazione Per la valutazione, si utilizza la misura di entropia informativa Misura il grado di disordine delle community rispetto alla classificazione marketing degli articoli Comunità non overlapping: bassa entropia (i prodotti appartengono alla stessa classificazione marketing) Comunità overlapping: alta entropia (le comunità contengono prodotti “disomogenei”)

Esempi Non overlapping: prodotti per gatti

Esempi Non overlapping: prodotti per cani

Esempi Overlapping: prodotti per celiaci

Esempi Overlapping: profilo di famiglia che predilige divertimenti indoor e lo sci

Analisi di pattern individuali di acquisto nella Grande Distribuzione

Obiettivo di analisi: realizzare un modello di segmentazione dei clienti basato sulla sistematicità degli acquisti. Tale sistematicità viene calcolata utilizzando due componenti: livello di regolarità dei prodotti nel carrello e livello di regolarità della componente spazio- temporale.

Data Preparation Filtro sulla dimensionalità dei dati – Si considera il solo venduto nell’anno 2012 – Si considerano i soli negozi della provincia di Livorno – Si considerano solo i clienti frequenti (che abbiano fatto almeno una spesa al mese)

Data Preparation (cnt) Dimensioni del dataset dopo il filtro – scansioni – clienti – articoli distinti – 23 negozi (1 Iper, 9 Super e 13 GestIn)

Data Preparation (cnt) Per il calcolo del BRI (indice di regolarità del carrello) bisogna applicare aPriori, quindi i dati vanno trasformati, per ogni cliente, da formato relazionale a formato transazionale ScontrinoProdotto 1A 1B 1C 1D 2A 2D 2F ScontrinoLista Prodotti 1A B C D 2A D F

Il Basket Regularity Index (BRI) Starting from a set of baskets

Il Basket Regularity Index (cnt) Performing Frequent Pattern Mining (min supp=3) Sup=5 Sup=4 Sup=3

Il Basket Regularity Index (BRI) Each basket will support the longest pattern contained The n most supported pattern will represent typical purchase(s). Moreover, it is possible to aggregate supports in a measure describing the Basket Regularity Index (BRI) of the customer 4 1

Il Basket Regularity Index (BRI) The BRI is the information Entropy calculated among all the supported patterns 4 1

Lo Spatio-Temporal Regularity Index (STRI) Si salta il passaggio con aPriori, in quanto le informazioni sono più riassunte Si costruiscono triple contenenti informazioni su: – Negozio dove si è fatta la spesa – Tipo di giorno in cui si è fatta la spesa (feriale-festivo) – Fascia Oraria in cui si è fatta la spesa (mattina presto, tarda mattinata, primo pomeriggio, secondo pomeriggio, sera) Per ogni cliente, si calcola l’entropia su tali triple

Analisi: segmentazione Ad ogni cliente, quindi, sarà associata una coppia di indici (BRI e STRI) Queste coppie di indici possono essere riportate su un piano e sulle stesse possono essere applicati degli algoritmi di clustering In questo modo, la clientela verrà segmentata in base alla loro propensione ad essere sistematici per una delle due componenti principali del processo di spesa (cosa compro e quando/dove compro)

Analisi: segmentazione (cnt)

Tot importiTot scontrini Importi medi Scontrini medi

Analisi degli indici BRI STRI

Il 60% dei bi-sistematici compra ZUCCHINE SCURE IT I^ SF PESCHE GIALLE IT AA I^ SF POMODORI OBLUNGO VERDE IT I^ SF POMODORI CILIEGINO IT I^ VH G 500 POMODORI ROSSO GRAPPOLO IT I^ SF BANANE COOP ES 19+ I^ SF UOVA FRESCHE ALLEVAM A TERRA M COOP POLPA LEGNO X6 PREZZEMOLO G. 70 CA IT MAZZI SFUSO PP-ZUCCHERO SEMOLATO ITALIA ZUCCHERI SCATOLA KG 1 MELONE SEMIRETATO IT I^ SF SCONTO FIDELITY 1000 PUNTI RIVISTA 'NUOVO CONSUMO' UOVA EXTRA FRESCHE ALLEVAM A TERRA L COOP POLPA LEGNO X6 POM.OBL.ROSSO IT30-35 I^ SF POM.TONDO LISCIO IT I^SF ZUCCHINE CHIARE FIORE IT I^ SF FINOCCHI IT 8-10 I^ SF SHOPPER COMPOSTABILE BIOFLEX ST.COOP

“It’s a long way to the top” Predicting success via innovators’ adoption Giulio Rosetti, Diego Pennacchioli, Letizia Milli, Fosca Giannotti, Dino Pedreschi “It’s a Long way to the top” Predicting Success via Innovators

“It’s a long way to the top” Predicting success via innovators’ adoptions Obiettivo di analisi: esistono consumatori “speciali” che hanno una propensione ad adottare nuovi prodotti/tecnologie prima di altri? Tra questi, esiste un sottogruppo con un “sesto senso” per prodotti che avranno successo?

Punto di partenza Rogers identifica le caratteristiche distintive di ogni tipo di adopter Si assume che la distribuzione temporale degli Adopters segua una distribuzione normale Gli innovatori sono i primi 2.5% tra gli adopters...ma è realmente così?

Data Preparation Per studiare le adozioni, occorre modellare i dati con serie temporali ProdottoClienteUnità temporale 1AU1 1BU2 1CU1 2CU2 2D 2AU4 2E ProdottoSerie Temporale 1, 2,,

Hit and Flop: definizioni Un Hit è un bene il cui trend di adozione cresce lentamente nel tempo fino a raggiungere un punto di esplosione (E nella figura), che segna l’inizio di un forte aumento del numero di adozioni. Un Flop è un bene il cui trend di adozione non cresce in maniera considerevole nel tempo, oppure raggiunge subito un punto di massimo (F in figura) per poi decrescere rapidamente. Non si considerano i volumi di vendita, ma i trend relativi La definizione di “successo” non corrisponde a quello in senso comune (un nuovo iPhone cadrebbe nella nostra definizione di Flop)

Il Metodo Si estraggono i profili dei beni Hit e Flop Si individuano gli innovatori Si calcolano gli indicatori di successo/insuccesso per tutti gli innovatori Si raffinano e si consolidano gli insiemi di indicatori positivi/negativi Si definisce una tecnica di predizione rule- based utilizzando gli indicatori calcolati in precedenza

Sperimentazione Una volta costruite le serie temporali per tutti i prodotti nuovi, queste vengono clusterizzate Clustering: K-means K=2 con SSE Unità temporale: settimana

Identificazione Innovatori Si identificano i minimi locali (min 1 e min 2 ) e i massimi locali (max 1 e max 2 ) Si calcolano le distanze d 1 e d 2 Si sceglie min 2 come punto discriminante, in quanto d 2 >d 1 Si definiscono innovatori tutti i clienti che hanno adottato il bene prima di min 2

Propensione degli innovatori per i beni Hit e Flop Si misura, per ogni cliente, la sua propensione ad adottare beni Hit o Flop, assegnando un +1 se ha adottato un Hit da innovatore, un -1 se ha adottato un Flop, nessun incremento/decremento se ha adottato un Hit dopo l’esplosione

Identificazione degli Hitters e dei Floppers Bisogna ridurre l’insieme di clienti in modo da filtrare solo gli indicatori forti per gli Hit ed i Flop Si costruiscono due grafi bi-partiti (uno per beni Hit ed uno per beni Flop), dove un arco tra un nodo cliente ed un nodo prodotto viene tracciato se quel cliente ha adottato quel prodotto Si risolvono i due problemi di Copertura Minima Pesata (con HF- propensity) dei prodotti I clienti selezionati (che saranno chiamati Hitters e Floppers) coprono collettivamente almeno una frazione  dell’insieme dei beni ed almeno una frazione  degli archi entranti (supporto) dei beni utenti beni Esempio con 

Modello predittivo Si tracciano le distribuzioni del numero di Hitter (sx) e Flopper (dx) che hanno adottato i prodotti Si tracciano le mediane delle funzioni Per ogni prodotto g, si calcolano  (g) (#Hitters che hanno adottato g) e  (g) (#Floppers che hanno adottato g)  (g) =a  (g)=d Flop  (g) =b  (g)=c Hit  (g)=b  (g)=d Flop (calcolo distanze)  (g)=a  (g)=c ?

Analisi sperimentale articoli clienti clienti Periodo di un anno Hits Flops

Risultati Il modello viene confrontato con – Null Model (tutti i clienti comprano in un istante random) – ER-H&F: la fase di identificazione degli innovatori è sostituita considerando la soglia di Rogers (2.5%) – ER: la predizione viene fatta utilizzando soltanto gli innovatori estratti secondo la soglia del 2.5%