CSI-Piemonte Consorzio Sistemi Informativi Provincia Comune di Torino di Torino Analisi dei cluster sui dati del « Censimento dellAgricoltura 2000 » della Regione Piemonte Jean Michel Bosco
2 Agenda Contesto e obiettivi Contesto e obiettivi Organizzazione dei dati Organizzazione dei dati Esplorazione e trasformazione dei dati Esplorazione e trasformazione dei dati Definizione del modello Definizione del modello Interpretazione dei risultati Interpretazione dei risultati Organizzazione e planning Organizzazione e planning
3 Contesto e obiettivi Vison, Obiettivi e Strategia La vision globale del progetto : Valorizzare il Data Mining in seno al CSI Rendere i dati intelligenti Problematiche del Progetto : Definire degli indicatori statistici Applicare una segmentazione (Clustering) Modello predittivo (Scoring) se sarà disponibile laccesso ai Database ORACLE Obiettivi : Regrouper en segments homogènes les agriculteurs de la région Piémont Definire una visione globale dellattività per alimentare una riflessione strategica. Rilevare i bisogni del cliente Disponibilità dei dati Sistemi informativi per lagricolura: I dati del censimento sono organizzati in un Data Warehouse I dati finanziari ed economici sono allocati sui server di produzione ORACLE e non sono stati considerati nellanalisi Lapplicativo Web per lanalisi multidimensionalehttp:// Documentazione Glossario Scheda del Cesimento Norme di classificazione degli Agricoltori Accesso allinformazione Accesso ai Data Server di Produzione e di sSviluppo con SAS Connect e SAS E.Guide
4 Organizzazione dei dati Nome de la tableNb identifia nts Nb de lignes Nb variables 1. base_azi capo_azienda contoterz utilizzazione_terreno manodopera_familiare mezzi_meccanici mez_tec lavaro_terr impianti prod_comm irrigazione allevamento vite ricovero prod_qual latte altra_manodopera data base_imp2000_2 ; set datiodd.base_imp2000 ; LIV123_IMP=(SUBSTR(COD_LIV1,1,2) ||'.' || SUBSTR(COD_LIV2,1,2) ||'.' ||SUBSTR(COD_LIV3,1,2)) ; Run ; PROC TRANSPOSE DATA=base_imp2000_2 OUT=base_imp2000_3(LABEL="Transposed datiodd.base_imp2000") NAME=Source LABEL=Label ; BY z_cod_azienda ; ID LIV123_IMP ; VAR CAPACITA ; RUN ; data base_imp2000_n (keep =z_cod_azienda CAP_IMP_M3 CAP_IMP_KG CAP_IMP_M2) ; set base_imp2000_3; CAP_IMP_M3= sum(_28D01D01,_28D01D02,_28D02D03,_28D02D04,_33D03 D03,_29D04D06,_33D02D02,_33D04D04) ; CAP_IMP_KG= sum(_29D01D01,_29D01D02,_29D02D03,_29D03D04,_29D03 D05,_30D03D03) ; CAP_IMP_M2 = sum(_28D03D05,_33D01D01) ; label CAP_IMP_M3= 'volume capacita impianti'; label CAP_IMP_KG= 'peso capacita impianti'; label CAP_IMP_M2= 'spazio capacita impianti'; run ; Definizione della granularità delle tavole SAS applicando la PROC TRANSPOSE Scelta delle variabili valorizzate per il maggior numero di Aziende (76 variabili su 108) Trattamento dei « missing »
5 Esplorazione e trasformazione dei dati Ridefinizione delle classi per le variabili nominali (ordinali) Assegnazione di una classe (9) alle proporzioni più basse
6 Esplorazione e trasformazione dei dati Transformazione logaritmica delle variabili intervallari Esclusivamente per le variabili la cui distributizione migliora
7 Definizione del modello Segmentazione non significativa con la proc Fastclus, legata alla distribuzione delle variabili Le Reti Neurali non supervisionate restituiscono una segmetazione meglio definita Il test dei campioni aleatori confermano i risultati ottenuti con le SOM/Kohonen
8 Interpretazione dei risultati Grandi colture Orti familiari Risultati SOM/KOHONEN (reti neurali non supervisionate) : segmentazione in 4 Cluster
9 Interpretazione dei risultati Comparazione dei cluster in funzione delle variabili utilizzate 4 3
10 Interprétation des résultats Comparazione dei cluster in funzione delle variabili utilizzate
11 Interpretazione dei risultati Comparazione dei cluster 3 e 4
12 Interpretazione dei risultati Valore Vendita in funzione della zona geografica e della superfice utilizzata : correlazione significativa per le aziende site in pianura
13 Interpretazione dei risultati es le dirigeant est plusvieux en moyenne avec des jours de travailsmoinsélevés une main dœuvre familialenonsignificative les superficies utilisées sont les moins importantes la superficie « orti familiari » et celle des bois les plus importantes La moitié dentre elles ne sont pas de la classe CEE Ne sadressent pas aux organisations associatives pour lutilisation des moyens mécaniques Consomment à peu près la moitié de son produit Economiquement les moins importantes
14 Interpretazione dei risultati Il capo azienza è in genere di età più alta della media, con poche giornate lavorative est plus Mano d'opera familiare poco significativa Le superfici ultizzate sono scarsamente rilevanti Più significative le superfici destinate agli orti familiari e ai boschi La metà delle aziende appartenenti a questo gruppo non rientrano nella classe CEE Non si rivolgono ad organizzazioni assocciative per i mezzi tecnici Consumano allincirca la metà dei loro prodotti Economicamente poco importanti
15 Interpretazione dei risultati CLUSTER CARATTERISTICHE Cluster2 : azienda Aziende accostabili al gruppo Grandi Colture Colture arboricole permanenti Specilizzati in viticoltura Localizzate soprattutto in collina, e in parte in pianura Forte capacità di trasformazione dei prodotti Aderiscono a società cooperative Vendono buona parete dei prodotti alle organizzazioni associative, ma non ai contrattuali Sono in prevalenza Proprietari Cluster1 : azienda Aziendaprochedes aziendadepetite culture mixte Installées surtout sur les montagnes en partie Vendent aux consommateurs Majoritairement propriétaires
16 Interpretazione dei risultati
17 Interpretazione dei risultati ATTIVITà CLASS_AZIENDA (120965) 1 (39983) 2 (18154) 3 (35135) 4 (27693) ALLEVAMENTO (42541) 33,77%13,36%16,29%36,39% (33,78%) VITE (40622) 43,58%37,98%11,06%7,38% LATTE (14616) 29,34%9,28%4,54%56,83% AGRITURISMO (596) 22,48%39,09%9,40%29,03% Ripartizione delle attività in funzione dei cluster Vendono di più rispetto al cluster 1
18 Interpretazione dei risultati ATTIVITà CLASS_AZIENDA (120965) (42541) (40622) 1 (39983) 2 (18154) 3 (35135) 4 (27693) ALLEVAMENTO (42541) 33,77% (37,97%) 13,36% (14,04%) 16,29% (16,98%) 36,39% (31,01%) VITE (40622) 43,58% (33,11%) 37,98% (19,69%) 11,06% (26,30%) 7,38% (20,91%) LATTE (14616) 29,34%9,28%4,54%56,83% AGRITURISMO (596) 22,48%39,09%9,40%29,03% Ripartizione delle attività in funzione dei cluster Il gruppo 1 resta leader, ma sefuito dal gruppo 3
19 29 azienda su hanno tutti i crediti ( ) azienda su che non hanno credito ( ) Interpretazione dei risultati Ripartizione del tipo di credito per lintera popolazione
20 29 azienda sur ont eu tous les 4 Crédits ( ) azienda sur nont rien comme crédit ( ) Interpretazione dei risultati Ripartizione del tipo di credito per lintera popolazione
21 29 azienda sur ont eu tous les 4 Crédits ( ) azienda sur nont rien comme crédit ( ) Interpretazione dei risultati Ripartizione del tipo di credito per lintera popolazione Test dassociazione tra 2 variabili : La coppia (1,1) contribuisce in modo più significativo alla statistica del Khi-2, le V di Cramer vicina a 0, quindi esiste unassociazione debole tra le due variabili Test dassociazione tra CL_UDE(classe economica) e i 2 tipi di credito : rifiuto di Ho, dunque associazione, Ma la correlazione di Spearman si avvicina a 0, il chè implica une associazione debole
22 24 Mai
23 Organizzazione e Planning