La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

CSI-Piemonte Consorzio Sistemi Informativi Provincia Comune di Torino di Torino Analisi dei cluster sui dati del « Censimento dellAgricoltura 2000 » della.

Presentazioni simili


Presentazione sul tema: "CSI-Piemonte Consorzio Sistemi Informativi Provincia Comune di Torino di Torino Analisi dei cluster sui dati del « Censimento dellAgricoltura 2000 » della."— Transcript della presentazione:

1 CSI-Piemonte Consorzio Sistemi Informativi Provincia Comune di Torino di Torino Analisi dei cluster sui dati del « Censimento dellAgricoltura 2000 » della Regione Piemonte Jean Michel Bosco

2 2 Agenda Contesto e obiettivi Contesto e obiettivi Organizzazione dei dati Organizzazione dei dati Esplorazione e trasformazione dei dati Esplorazione e trasformazione dei dati Definizione del modello Definizione del modello Interpretazione dei risultati Interpretazione dei risultati Organizzazione e planning Organizzazione e planning

3 3 Contesto e obiettivi Vison, Obiettivi e Strategia La vision globale del progetto : Valorizzare il Data Mining in seno al CSI Rendere i dati intelligenti Problematiche del Progetto : Definire degli indicatori statistici Applicare una segmentazione (Clustering) Modello predittivo (Scoring) se sarà disponibile laccesso ai Database ORACLE Obiettivi : Regrouper en segments homogènes les agriculteurs de la région Piémont Definire una visione globale dellattività per alimentare una riflessione strategica. Rilevare i bisogni del cliente Disponibilità dei dati Sistemi informativi per lagricolura: I dati del censimento sono organizzati in un Data Warehouse I dati finanziari ed economici sono allocati sui server di produzione ORACLE e non sono stati considerati nellanalisi Lapplicativo Web http://www.regione.piemonte.it/capu/jsp/index.jsp per lanalisi multidimensionalehttp://www.regione.piemonte.it/capu/jsp/index.jsp Documentazione Glossario Scheda del Cesimento Norme di classificazione degli Agricoltori Accesso allinformazione Accesso ai Data Server di Produzione e di sSviluppo con SAS Connect e SAS E.Guide

4 4 Organizzazione dei dati Nome de la tableNb identifia nts Nb de lignes Nb variables 1. base_azi120965 53 2. capo_azienda120965 4 3. contoterz120965 2 4. utilizzazione_terreno120863 7984437 5. manodopera_familiare119712 2963382 6. mezzi_meccanici104734 3373301 7. mez_tec100176 3733673 8. lavaro_terr88788 3865926 9. impianti87029 1655863 10.prod_comm85623 1777055 11.irrigazione47279 2403792 12.allevamento42541 1535774 13.vite40622 1182357 14.ricovero38642 527362 15.prod_qual21372 323192 16.latte14616 476673 17.altra_manodopera5432 87612 108 data base_imp2000_2 ; set datiodd.base_imp2000 ; LIV123_IMP=(SUBSTR(COD_LIV1,1,2) ||'.' || SUBSTR(COD_LIV2,1,2) ||'.' ||SUBSTR(COD_LIV3,1,2)) ; Run ; PROC TRANSPOSE DATA=base_imp2000_2 OUT=base_imp2000_3(LABEL="Transposed datiodd.base_imp2000") NAME=Source LABEL=Label ; BY z_cod_azienda ; ID LIV123_IMP ; VAR CAPACITA ; RUN ; data base_imp2000_n (keep =z_cod_azienda CAP_IMP_M3 CAP_IMP_KG CAP_IMP_M2) ; set base_imp2000_3; CAP_IMP_M3= sum(_28D01D01,_28D01D02,_28D02D03,_28D02D04,_33D03 D03,_29D04D06,_33D02D02,_33D04D04) ; CAP_IMP_KG= sum(_29D01D01,_29D01D02,_29D02D03,_29D03D04,_29D03 D05,_30D03D03) ; CAP_IMP_M2 = sum(_28D03D05,_33D01D01) ; label CAP_IMP_M3= 'volume capacita impianti'; label CAP_IMP_KG= 'peso capacita impianti'; label CAP_IMP_M2= 'spazio capacita impianti'; run ; Definizione della granularità delle tavole SAS applicando la PROC TRANSPOSE Scelta delle variabili valorizzate per il maggior numero di Aziende (76 variabili su 108) Trattamento dei « missing »

5 5 Esplorazione e trasformazione dei dati Ridefinizione delle classi per le variabili nominali (ordinali) Assegnazione di una classe (9) alle proporzioni più basse

6 6 Esplorazione e trasformazione dei dati Transformazione logaritmica delle variabili intervallari Esclusivamente per le variabili la cui distributizione migliora

7 7 Definizione del modello Segmentazione non significativa con la proc Fastclus, legata alla distribuzione delle variabili Le Reti Neurali non supervisionate restituiscono una segmetazione meglio definita Il test dei campioni aleatori confermano i risultati ottenuti con le SOM/Kohonen

8 8 Interpretazione dei risultati 18154 27693 Grandi colture 39983 35135 Orti familiari Risultati SOM/KOHONEN (reti neurali non supervisionate) : segmentazione in 4 Cluster

9 9 Interpretazione dei risultati Comparazione dei cluster in funzione delle variabili utilizzate 4 3

10 10 Interprétation des résultats Comparazione dei cluster in funzione delle variabili utilizzate

11 11 Interpretazione dei risultati Comparazione dei cluster 3 e 4

12 12 Interpretazione dei risultati Valore Vendita in funzione della zona geografica e della superfice utilizzata : correlazione significativa per le aziende site in pianura

13 13 Interpretazione dei risultati es le dirigeant est plusvieux en moyenne avec des jours de travailsmoinsélevés une main dœuvre familialenonsignificative les superficies utilisées sont les moins importantes la superficie « orti familiari » et celle des bois les plus importantes La moitié dentre elles ne sont pas de la classe CEE Ne sadressent pas aux organisations associatives pour lutilisation des moyens mécaniques Consomment à peu près la moitié de son produit Economiquement les moins importantes

14 14 Interpretazione dei risultati Il capo azienza è in genere di età più alta della media, con poche giornate lavorative est plus Mano d'opera familiare poco significativa Le superfici ultizzate sono scarsamente rilevanti Più significative le superfici destinate agli orti familiari e ai boschi La metà delle aziende appartenenti a questo gruppo non rientrano nella classe CEE Non si rivolgono ad organizzazioni assocciative per i mezzi tecnici Consumano allincirca la metà dei loro prodotti Economicamente poco importanti

15 15 Interpretazione dei risultati CLUSTER CARATTERISTICHE Cluster2 : 18154 azienda Aziende accostabili al gruppo Grandi Colture Colture arboricole permanenti Specilizzati in viticoltura Localizzate soprattutto in collina, e in parte in pianura Forte capacità di trasformazione dei prodotti Aderiscono a società cooperative Vendono buona parete dei prodotti alle organizzazioni associative, ma non ai contrattuali Sono in prevalenza Proprietari Cluster1 : 39983 azienda Aziendaprochedes aziendadepetite culture mixte Installées surtout sur les montagnes en partie Vendent aux consommateurs Majoritairement propriétaires

16 16 Interpretazione dei risultati

17 17 Interpretazione dei risultati ATTIVITà CLASS_AZIENDA (120965) 1 (39983) 2 (18154) 3 (35135) 4 (27693) ALLEVAMENTO (42541) 33,77%13,36%16,29%36,39% (33,78%) VITE (40622) 43,58%37,98%11,06%7,38% LATTE (14616) 29,34%9,28%4,54%56,83% AGRITURISMO (596) 22,48%39,09%9,40%29,03% Ripartizione delle attività in funzione dei cluster Vendono di più rispetto al cluster 1

18 18 Interpretazione dei risultati ATTIVITà CLASS_AZIENDA (120965) (42541) (40622) 1 (39983) 2 (18154) 3 (35135) 4 (27693) ALLEVAMENTO (42541) 33,77% (37,97%) 13,36% (14,04%) 16,29% (16,98%) 36,39% (31,01%) VITE (40622) 43,58% (33,11%) 37,98% (19,69%) 11,06% (26,30%) 7,38% (20,91%) LATTE (14616) 29,34%9,28%4,54%56,83% AGRITURISMO (596) 22,48%39,09%9,40%29,03% Ripartizione delle attività in funzione dei cluster Il gruppo 1 resta leader, ma sefuito dal gruppo 3

19 19 29 azienda su 120965 hanno tutti i crediti (1 1 1 1) 111355 azienda su 120965 che non hanno credito (0 0 0 0) Interpretazione dei risultati Ripartizione del tipo di credito per lintera popolazione

20 20 29 azienda sur 120965 ont eu tous les 4 Crédits (1 1 1 1) 111355 azienda sur 120965 nont rien comme crédit (0 0 0 0) Interpretazione dei risultati Ripartizione del tipo di credito per lintera popolazione

21 21 29 azienda sur 120965 ont eu tous les 4 Crédits (1 1 1 1) 111355 azienda sur 120965 nont rien comme crédit (0 0 0 0) Interpretazione dei risultati Ripartizione del tipo di credito per lintera popolazione Test dassociazione tra 2 variabili : La coppia (1,1) contribuisce in modo più significativo alla statistica del Khi-2, le V di Cramer vicina a 0, quindi esiste unassociazione debole tra le due variabili Test dassociazione tra CL_UDE(classe economica) e i 2 tipi di credito : rifiuto di Ho, dunque associazione, Ma la correlazione di Spearman si avvicina a 0, il chè implica une associazione debole

22 22 24 Mai

23 23 Organizzazione e Planning


Scaricare ppt "CSI-Piemonte Consorzio Sistemi Informativi Provincia Comune di Torino di Torino Analisi dei cluster sui dati del « Censimento dellAgricoltura 2000 » della."

Presentazioni simili


Annunci Google