DATA MINING
DATA MINING Il processo di estrazione di conoscenza da una base di dati è detto Knowledge Discovery in Databases (KDD) e si avvale di tecniche che consentono di esplorare grandi quantità di dati per estrapolare dati nascosti , ossia non direttamente intuibili, ed inferenze significative. Tali tecniche si possono indicare complessivamente con il termine di data mining.
DATA MINING Perché usare tecniche di data mining? Nessuna ipotesi a priori Lavorano su dati eterogenei Possono lavorare su un gran numero di variabili Possono elaborare un gran numero di osservazioni Diminuiscono il tempo di elaborazione
DATA MINING Le tecniche tradizionale di analisi statistica e data retrieval sono inadeguate per questi scopi poiché richiedono dati strutturati (generalmente di tipo quantitativo) e condizioni note a priori ( data retrivial richiedono di formulare una query ; il sistema cerca, all'interno della banca dati, tutti i casi che soddisfano le condizioni poste nella query e fornisce la risposta).
DATA MINING Gli algoritmi di data mining utilizzano un approccio esplorativo e non “verificativo”, come avviene per la statistica standard. Essi riescono a trovare relazioni nascoste e difficilmente ipotizzabili a priori.
DATA MINING Le tecniche di clustering e l'uso delle reti neurali non supervisionate consentono di effettuare operazioni di segmentazione sui dati, cioè di individuare gruppi omogenei, o tipologie, che presentano delle regolarità al loro interno in grado di caratterizzarli e differenziarli dagli altri gruppi.
DATA MINING Le reti neurali (supervisionate) e gli alberi di decisione consentono di effettuare operazioni di classificazione, fanno cioè uso della conoscenza acquisita in fase di addestramento per classificare nuovi oggetti o prevedere nuovi eventi. Le tecniche di analisi delle associazioni consentono di individuare delle regole nelle occorrenze concomitanti di due o più eventi.
TECNICHE Le tecniche di data mining sono differenti e quindi anche gli algoritmi che le implementano. Le più utilizzate sono Clustering Reti neurali Alberi di decisione Individuazione di associazioni Algoritmi genetici …….
TECNICHE Processo di estrazione della conoscenza: Generalmente si compone delle seguenti fasi : · Definizione degli obiettivi · Organizzazione dei dati : vengono raccolti i dati e vengono organizzati in databases.
TECNICHE Pre - Processing Viene effettuata una prima valutazione della rilevanza dei dati raccolti che può richiedere una trasformazione delle variabili originarie (pulizia dei dati). Data-Mining La scelta del metodo da utilizzare dipende fortemente dal problema in esame, dagli obiettivi e dal tipo di dati disponibili.
TECNICHE · Elaborazione dei dati · Valutazione dei modelli Dal confronto dei risultati ottenuti con i diversi metodi si sceglie il modello migliore di analisi. · Interpretazione, valutazione e rappresentazione dei risultati