D2I - Tema 3: Data Mining Stato di avanzamento Roma 11/10/2002
D2I - Tema 32 Prodotti - fase 3 D3.P1 Algoritmi di clustering incrementale di dati (BO) D3.P2 Risoluzione di query approssimate (BO) D3.P3 Prototipo per il meta-querying (CS) D3.P4 Sistema integrato di data mining e visualizzazione (RM)
D2I - Tema 33 Obiettivi - fase 3 Implementazione Raffinamento delle tecniche specifiche sviluppate nelle fasi precedenti e implementazione dei prototipi Visualizzazione Studio di tecniche di visualizzazione dei risultati dei vari algoritmi di data mining Integrazione Studio e raffinamento dellarchitettura del sistema integrato di mining e visualizzazione
D2I - Tema 34 Clustering di dati metrici Data mining engine per clustering Implementazione di algoritmi originali e da letteratura Delphi Librerie acquisite esternamente e integrate Architettura per integrazione con visualizzazione Aperto allinserimento di altri algoritmi
D2I - Tema 35 Stato di avanzamento Integrazione Definiti i dettagli dellarchitettura API XML Clustering incrementale Algoritmo implementato in fase di collaudo
D2I - Tema 36 Ricerche di similarità approssimate Problema di base: trovare efficientemente oggetti simili a uno dato Essenziale per DM interattivo/esplorativo ricerche esatte spesso troppo costose …e/o non necessarie (qual è la giusta query?) Idea generale: rilassare uno o più vincoli del problema Utilizzo dellapproccio PAC (rif. D3.R3) Possibilità, in fase di interrogazione, di: Controllare in maniera probabilistica lapprossimazione del risultato Ottenere un compromesso tra velocità di risoluzione della query e qualità del risultato. Scenario generale: spazi metrici
D2I - Tema 37 Implementazione del prototipo Interrogazioni considerate: range query (tutti i punti aventi una distanza dalla query minore di una soglia) k nearest neighbor query (i k punti più vicini alla query) Definizione di un errore ERR sul risultato dellinterrogazione Informazione di base: distribuzione delle distanze dei query point: F(x) = Pr{d(q,p) x} Tipicamente, query point distribuiti come i data point (ma non sempre) Implementazione degli algoritmi PAC Sequenziali Basati su M-tree
D2I - Tema 38 Risoluzione di PAC range query Input: q:Punto query r:Raggio di ricerca :Valore di errore ( 0) :Valore di confidenza ( [0, 1[ ) Output: Insieme di oggetti RES RES può non contenere tutti gli oggetti che hanno distanza da q r Lerrore è pertanto definito sulla cardinalità dellinsieme dei risultati ERR = 1 – card(RES)/card(R) dove R è il risultato della query esatta In pratica, lalgoritmo si ferma non appena la probabilità di trovare altri punti che soddisfano la query è inferiore a
D2I - Tema 39 Risoluzione di PAC k nearest neighbor Input: q:Punto query k:Cardinalità del risultato :Valore di errore ( 0) :Valore di confidenza ( [0, 1[ ) Output: Lista ordinata (per distanza crescente) di k oggetti RES RES può non contenere i primi k oggetti a minor distanza da q Lerrore è pertanto definito sulla distanza da q dei punti inclusi in RES ERR = max i {d(q, p i * )/d(q, p i ) – 1} dove p i * è ciascun punto incluso in RES e p i è il corrispondente punto nel risultato esatto In pratica, lalgoritmo si ferma non appena la probabilità di trovare punti più vicini a q di quelli in RES è inferiore a
D2I - Tema 310 Meta querying - stato di avanzamento Metaquerying Valutatore implementato in Java Integrazione Rilasciato package Java per integrazione con tool di visualizzazione
D2I - Tema 311 Data Mining visual environment Design Test di usabilità Semantica formale dellambiente di input Semantica operazionale