D2I - Tema 3: Data Mining Stato di avanzamento Roma 13/11/2001.

Slides:



Advertisements
Presentazioni simili
Scheduling (Schedulazione) Susanna Pelagatti – Università di Pisa
Advertisements

Ricorsione in SQL-99.
Algoritmi e Strutture Dati
Le distribuzioni di probabilità continue
Politecnico di Torino Tesi di Laurea
Il problema del minimo albero ricoprente in un grafo non cooperativo
Linguaggi di programmazione
1 Processi e Thread Processi Thread Meccanismi di comunicazione fra processi (IPC) Problemi classici di IPC Scheduling Processi e thread in Unix Processi.
Università degli studi di Modena e Reggio Emilia
Algoritmi e Strutture Dati
Lez. 121 Universita' di Ferrara Facolta' di Scienze Matematiche, Fisiche e Naturali Laurea Specialistica in Informatica Algoritmi Avanzati Progettazione.
FEM 2010, Roma 13 dicembre 2010 S. Ventre et all, Calcolo Elettromagnetico Intensivo per la soluzione di problemi basati su formulazione integrale Calcolo.
La piattaforma di BI si basa essenzialmente su un sistema di metadati centralizzato che garantisce la consistenza delle informazioni e consente la navigazione.
1 14. Verifica e Validazione Come assicurarsi che il software corrisponda alle necessità dellutente? Introdurremo i concetti di verifica e validazione.
Esercitazioni su circuiti combinatori
Algoritmi e Strutture Dati
Algoritmi e Strutture Dati
Università degli Studi di Roma Tor Vergata
Algoritmi e Strutture Dati Capitolo 2 Modelli di calcolo e metodologie di analisi.
Algoritmi e Strutture Dati
Apprendimento Non Supervisionato
Computational Learning Theory and PAC learning
1 Esempi di consistenza sui limiti Non consistente sui limiti, considera Z=2, poi X-3Y=10 Ma il dominio qui sotto e consistente sui limiti: Confrontare.
Algoritmo di Ford-Fulkerson
Il problema del minimo albero ricoprente in un grafo con archi privati
Algoritmi e Strutture Dati
Algoritmi e Strutture Dati
Tema 1: Integrazione di dati provenienti da sorgenti eterogenee
D2I - Tema 3 Analysis and comparison of methods and algorithms for data mining.
D2I - Tema 3: Data Mining Stato di avanzamento Roma 11/10/2002.
Apprendimento di movimenti della testa tramite Hidden Markov Model
Physically-based Animations of 3D Biped Characters with Genetic Algorithms Università di Roma La Sapienza Relatore: Prof. Marco Schaerf Correlatore: Ing.
D2I Integrazione, Warehousing e Mining di sorgenti eterogenee Tema 2: Progettazione e interrogazione di Data Warehouse Unita' coinvolte nel tema Università
Algoritmi e Strutture Dati
Algoritmi e Strutture Dati
Chapter 14, Hastie , Tibshirani and Friedman
Clustering Mercoledì, 24 novembre 2004 Giuseppe Manco Readings: Chapter 8, Han and Kamber Chapter 14, Hastie, Tibshirani and Friedman Density-Based Clustering.
Intelligenza Artificiale
Viste. Cosè una vista? è possibile creare un subset logico di dati o una combinazione di dati una vista è una tabella logica basata su una tabella o su.
Università di Roma La Sapienza Dipartimento di Informatica e Sistemistica Progetto IS-MANET WP3: Algoritmi e modelli Milano
1 Packet Manager Sistema di gestione di pacchetti software per il progetto dell'esame di Reti di Calcolatori LS Progetto realizzato da Fabio Parisini.
Sistemi a Regole Ettore Colombo 13 Dicembre 2006 Ingegneria della Conoscenza e Sistemi Esperti.
Case Based Reasoning
Semi-Supervised Learning
Towards Robust Indexing for Ranked Queries aa 09/10 Candeloro D. Orlando M. Pedone A. Gruppo 5.
Algoritmi e Strutture Dati
Gerarchie Ricorsive Una gerarchia ricorsiva deriva dalla presenza di una ricorsione o ciclo (un anello nel caso più semplice) nello schema operazionale.
Efficient Region- Based Image Retrieval di Roger Weber e Michael Mlivoncic Swiss Federal Institute of Technology (ETH) Presentazione di Laura Galli, Mauro.
Web Communities and their identificaton
Voronoi-Based K Nearest Neighbor Search for Spatial Network Databases
Dati e DBMS DBMS relazionali SQL Progettazione di una base di dati Programma del Corso.
Università degli Studi di Cagliari
ROCK A Robust Clustering Algorithm for Categorical Attributes Sudipto Guha, Rajeev Rastogi, Kyuseok Shim Sistemi Informativi per le Decisioni a.a. 2005/2006.
Studio degli indici per query di similarità basati su matrici di distanze Esame di Sistemi Informativi per le Decisioni L-S Presentato da: Ing. Marco Patella.
D2I Modena, 27 Aprile 2001 Progettazione e interrogazione di Data Warehouse (Tema 2) Unità Responsabile: Cosenza Unità Coinvolte: Cosenza - Bologna.
Progetto MIUR SPA.DA. Riunione Genova 7 Giugno 2002.
UNIVERSITÀ DEGLI STUDI DI CATANIA FACOLTÀ DI SCIENZE MATEMATICHE, FISICHE E NATURALI Corso di Laurea in Scienze dell’Informazione Indici gerarchizzati.
Algoritmi euristici per l’ottimizzazione dell’offerta nella raccolta di rifiuti Tesi di laurea di Nicola Bindini Relatore: Chiar.mo Prof. Ing. DANIELE.
Riunione conclusiva della prima fase del progetto Dipartimento di Scienze dell’Ingegneria dell’Università di Modena e Reggio Emilia.
Voronoi-Based K Nearest Neighbor Search for Spatial Network Databases1 GRUPPO 13: Relatore: Mengoli Dario Mengoli Dario Rovatti Fabrizio Tassoni Davide.
Capitolo 10 Tecniche algoritmiche Algoritmi e Strutture Dati.
Capitolo 10 Tecniche algoritmiche Algoritmi e Strutture Dati.
1 Migrazione dei processi: Mosix. 2 Cosa è Mosix/OpenMOSIX ? OpenMOSIX è un è una patch del kernel di Linux che aggiunge funzionalit à avanzate di clustering.
Dipartimento di Ingegneria dell’Informazione Università degli Studi di Parma Intelligenza Artificiale Risoluzione dei Problemi (parte 2) Agostino Poggi.
D2I: Integrazione, warehousing e mining di sorgenti eterogenee di dati Tema2: Progettazione e interrogazione di data warehouse Unità: Bologna, Cosenza.
Capitolo 12 Minimo albero ricoprente: Algoritmo di Kruskal Algoritmi e Strutture Dati.
Indicizzazione di documenti semistrutturati Sistemi informativi – AA D’Este Laura.
CURE: AN EFFICIENT CLUSTERING ALGORITHM FOR LARGE DATABASES GRUPPO 12 Filippo Bindi Massimiliano Ceccarini Andrea Giuliodori PRESENTAZIONE Sistemi Informativi.
Algoritmi e Strutture Dati
Capitolo 12 Minimo albero ricoprente: Algoritmo di Kruskal Algoritmi e Strutture Dati.
Transcript della presentazione:

D2I - Tema 3: Data Mining Stato di avanzamento Roma 13/11/2001

D2I - Tema 32 Argomenti D3R3 Ricerche di similarità e approssimate Paolo Ciaccia, Marco Patella Clustering di dati metrici Stefano Lodi, Claudio Sartori Rule learning Giovambattista Ianni, Luigi Palopoli D3R2 Architettura e Tecniche di visualizzazione Tiziana Catarci, Giuseppe Santucci

D2I - Tema 33 Ricerche di similarità approssimate Problema di base: trovare efficientemente oggetti simili a uno dato Essenziale per DM interattivo/esplorativo ricerche esatte spesso troppo costose …e/o non necessarie (qual è la giusta query?) Idea generale: rilassare uno o più vincoli del problema 3 Approcci generali (rif. D3.R1): Trasformare lo spazio (eg: dimensionality reduction) Non è una generalizzazione delle ricerche esatte (ancora utili!) Scartare alcuni oggetti sulla base di euristiche e/o bound sullerrore ammesso Utile anche per scartare sotto-alberi se si usano indici Bound deterministici: si dimostra che sono inefficaci in spazi complessi (intrinseca elevata dimensionalità)

D2I - Tema 34 Lapproccio PAC Originariamente proposto per 1-NN queries (Ciaccia, Patella ICDE 2000) Usa un bound con garanzie probabilistiche Generalizzazione: Sia q una v.a. le cui realizzazioni sono specifici query point q, e Res(q) il risultato esatto di q Sia A un algoritmo che per una query q restituisce il risultato (approssimato) appr-Res(q) Sia ERR una funzione (errore) di Res(q) e appr-Res(q) E.g.: ERR = d(q,appr-nn 1 (q))/d(q,nn 1 (q)) dove nn 1 (q) è il NN di q, e appr-nn 1 (q) il NN restituito da A per q A è un algoritmo PAC (Probably Approximately Correct) sse per ogni 0 e [0,1) risulta Pr{ERR > }

D2I - Tema 35 Come garantire la qualità del risultato Scenario generale: spazi metrici Informazione di base: distribuzione delle distanze dei query point: F(x) = Pr{d(q,p) x} Tipicamente, query point distribuiti come i data point (ma non sempre) Informazioni derivate: distribuzioni delle distanze dei NN: P i (x) = Pr{d(q,nn i (q)) x} E.g.: per ERR definito precedentemente: A è PAC sse per ogni query q A si ferma quando trova un punto p tale che d(q,p) (1 P 1 -1

D2I - Tema 36 Risultati ottenuti Generalizzazione (modificando ERR) a query k-NN e di range Definizione degli algoritmi PAC sequenziali e per M-tree (validi anche per altri indici ad albero) e parziale implementazione Estensione al caso in cui informazione locale su statistiche di q viene mantenuta per un subset dei nodi dellalbero Risultati formali: Determinazione dello schedule ottimale (in media) per la lettura dei nodi dellalbero Dimostrazione che tale schedule coincide con quello ottimale (MinDist) per ricerche NN esatte ( = = 0) Attività in corso Implementazione e analisi sperimentale Sviluppo di un modello di costo per la predizione delle prestazioni (costo vs errore)

D2I - Tema 37 Clustering di dati metrici con stime di densità con dati dinamici

D2I - Tema 38 Stime di densità Funzione di influenza Uniforme: f y (x) = 1, se d(x,y), 0 altrimenti Gaussiana: f y (x) = exp[- d(x,y) 2 /(2 2 )] Stimatore puntuale della densità come somma delle funzioni di influenza di ciascun punto: f D (x) = y D f y (x) Lo stimatore è immediatamente utilizzabile nel caso metrico. Costruzione di una foresta orientata. (x,y) E y = NN(x,{y D : f D (x) < f D (y)}). Le componenti connesse della foresta sono i cluster della soluzione.

D2I - Tema 39 Clustering statico di dati metrici/categorici Trasformazione della funzione similarità/dissimilarità originaria. La trasformazione considera solo lintorno di ogni coppia di punti. Vicini condivisi: (x,y) = k-| NNQ k (x,D) NNQ k (y,D) |. Rango dei vicini: (x,y) = ran(x,y,D) + ran(y,x,D). Media di densità stimate: (x,y) = 0.5 [d k (x) + d k (y)] Clustering sulle dissimilarità trasformate secondo funzioni obiettivo (soluzione esatta o approssimata, secondo la complessità del problema)

D2I - Tema 310 Clustering dinamico di dati metrici/categorici Algoritmi fully dynamic (inserimenti e cancellazioni) INPUT: insiemi +, - di oggetti inseriti e cancellazione di oggetti nel data set D, clustering di D. OUTPUT: nuovo clustering di D \ - +. Tecnica: Generazione di un insieme di operazioni di inserimento, cancellazione, aggiornamento dei pesi nel grafo delle dissimilarità trasformate Aggiornamento del clustering secondo la funzione obiettivo scelta Massimizzazione del peggiore (minimo) split: Aggiornamento componenti connesse/MST del grafo (Frederickson, 1985). Minimizzazione del peggiore (maggiore) diametro (Charikar et al., 1997). Massimizzazione del peggiore (minimo) cut....

D2I - Tema 311 Stato di avanzamento Clustering di dati metrici con stima di densità prototipo in fase di test di qualità (implem. memoria centrale) Clustering statico con trasformazione funzione implementata versione memoria esterna con campionamento Clustering dinamico algoritmi proposti + implementazione in corso

D2I - Tema 312 Ongoing work - Università della Calabria Rule Learning Metaquerying Association rules

D2I - Tema 313 Metaquerying Ricerca di correlazioni relazionali in basi dati Usi: genetica, telecomunicazioni, ecc. Esempio patente_sospesa(X) P(X,Y),Q(X,Z) Possibile risposta: patente_sospesa(X) assicurato(X,classe > 14),auto(X,km > 50000). Confidenza = 70% : Il 70% dei guidatori che soddisfano le due condizioni sulla parte destra della regola fanno parte della tabella patente_sospesa.

D2I - Tema 314 Metaquerying Risultati Ottenuti Formalizzazione del problema (Report D3.R1) Analisi di complessità Es. Il problema di stimare se esistono risposte ad una metaquery con una confidenza superiore ad una data soglia è NP PP completo. La struttura dellalg. risolutore deve essere specifica per un problema di questo tipo. Casi trattabili: metaqueries acicliche o fissate (data complexity) Nel secondo caso il problema è altamente parallelizzabile (TC 0 )

D2I - Tema 315 Metaquerying Ricerche in Corso/Sviluppi futuri Association rules Es. Esiste un certo prodotto venduto molto spesso insieme ad altri due? Possibile risposta: Ketchup Hamburger,Patatine Confidenza 80%: l80% degli acquisti che contengono Hamburger e Patatine, comprendono anche il Ketchup Prototipazione e sperimentazione sul metaquerying

D2I - Tema 316 Pubblicazioni Computational Properties of Metaquerying Problems. F. Angiulli, R. Ben-Eliyahu-Zohary, G.B. Ianni, L. Palopoli. Atti del Symposium on Principle of Databases (PODS 2000), Dallas, Texas. Versione estesa sottomessa per la pubblicazione su Theory of Computational Logic. Towards efficient metaquerying, R. Ben-Eliyahu-Zohary, E. Gudes, G. Ianni. IJCAI Versione estesa sottomessa per la pubblicazione su Artificial Intelligence. On the complexity of mining association rules, F. Angiulli, G. Ianni, L. Palopoli. SEBD Versione estesa in preparazione.

D2I - Tema 317 Attivita' del DIS - La Sapienza relativa al DM Attività scientifica attualmente in corso presso l'unità del DIS - La Sapienza: - analisi delle tecniche di data mining e dei requisiti utente ad esse associate; - analisi delle tecniche di visualizzazione e/o interazione da utilizzarsi per la costruzione dell'interfaccia utente; - analisi di una architettura di riferimento per la implementazione del prototipo del sistema.

D2I - Tema 318 Stato di avanzamento Il prossimo prodotto in cui il Dis e' coinvolto e' D3.R2: Architettura del sistema integrato di data mining e visualizzazione (RM,BO,CS) Una prima versione dell'architettura e' disponibile e verra' fatta circolare in occasione del meeting del 13. Nella stessa occasione verra' fatta una presentazione dell'architettura e della proposta di interfaccia utente. Le trasparenze seguenti sono una sintesi della parte relativa alla interazione con l'utente

Association RulesMetaqueries USER INTERFACE:INTRODUCTION We aim at providing effective rule visualizations. For the mining of metarules or association rules, the proposed interface offers two main visualization mechanisms: Scatter Plot of Rules + Related Tuples – a kind of Overview + Detail visualization Dedicated View – through which more rule parameters can be visualized The Metaquery Interface relies on an interesting relationship between joins and metaqueries. Consequently, our goal is centered on the provision of a user-centered interface for the exploitation of joins in formulating and mining metaqueries. We propose an interface that enables the user to interact with both the schema and the actual data. The interface supports various interactive and intuitive mechanisms (eg drag and drop, joining and construction using hooks and chains, etc). The Association Rule Interface aims at supporting the user to directly interact with data, with a view to constructing / designing and discovering association rules. Based on the foregoing, our goal is to provide the user with an interface that intuitively and effectively supports him/her in discovering association rule-based knowledge. The proposed interface employs intuitive tools (eg baskets for constructing association rules) and mechanisms (eg drag-drop mechanisms). Visualization 19

The provision of a user-centered interface for the exploitation of the idea eg drag and drop mechanisms, intuitive joining and construction using hooks and chains, etc Goal Exploit Joins to design Metaqueries Example UsPT.User and UsCa.User UsPT.Phone_Type and CaTe.Technology UsCa.Carrier and CaTe.Carrier Idea UsPT(u, p), UsCa(u, c), CaTe(c, p)(i) where u=User, p=Phone_Type/Technology, c=Carrier Expression (i) resembles: r1(x, z), r2(x, y), r3(y, z)(ii) From (ii), there appears to be a transitive pattern ie: r1(x, z) <= r2(x, y), r3(y, z) which is a metaquery UsCa UserCarrier John K.Omnitel John K.Tim Anastasia A.Omnitel CaTe CarrierTechnology TimGSM 1800 OmnitelGSM 900 WindGSM 1800 Target Data METAQUERIES UsPT UserPhone_Type John K.GSM 900 John K.GSM 1800 Anastasia A.GSM 900 The provision of a user-centered interface eg drag-drop, intuitive interaction using hooks, chains, etc Focus 20

Target Data METAQUERIES More rule parameters are displayed through a DEDICATED VISUALIZATION UsCa UserCarrier John K.Omnitel John K.Tim Anastasia A.Omnitel CaTe CarrierTechnology TimGSM 1800 OmnitelGSM 900 WindGSM 1800 UsPT UserPhone_Type John K.GSM 900 John K.GSM 1800 Anastasia A.GSM 900 The provision of effective visualizations: scatter plot + related tuples, dedicated view of rules Focus 21

ASSOCIATION RULES OrdPro OrderProducts 121Socks, Shoes 122Sweater 123Shirt, Sweater 124Socks 125Shirt 126Tie, Shirt Target Data The provision of a user-centered interface eg drag-drop, intuitive construction using baskets, etc Focus How true is it that when a pair of ``Shirt'' is ordered, then a pair of ``Tie'' is also in the same order? a pair of ``Shoes'' is ordered, then a pair of ``Socks'' is also in the same order? 22

OrdPro OrderProducts 121Socks, Shoes 122Sweater 123Shirt, Sweater 124Socks 125Shirt 126Tie, Shirt Target Data More rule parameters are displayed through a DEDICATED VISUALIZATION (cf Metaqueries) ASSOCIATION RULES The provision of effective visualizations: scatter plot + related tuples, dedicated view of rules Focus 23