D2I - Tema 3: Data Mining Stato di avanzamento Roma 11/10/2002.

Slides:



Advertisements
Presentazioni simili
Scheduling (Schedulazione) Susanna Pelagatti – Università di Pisa
Advertisements

Training On Line - CONP. 2 Richiesta Da Menu: Conferimenti ad inizio anno termico > Agosto > Pluriennali > Nuova Richiesta Si accede alla pagina di Richiesta.
Funzioni e trasformazioni Vincenza Russo
Le distribuzioni di probabilità continue
Politecnico di Torino Tesi di Laurea
ITIS LATTANZIO Unità Didattica Materia Informatica Funzioni in C++
1 Semantica Operazionale di un frammento di Java: lo stato.
Obiettivo della tesi Percorso
FEM 2010, Roma 13 dicembre 2010 S. Ventre et all, Calcolo Elettromagnetico Intensivo per la soluzione di problemi basati su formulazione integrale Calcolo.
Training On Line – CONA. 2 Richiesta Da Menu: Conferimenti ad inizio anno termico > Agosto > Annuali > Nuova Richiesta Si accede alla pagina di Richiesta.
1 Progetto CASD A.A. 2009/2010 Triangulation PR kd-tree: un indice spaziale per la modellazione di terreni Introduzione Lindice spaziale PR kd-tree Lindice.
1 Facoltà di Economia U niversità degli Studi di Parma Corso di Economia Industriale Cap. 13 Anno Accademico
Roma, 4 Marzo 2008 Luso di R per il calcolo delle stime e degli errori Monica Scannapieco Internalizzazione dello Sviluppo Software Diego Zardetto Software.
1 14. Verifica e Validazione Come assicurarsi che il software corrisponda alle necessità dellutente? Introdurremo i concetti di verifica e validazione.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Copyright © The McGraw - Hill Companies, srl 1 Ordinamenti ottimi.
Algoritmi e Strutture Dati Capitolo 2 Modelli di calcolo e metodologie di analisi.
Algoritmi e Strutture Dati Capitolo 2 Modelli di calcolo e metodologie di analisi.
Algoritmi e Strutture Dati Capitolo 2 Modelli di calcolo e metodologie di analisi.
Algoritmi e Strutture Dati Capitolo 2 Modelli di calcolo e metodologie di analisi.
ISUFI Stato avanzamento lavori WP6 Roma – 24 novembre 05.
Apprendimento Automatico: Apprendimento Pigro (Lazy Learning)
Computational Learning Theory and PAC learning
Algoritmi Paralleli e Distribuiti a.a. 2008/09
A.S.E.13.1 ARCHITETTURA DEI SISTEMI ELETTRONICI LEZIONE N° 13 Alcune definizioniAlcune definizioni Algoritmo di sintesi ottima di Quine-McCluskeyAlgoritmo.
Realizzazione e caratterizzazione di una semplice rete neurale per la separazione di due campioni di eventi Vincenzo Izzo.
1 Querying - Parte II Modelli per la ricerca. 2 Rappresentazione e Vector Space (VS) Ogni doc. j è un vettore di valori tf idf Si può normalizzare a lunghezza.
Tema 1: Integrazione di dati provenienti da sorgenti eterogenee
II ESONERO Modelli di Sistemi Biologici II 11/06/2009h11 A.40 TEMA 1 1.Si consideri il modello minimo del glucosio (6) rappresentato dalle seguenti equazioni:
D2I - Tema 3 Analysis and comparison of methods and algorithms for data mining.
D2I: Integrazione,Warehousing e Mining di Sorgenti Eterogenee Prototipo per la traduzione di informazioni da modelli di dati sorgenti a modelli di dati.
D2I - Tema 3: Data Mining Stato di avanzamento Roma 13/11/2001.
D2I Integrazione, Warehousing e Mining di sorgenti eterogenee Tema 2: Progettazione e interrogazione di Data Warehouse Unita' coinvolte nel tema Università
Appunti da J.Sloman, Il Mulino
1 A cura di Vittorio Villasmunta Metodi di analisi dei campi meteorologici Corso di base sulluso del software di analisi meteorologica DIGITAL ATMOSPHERE.
Master universitario di II livello in Ingegneria delle Infrastrutture e dei Sistemi Ferroviari Anno Accademico 2012/2013 Cultura dimpresa, valutazione.
FACOLTÁ DI INGEGNERIA CORSO DI LAUREA INGEGNERIA INFORMATICA Progetto e Sviluppo di un Algoritmo di Scheduling per il Sistema RTAI Candidato: Luca Marzario.
Lezione 8 Numerosità del campione
Num / 36 Lezione 9 Numerosità del campione.
DIAGRAMMI DI FLUSSO Notazione grafica usata per descrivere in modo intuitivo le azioni di cui è fatto un algoritmo. Viene usata per descrivere i passi.
Cristian Colli Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Corso di Laurea in Ingegneria Informatica Anno Accademico 2001/2002.
Tecniche per lesecuzione efficiente di interrogazioni sul contenuto in collezioni MPEG-7 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria.
APPLICAZIONI DI INTELLIGENZA ARTIFICIALE ALLA MEDICINA
ITIS LATTANZIO Unità Didattica Materia Informatica Funzioni in C++
Unita DISI - Genova 1 Un modello multirisoluzione per dati spaziali o Modello multirisoluzione generale per dati bidimensionali (superfici) e tridimensionali.
Modellazione di terreni a risoluzione adattiva
Esercitazione 1: Rispetto al test di ansia (Media=25; σ=5), calcolare:
1 Guida per linsegnamento nei corsi per il conseguimento del CERTIFICATO DI IDONEITÀ ALLA GUIDA DEL CICLOMOTORE.
Prodotti e servizi Grapheur - take the plunge to Reactive Business Intelligence Reactive Search Optimization (RSO) software da inserire in prodotti/servizi.
Radix-Sort(A,d) // A[i] = cd...c2c1
Bando Arti Sceniche. Per poter procedere è indispensabile aprire il testo del Bando 2ROL - Richieste On Line.
TRASFORMAZIONI GEOMETRICHE
THE V*-DIAGRAM: A QUERY-DEPENDENT APPROACH TO MOVING KNN QUERIES Capoccia Emiliano - DIorio Andrea - Fontanelli Davide Sarana Nutanong Rui Zhang Egemen.
Towards Robust Indexing for Ranked Queries aa 09/10 Candeloro D. Orlando M. Pedone A. Gruppo 5.
Euristiche: algoritmi costruttivi e di ricerca locale
Index Land Surface for Efficient kNN Query Gruppo 2 Riccardo Mascia Roberto Saluto Relatore Roberto Saluto Cyrus Shahabi Lu-An TangSonghua Xing.
Voronoi-Based K Nearest Neighbor Search for Spatial Network Databases
Lancio dadi Analisi probabilità esito somme varie.
Fondamenti di Programmazione Prof.ssa Elisa Tiezzi
Cinematica di Galassie
Sviluppare un programma in C che, dato un array da 100 elementi interi caricato con numeri casuali compresi tra [10,100], sia in grado di cercare il valore.
Classificazione (aka Cluster Analysis)
IL GIOCO DEL PORTIERE CASISTICA. Caso n. 1 Il portiere nella seguente azione NON commette infrazioni.
UNIVERSITÀ DEGLI STUDI DI CATANIA FACOLTÀ DI SCIENZE MATEMATICHE, FISICHE E NATURALI Corso di Laurea in Scienze dell’Informazione Indici gerarchizzati.
Tema 2: progettazione e interrogazione di data warehouse
Riunione conclusiva della prima fase del progetto Dipartimento di Scienze dell’Ingegneria dell’Università di Modena e Reggio Emilia.
Analisi e Gestione del Rischio Lezione 7 Prodotti con pay-off non lineare.
Allineamento di sequenze
A.A Roma Tre Università degli studi “Roma Tre” Facoltà di Ingegneria Corso di Laurea in Ingegneria Elettronica Servizi di localizzazione a livello.
Sommario Analisi del dominio: i sistemi per la localizzazione
Università degli Studi di Cagliari FACOLTA’ DI INGEGNERIA
Transcript della presentazione:

D2I - Tema 3: Data Mining Stato di avanzamento Roma 11/10/2002

D2I - Tema 32 Prodotti - fase 3 D3.P1 Algoritmi di clustering incrementale di dati (BO) D3.P2 Risoluzione di query approssimate (BO) D3.P3 Prototipo per il meta-querying (CS) D3.P4 Sistema integrato di data mining e visualizzazione (RM)

D2I - Tema 33 Obiettivi - fase 3 Implementazione Raffinamento delle tecniche specifiche sviluppate nelle fasi precedenti e implementazione dei prototipi Visualizzazione Studio di tecniche di visualizzazione dei risultati dei vari algoritmi di data mining Integrazione Studio e raffinamento dellarchitettura del sistema integrato di mining e visualizzazione

D2I - Tema 34 Clustering di dati metrici Data mining engine per clustering Implementazione di algoritmi originali e da letteratura Delphi Librerie acquisite esternamente e integrate Architettura per integrazione con visualizzazione Aperto allinserimento di altri algoritmi

D2I - Tema 35 Stato di avanzamento Integrazione Definiti i dettagli dellarchitettura API XML Clustering incrementale Algoritmo implementato in fase di collaudo

D2I - Tema 36 Ricerche di similarità approssimate Problema di base: trovare efficientemente oggetti simili a uno dato Essenziale per DM interattivo/esplorativo ricerche esatte spesso troppo costose …e/o non necessarie (qual è la giusta query?) Idea generale: rilassare uno o più vincoli del problema Utilizzo dellapproccio PAC (rif. D3.R3) Possibilità, in fase di interrogazione, di: Controllare in maniera probabilistica lapprossimazione del risultato Ottenere un compromesso tra velocità di risoluzione della query e qualità del risultato. Scenario generale: spazi metrici

D2I - Tema 37 Implementazione del prototipo Interrogazioni considerate: range query (tutti i punti aventi una distanza dalla query minore di una soglia) k nearest neighbor query (i k punti più vicini alla query) Definizione di un errore ERR sul risultato dellinterrogazione Informazione di base: distribuzione delle distanze dei query point: F(x) = Pr{d(q,p) x} Tipicamente, query point distribuiti come i data point (ma non sempre) Implementazione degli algoritmi PAC Sequenziali Basati su M-tree

D2I - Tema 38 Risoluzione di PAC range query Input: q:Punto query r:Raggio di ricerca :Valore di errore ( 0) :Valore di confidenza ( [0, 1[ ) Output: Insieme di oggetti RES RES può non contenere tutti gli oggetti che hanno distanza da q r Lerrore è pertanto definito sulla cardinalità dellinsieme dei risultati ERR = 1 – card(RES)/card(R) dove R è il risultato della query esatta In pratica, lalgoritmo si ferma non appena la probabilità di trovare altri punti che soddisfano la query è inferiore a

D2I - Tema 39 Risoluzione di PAC k nearest neighbor Input: q:Punto query k:Cardinalità del risultato :Valore di errore ( 0) :Valore di confidenza ( [0, 1[ ) Output: Lista ordinata (per distanza crescente) di k oggetti RES RES può non contenere i primi k oggetti a minor distanza da q Lerrore è pertanto definito sulla distanza da q dei punti inclusi in RES ERR = max i {d(q, p i * )/d(q, p i ) – 1} dove p i * è ciascun punto incluso in RES e p i è il corrispondente punto nel risultato esatto In pratica, lalgoritmo si ferma non appena la probabilità di trovare punti più vicini a q di quelli in RES è inferiore a

D2I - Tema 310 Meta querying - stato di avanzamento Metaquerying Valutatore implementato in Java Integrazione Rilasciato package Java per integrazione con tool di visualizzazione

D2I - Tema 311 Data Mining visual environment Design Test di usabilità Semantica formale dellambiente di input Semantica operazionale