27-28.5.2003Workshop di Rimodulazione1 WP6 - Knowledge services for intensive data analysis and intelligent query answering Responsabile: Franco Turini.

Slides:



Advertisements
Presentazioni simili
Dipartimento di Informatica
Advertisements

Survey su ADL XML-Based
Accesso ai dati su Relational Database Management Systems LSA - Laboratorio di Sistemi Informativi Economico-Aziendali Salvatore Ruggieri Dipartimento.
Progetto: MAIS Multichannel Adaptive Information System B. Pernici Milano, 3-4 dicembre 2002.
© 2007 SEI-Società Editrice Internazionale, Apogeo Unità B1 Introduzione alle basi di dati.
ISA Server 2004 Enterprise Edition Preview. ISA Server 2004.
REGIONE PUGLIATECNOPOLIS CSATA Sustainable and Effective Entrepreneurship Development Scheme INTERREG IIIB – CADSES WORKSHOP LA PUGLIA DELLA COOPERAZIONE.
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Progetto e sviluppo di.
Università degli studi di Modena e Reggio Emilia
Cluster openMosix Linux Day ’04 Caserta Ing. Diego Bovenzi.
Chiara Francalanci Politecnico di Milano SMAU 22 Ottobre 2004.
Distributed Object Computing
Towards Evolving Knowledge based iNternet-worked Enterprise TEKNE.
Prototipo di uno strumento per la produzione di siti Web adattativi in grado di gestire varie coordinate di adattamento Riccardo Torlone Milano, novembre.
A. Maurino, N. Simeoni- Politecnico di Milano e CEFRIEL Risk Management in Archeology Stato di avanzamento Risk Management in Archeology Stato di avanzamento.
Architettura Three Tier
Remote file access sulla grid e metodi di interconnesione di rete M. Donatelli, A.Ghiselli e G.Mirabelli Infn-Grid network 24 maggio 2001.
Architettura del World Wide Web
Future Astronomical Software Environment
XML e la generazione di cataloghi multimediali F. Garzotto, L. Mainetti, P. Paolini Politecnico di Milano HOC - Hypermedia Open Center Dipartimento di.
Piattaforme abilitanti per griglie computazionali ad alte prestazioni orientate a organizzazioni virtuali scalabili Rimodulazione WP8 High-performance.
WP12 Gruppi impegnati Univ. Padova, A. Apostolico,
Workshop CNAF – Bologna 8 Luglio 2011 FARO Accesso Web a risorse e servizi remoti in ambiente Grid/Cloud A. Rocchi, C. Sciò, G. Bracco, S. Migliori, F.
Modello Relazionale Definisce tipi attraverso il costruttore relazione, che organizza i dati secondo record a struttura fissa, rappresentabili attraverso.
Tecniche per lesecuzione efficiente di interrogazioni sul contenuto in collezioni MPEG-7 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria.
Architettura Java/J2EE
Università di Roma La Sapienza Dipartimento di Informatica e Sistemistica Progetto IS-MANET WP3: Algoritmi e modelli Milano
Distributed File System Service Dario Agostinone.
LNL M.Biasotto, Bologna, 13 dicembre Installazione automatica Massimo Biasotto – INFN LNL.
Chinosi Michele – matr.: La seconda release di Virtuose basata su database XML La seconda release di Virtuose basata su.
UNIVERSITA’ POLITECNICA DELLE MARCHE
U N INFRASTRUTTURA DI SUPPORTO PER SERVIZI DI FILE HOSTING Matteo Corvaro Matricola Corso di Reti di Calcolatori LS – Prof. A. Corradi A.A.
Docente: Roberto Basili Fond Inf (a.a ) Introduzione alla Progettazione Concettuale R. Basili.
Servizi Grid ed agenti mobili : un ambiente di sviluppo e delivering
Motori di Ricerca presente e futuro prossimo
Sistemi Informativi sul Web
Tesi di Laurea in Ingegneria Informatica
Microsoft Office System Introduzione a XML in Office 2003.
TANGO - WP4 - Milano - 27 Febbraio 2003 Progetto TANGO Attività WP 4 Test Bed Sperimentali Milano - 27 Febbraio 2003.
Presentazione del problema Obiettivo: Lapplicazione di Search of Sematic Services permette di ricercare sevizi semantici, ossia servizi a cui sono associati.
Risultati complessivi Diego Ragazzi
Simulatore per un servizio di consistenza su architettura Grid
Dati e DBMS DBMS relazionali SQL Progettazione di una base di dati Programma del Corso.
FairPeers Progettazione ed implementazione di un servizio di file management tramite Pastry.
Distributed System ( )7 TCP/IP four-layer model.
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA DIPARTIMENTO DI INGEGNERIA “Enzo Ferrari” Corso di Laurea in Ingegneria Informatica Anno Accademico 2013/2014.
Tipo Documento: unità didattica 4 Modulo 14 Compilatore: Antonella Bolzoni Supervisore: Data emissione: Release: Indice: A.Scheda informativa B.Introduzione.
SCHEDA INFORMATIVA DI UNITÀ
PART 3: DATA ANALYSIS THROUGH OMNIFIND. Il cliente: una sorgente importante di informazioni Mercato iper-competitivo, altamente caotico. Cliente al centro.
10 azioni per lo scheduling su Grid Uno scheduler per Grid deve selezionare le risorse in un ambiente dove non ha il controllo diretto delle risorse locali,
Giuseppe Gramazio e Massimo Legnani Framework integrato per il delivery di applicazioni context aware, multimodali e accessibili – SAF (Situation aware.
TW Asp - Active Server Pages Nicola Gessa. TW Nicola Gessa Introduzione n Con l’acronimo ASP (Active Server Pages) si identifica NON un linguaggio di.
Progettazione di dati e applicazioni per il Web S. Ceri, P. Fraternali, A. Bongio, M. Brambilla, S. Comai, M. Matera Copyright © The McGraw-Hill.
Support for Emulation of Services and Applications in Mobile Environments with Bluetooth Gruppo: Davide Bonomo Salvatore Baglieri Referente: Ing. Dario.
Progetto di Ingegneria del Web Anno Accademico 2007/2008 Stefano Pigiani Bruno Ricci Marco Ruzzon.
Riunione conclusiva della prima fase del progetto Dipartimento di Scienze dell’Ingegneria dell’Università di Modena e Reggio Emilia.
Servizi Internet Claudia Raibulet
Indicizzazione di documenti semistrutturati Sistemi informativi – AA D’Este Laura.
Layered Grid Architecture. Application Fabric “Controlling elements locally”: Access to, & control of, resources Connectivity “Talking to Grid elements”:
Basi di dati Funzionalità e Progettazione Giorgio Ghelli.
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
ICT e Sistemi informativi Aziendali Materiale di supporto alla didattica.
Progetti 2015/2016. Proj1: Traduzione di regole snort in regole iptables Snort: – analizza i pacchetti che transitano in rete, confrontandoli con un database.
Sistemi distribuiti Sistema distribuito indica una tipologia di sistema informatico costituito da un insieme di processi interconnessi tra loro in cui.
Storage (ieri, oggi e domani) Luca dell’Agnello INFN-CNAF.
Programmazione orientata agli Oggetti Introduzione a Java.
Open City Platform è un progetto finanziato da Application Store Tutorial 30/09/2015.
XzelCloud Cloud Advanced Services on large-scale Federated Infrastructures Call ICT-7 (23 Apr ‘14) Marco Verlato (INFN-PD)
FESR Trinacria Grid Virtual Laboratory Workload Management System (WMS) Muoio Annamaria INFN - Catania Primo Workshop TriGrid VL Catania,
FESR Trinacria Grid Virtual Laboratory AMGA Web Interface Salvatore Scifo TRIGRID Second TriGrid Checkpoint Meeting Catania,
Transcript della presentazione:

Workshop di Rimodulazione1 WP6 - Knowledge services for intensive data analysis and intelligent query answering Responsabile: Franco Turini (UniPI) Membri TB: Dino Pedreschi (UniPI) Domenico Saccà (ICAR-CNR)

Workshop di Rimodulazione2 WP6 - Obiettivi Costruzione di servizi di middleware per applicazioni e processi knowledge intensive: estrazione e ricerca di informazione e conoscenza da fonti strutturate (basi di dati, data warehouses) semi-strutturate (pagine web, documenti XML) utilizzo dellinformazione e della conoscenza estratta per servizi ad alte prestazioni di search, di retrieval e di query answering (efficienza e qualità di servizio)

Workshop di Rimodulazione3 WP6 - Approccio Basic services: per data management e performance Knowledge services: per applicazioni e computazioni di knowledge discovery distribuite Retrieval services: per il recupero di informazioni sul Web basic services knowledge services retrieval services

Workshop di Rimodulazione4 WP6 – Basic services resource discovery and description accesso ai dati compressione e ricerca sui dati primitive di data mining, di data preprocessing grid mining (attività fortemente esplorativa) Partecipano: ICAR-CNR CS (Talia, Saccà) ISTI-CNR PI (Giannotti, Perego) UniPI (Ferragina, Ghelli, Pedreschi, Ruggieri)

Workshop di Rimodulazione5 WP6 – Low-level Basic Services High-performance web switching Partecipano: UniPI (Attardi) IEIIT-CNR TO (De Martin) PoliTO (Meo)

Workshop di Rimodulazione6 WP6 – Knowledge services ambienti di supporto al processo di knowledge discovery linguaggi di interrogazione per data mining Partecipano ICAR-CNR CS (Talia, Saccà) ISTI-CNR PI (Giannotti) UniPI (Pedreschi, Ruggieri, Turini)

Workshop di Rimodulazione7 WP6 – Retrieval services focused crawling su grid Partecipano: UniPI (Starita) UniPD (Sperduti) UniSI (Gori, Maggini) UniFI (Frasconi, Soda)

Workshop di Rimodulazione8 Basic Services: stato e prospettive Grid DB per resource discovery and description Strumenti per XML indexing and compression Architettura di integrazione di strumenti di Data Mining su GRID Open Web Switching

Workshop di Rimodulazione9 GRID DB per resource discovery and description Principal Investigator: Giorgio Ghelli

Workshop di Rimodulazione10 Background Mancanza di servizi dati DB-like nei toolkit standard Progetti esistenti Datagrid: non DB oriented Spitfire: accesso distribuito a basi di dati relazionali Polar*: riformulazione in ambito GRID del DBMS parallelo ad oggetti Polar GGF DAIS-WG: servizi per laccesso a DB esistenti

Workshop di Rimodulazione11 Obiettivi del nostro progetto Lattenzione è spesso focalizzata sulle problematiche tradizionali di decomposizione dei piani di accesso e gestione distribuita delle transazioni Noi vogliamo focalizzare lattenzione sulle problematiche peculiari della griglia: dinamicità della struttura dellOrganizzazione Virtuale integrazione di domini amministrativi diversi (se possibile) high performance

Workshop di Rimodulazione12 Il nostro obiettivo Progettare un Semistructured GRID- DB, ovvero un DB GRID-distribuito caratterizzato da: struttura distribuita e dinamica, ovvero la capacità di accettare lapparizione e sparizione di componenti del sistema modello dei dati semistrutturato utilizzo di linguaggi standard (XQuery) e protocolli standard (LDAP like?) per laccesso

Workshop di Rimodulazione13 Applicazioni tipiche Complementare lapproccio tradizionale; ad esempio: il GRID-DB per gestire i metadati, e i database federati per gestire i dati il GRID-DB per affiancare la gerarchia GRIS-GIIS quando il modello dei dati del GRIS (LDAP data model) non è sufficiente

Workshop di Rimodulazione14 Integrazione nellambito del progetto Metteremo a disposizione gli strumenti da noi sviluppati nellambito del WP6 integrandoci in particolare con le attivita di: adattamento allarchitettura grid di un ambiente di knowledge discovery basato su XML livello core dei basic services for knowledge discovery on grids Disponibili ad un integrazione con altri WP

Workshop di Rimodulazione15 Gruppo di lavoro Sartiani (borsa Giugno 2003 – Maggio 2003) Ghelli, Manghi, Albano, Conforti

Workshop di Rimodulazione16 Deliverables 12 mesi: un documento di progettazione dellarchitettura, modello dei dati, linguaggio, e protocollo del GRID-DB 18 mesi: documento di progettazione del prototipo 30 mesi: prototipo 36 mesi: rapporto sulla sperimentazione del prototipo

Workshop di Rimodulazione17 Strumenti per XML indexing and compression Principal Investigator: Paolo Ferragina

Workshop di Rimodulazione18 Attività svolte: XML indexing and compression IR oriented: indice testuale non specializzato allXML Le ricerche su testo+struttura possono essere molto lente Flat: nessun preprocessing del file e ricerca per scansione (SAX o DOM) – Molto lento e, nel caso del DOM, si usa molta memoria Database oriented: uso di un DBMS a oggetti o relazionale – Abbiamo bisogno di indici extra, loccupazione in spazio aumenta – Query strutturali necessitano di numerose join, e sono quindi lente XML nativo: tecniche ad hoc di storage e indicizzazione per XML XCDE Library: approccio nativo, e pressocchè unico nel suo genere Libreria C con licenza LGPL, altamente personalizzabile Tecniche indicizzazione e compressione allo stato dellarte

Workshop di Rimodulazione19 XCDE Library: deliverable e ricerche future Documenti e indici in forma compressa (tutto entro la dimensione originale del file) Supporto a query testuali e strutturali complesse (errori, regexp, proximity, nesting,...) Relizzazione per single-machine e studio di fattibilità per lestensione al Grid Disk XCDE Library XML Query solver Data engine API Context engine Text engineTag engine Console Query engine API Context extractor Text query solver Tag-Attribute query solver Piani futuri: Realizzazione di primitive di query più potenti, vicino a XQuery e orientate ai testi Uso come componente base di applicazioni del WP6 Nuove tecniche di compressione e indicizzazione su file XML 1° anno

Workshop di Rimodulazione20 Architettura di integrazione di strumenti di Data Mining su GRID Principal Investigators: Mimmo Talia, Mimmo Sacca`

Workshop di Rimodulazione21 Obiettivi 1) le attivita` che saranno svolte con chiari riferimenti al contesto del progetto Realizzazione di una architettura per supportare applicazioni di KDD parallele e distribuite su Griglie computazionali (Knowledge Grid). Larchitettura permette di integrare strumenti e algoritmi di data mining con gli ambienti di Grid computing. Definizione e realizzazione di un sistema di distribuzione e aggregazione di fonti informative Il sistema permette di rappresentare una fonte informativa (ad esempio stream data) come una rete di viste con diversi livelli di aggregazione in modo che ogni nodo abbia nella sua vista i dettagli dei dati di sua pertinenza e un sintesi di quelli presenti presso altri nodi

Workshop di Rimodulazione22 Risultati 2) i primi risultati ottenuti in questi primi mesi Schema funzionale dellarchitettura del KDD parallelo e distribuito e definizione delle componenti di base e delle loro interfacce. Definizione di algoritmi e modelli di aggregazione di datacube e stream data e loro distribuzione su griglia 3) i deliverable del primo anno Documenti di specifica dellarchitettura del KDD parallelo e distribuito e sviluppo di un primo prototipo realizzato su Globus Toolkit. Documenti di specifica per la aggregazione e distribuzione di datacube e prototipo di un sistema distribuito di gestione di stream data

Workshop di Rimodulazione23 Web Switching Gruppo di Lavoro: Centro Serra, Università di Pisa Giuseppe Attardi Vivek Sinha Stefano Suin

Workshop di Rimodulazione24 Setting Large number of transactions (>1000/sec) Large amount of data (billions of documents) Internet Clients Web Switch Server Farm

Workshop di Rimodulazione25 Switch Technology Local Director with Direct Routing Web Switch Interne t Internal Network Requests Single IP address Replies go directly to clients

Workshop di Rimodulazione26 Details IP packet forwarding: Modified Linux kernel Switch chooses server and changes MAC address of packet Switch maintains table of connections, to ensure persistency Each server connects to outside with same IP: Modified Linux kernel to avoid responding to ARP

Workshop di Rimodulazione27 Status Experimenting with Linux Virtual Server Benchmarks and testing with RLX blade server

Workshop di Rimodulazione28 Test beds Distributed Crawler Goal: collect 300 million Web documents in a month Distributed Search Engine Collection partitioned into several indexes Cluster for each partition Web Switch redirects to various clusters

Workshop di Rimodulazione29 Open Web Switching Gruppo di lavoro: Politecnico di Torino/IEIIT- CNR Espedito Antonio Mancuso Juan Carlos De Martin Angelo Raffaele Meo

Workshop di Rimodulazione30 Attività Obiettivo: sostituire i layer-7 switch - costosi e proprietari - con web switch ai margini della rete - economici, flessibili ed aperti Switching: MPLS-based Piattaforma: Linux Risultati: Progettato architettura complessiva (v. rapporto tecnico)

Workshop di Rimodulazione31 Attivita` Obiettivo: sostituire i layer-7 switch –costosi e proprietari- con web switch ai margini della rete – economici, flessibili e aperti. Switching: MPLS-based Piattaforma: Linux Deliverable: progetto dellarchitettura complessiva

Workshop di Rimodulazione32 Knowledge Services: stato e prospettive Knowledge Grid Costruzione di ambienti di KDD su Grid

Workshop di Rimodulazione33 Knowledge Grid Principal Investigators: Mimmo Talia Mimmo Sacca`

Workshop di Rimodulazione34 Attivita ` 1) le attivita` che saranno svolte con chiari riferimenti al contesto del progetto Realizzazione di strumenti di alto livello per lo sviluppo di processi di KDD su Griglie computazionali costruiti a partire dellarchitettura e dei servizi di base della Knowledge Grid Progettazione e sviluppo di metodi, strumenti e meccanismi basati su XML per la descrizione di risorse e processi di KDD, la loro ricerca e integrazione sulla Griglia Sviluppo di una ontologia per il data mining da usare nella Knowledge Grid

Workshop di Rimodulazione35 Attivita` (2) Definizione e realizzazione prototipale di un ambiente per la composizione di risorse e servizi disponibili su griglia, modellati tramite un workflow, e per lanalisi, la predizione e il monitoraggio degli scenari di utilizzo attraverso lintegrazione di tecniche di Knowledge Discovery e di Reasoning Definizione e sviluppo di tecniche di data mining per lanalisi di workflow di composizione di servizi su griglia al fine di individuare pattern frequenti, situazioni di probabile successo (o insuccesso) e per ristrutturare la composizione al fine di aumentare la qualità complessiva

Workshop di Rimodulazione36 Risultati 2) i primi risultati ottenuti in questi primi mesi Definizione di un servizio di informazione per la Knowledge Grid. Progettazione di uno strumento per lo sviluppo di applicazioni KDD sulla Griglia. Definizione di un modello deduttivo-induttivo per la definizione di workflow di servizi e la predizione di scenari di comportamento Definizione di tecniche di mining di regole associative su istanze di workflow rappresentate come grafi

Workshop di Rimodulazione37 Deliverables 3) i deliverable del primo anno Documenti sulle tematiche elencate. Prototipi di strumenti e servizi di alto livello per KDD sulla Griglia.

Workshop di Rimodulazione38 Ambienti di KDD su Grid Principal Investigators: Fosca Giannotti,Salvatore Ruggieri, Dino Pedreschi, Franco Turini

Workshop di Rimodulazione39 Strategia marcatura stretta dei risultati del WP8 ovvero: 1.sequenziale 2.parallelo 3.GRID-aware

Workshop di Rimodulazione40 Sistema KDDML Principio base: utilizzo di XML come linguaggio per la interoperabilità un documento XML si dice valido se rispetta le specifiche definite nella corrispondente DTD (Document Type Definition) forte espressività del QL sistema aperto KDDML In KDDML (KDD Markup Language): implementazione in Java ogni modello (RDA, Alberi, Clusters) viene rappresentato come un documento XML (KDD_OBJECT) anche i problemi di estrazione di conoscenza sono documenti XML (KDD_QUERY)

Workshop di Rimodulazione41 Architettura originaria di KDDML Componente esterna Repository Componente implementata Classe XML Query Executor WEKA Sorgente Dati Graphic User Interface Browser Wrappers Operatori LotusXSL XML-DOM rappresentation RunTimeException Paths Legenda:

Workshop di Rimodulazione42 Esecuzione seq. di una KDD query Ad ogni documento XML che rappesenta il modello o la query puo essere associato un albero DOM (Document Object Model). Utile dare al programmatore una visione concettuale dei dati contenuti nel documento. Disponibili interfacce per manipolare e leggere i nodi dellalbero (getChilds(), getAttribute() …). Il QueryExecutor di KDDML effettua una visita in profondità dellalbero DOM che rappresenta la query da eseguire. Per ogni operatore individuato si richiama la classe corrispondente per lesecuzione.

Workshop di Rimodulazione43 Come parallelizzare lesecuzione? Introduzione in KDDML di un operatore esplicito di parallelismo: Parallel Operatori scelti: And_Or_Committee Rule_Exception Rule_Support Preserved_Rules Classify Take_By_If Motivazioni: consentono lannidamento di sotto operatori vi si puo applicare il Task Parallel utilizzo della strategia Replicazione degli alg. DM seq.

Workshop di Rimodulazione44 Architettura del sistema parallelo pipe JVM2 ASSIST JVM1 GUI Query_Executor Parallel FileAstJava KDD Query File risultati AstFile Operatori Parquery_Executor Wrappers JavaVm.hpp File System librerie File.ast Flusso dei dati classi Package Legenda:

Workshop di Rimodulazione45 Deliverables versione parallela di KDDML progetto di integrazione di algoritmi di DM paralleli Studio di fattibilita` sul Grid Mining

Workshop di Rimodulazione46 Retrieval services focused crawling su grid Principal Investigators: Antonina Starita, Alessandro Sperduti, Marco Gori, Paolo Frasconi

General purpose search engines must trade recency for coverage Coverage: fraction of Web documents that are crawled and indexed Recency: index is -current at time if no changes occurred in Motivations

Crawl the Web only for a specific topic Given the available bandwidth both coverage and recency will be high for that topic AI algorithms are necessary to: decide whether or not a page is off-topic predict whether following out-links from a given page will increase coverage filter crawled documents Different machine learning tools may be used Focused crawling

Crawling: Use grid infrastructure to distribute crawling activity on several nodes Learning and categorization: Very large collections of (physically distributed) documents Large number of classes Exploit link analysis Objectives

1st year Prototype of a learning and categorization service deployed on the grid 2nd year Deployment of a service capable of dynamic management of classification agents First prototype of parallel distributed crawlers 3rd year Implementation and testing of the adaptive focused crawler Deliverables