Basi di dati distribuite Prof. M.T. PAZIENZA a.a. 2003-2004.

Slides:



Advertisements
Presentazioni simili
Ricorsione in SQL-99.
Advertisements

Principale limitazione di AR e SQL-92: interrogazioni ricorsive
L’algoritmo PageRank.
S C O P E Il direttore dOrchestra eTecna. S C O P E è un gestore dei processi aziendali Non vuole sostituirsi ai gestionali già in uso nelle varie realtà
Intelligenza Artificiale 1
© 2007 SEI-Società Editrice Internazionale, Apogeo Unità A1 Introduzione a Java.
© 2007 SEI-Società Editrice Internazionale, Apogeo Unità C1 Il linguaggio SQL.
1 Introduzione ad XML. 2 Problemi con SGML Complesso da comprendere ed utilizzare Non è pensato per la rete: mancano link ipertestuali e specifiche grafiche.
Inizio… Linguaggi Linguaggi di programmazione Linguaggi di programmazione Linguaggi di programmazione Linguaggi di programmazione Linguaggi Formali Linguaggi.
una interfaccia internet per il sistema Momis
1 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Analisi.
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Progetto e sviluppo di.
Serializzazione di oggetti in formato XML nellambito del sistema MOMIS Davide Lenzi Chiar.mo Prof. Sonia Bergamaschi Chiar.mo Prof. Michele.
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica MOMIS: servizi di wrapping.
Principale limitazione di AR e SQL-92: interrogazioni ricorsive IMPIEGATO NOMENOMECAPO RossiVerdi NeriVerdi DeSio TucciDeSio DeLucaDeSio Lazio selezionare.
Il concetto di competenza
Sistemi di supporto alle decisioni 2. Features space
Le competenze professionali
Per crittografia si intende la protezione
JavaScript Laboratorio di Applicazioni Informatiche II mod. A.
Sistemi basati su conoscenza Conoscenza e ragionamento Prof. M.T. PAZIENZA a.a
Apprendimento Automatico: Elaborazione del Linguaggio Naturale
Informatica.science.unitn.it Un esempio di architettura basata sulluso di XML e XSL per la pubblicazione di un sito web.
Tema 1: Integrazione di dati provenienti da sorgenti eterogenee
L'alternanza scuola - lavoro.
Cos’è un CMS? Content Management System
Daniel Stoilov Tesi di Laurea
Architettura Java/J2EE
DBMS ( Database Management System)
GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.
19/04/2006 Esperienza NewsML Lo standard di trasmissione internazionale NewsML: lesperienza AGI. INCONTRO AGENZIE DI STAMPA ROMA, 19 APRILE 2006.
INFORMATICA MATTEO CRISTANI. INDICE CICLO DELLE LEZIONI LEZ. 1 INTRODUZIONE AL CORSO LEZ. 2 I CALCOLATORI ELETTRONICI LEZ. 3 ELEMENTI DI TEORIA DELL INFORMAZIONE.
Il componente Query Manager del sistema MOMIS: testing ed analisi delle performance UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA _____________________________________________________.
Il Semantic Web applicato ai percorsi formativi nelle organizzazioni innovative By CSTAdvising CSTAdvising, professionisti della conoscenza,
ACCESS Introduzione Una delle necessità più importanti in informatica è la gestione di grandi quantità di dati. I dati possono essere memorizzati.
Lo sviluppo del software e i linguaggi di programmazione
1 w w w. g a t 4. c o m WI GAT WebIngelligence rappresenta una piattaforma funzionale e tecnologica per la creazione e gestione di un datawarehouse che.
Applicazioni Web HTTP, HTML e CSS Elaborato da Gianluca Lauteri e Daniele Filannino.
Il metalinguaggio XML: la nuova frontiera per la codifica dellinformazione Relatore: Ing. Marco Porta Tesi di Laurea di: Andrea Mocchi ANNO ACCADEMICO.
1 Il Linguaggio SQL Il Linguaggio SQL Prof. Lorenzo Vita, Ing. Luigi Testa.
Il World Wide Web Lidea innovativa del WWW è che esso combina tre importanti e ben definite tecnologie informatiche: Documenti di tipo Ipertesto. Sono.
IMPLEMENTAZIONE TECNOLOGIE:HIBERNATE & JAVA RMI.
Linguaggi per COMUNICARE
ITCG “V. De Franchis” - PON FSE Modulo G/1 l’informatica”
Modulo 5 DataBase ACCESS. Informazioni e Dati INFORMAZIONI vengono scambiate con linguaggio scritto o parlato DATI rappresentazione di informazioni in.
L'organizzazione aziendale
Semantic Web. I problemi della ricerca in Web Querying  Ambiguità della formula Browsing  Arbitrarietà nei criteri di classificazione dei dati = Web.
NUOVE TECNOLOGIE Didattica della Chimica Organica - Prof. Cristina Cimarelli - TFA - AA
Organizzazione Aziendale
Dati e DBMS DBMS relazionali SQL Progettazione di un DBMS Normalizzazione Programma del Corso di Basi di Dati.
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
Fondamenti di Informatica II Ingegneria Informatica Prof. M.T. PAZIENZA a.a – 3° ciclo.
Riunione conclusiva della prima fase del progetto Dipartimento di Scienze dell’Ingegneria dell’Università di Modena e Reggio Emilia.
SISTEMI DIDATTICI PER L’ E- LEARNING
Servizi Internet Claudia Raibulet
Intelligenza Artificiale 2 Metodologie di ragionamento Prof. M.T. PAZIENZA a.a
Intelligenza Artificiale 1 Gestione della conoscenza lezione 18 Prof. M.T. PAZIENZA a.a
Indicizzazione di documenti semistrutturati Sistemi informativi – AA D’Este Laura.
Algoritmi e Programmazione (in C) Stefano Cagnoni e Monica Mordonini
Tecnologie della lingua Human Language Technology (HLT)
Basi di dati: introduzione parte prima Ernesto Damiani.
Università degli studi di Modena e Reggio Emilia Facoltà di Scienze Fisiche, Informatiche e Matematiche Corso di Laurea in Informatica Progettazione e.
Sviluppo ed implementazione di un software per il car pooling
1 Lixto tools evaluations for HTML data Integration in Momis Lixto tools evaluations for HTML data Integration in Momis Università degli Studi di Modena.
UN TENTATIVO DI DEFINIZIONE INTEGRATO
Dal problema al programma – ciclo di sviluppo del software La scrittura del programma è solo una delle fasi del processo di sviluppo di un'applicazione.
Data warehouse(B.2.8) Nei database ci sono molti dati di tipo diverso e ciascuna tipologia di dato può avere un formato diverso. Alcuni provengono da legacy.
Eurosoftware Autoproduzione TNT. Autoproduzione TNT è un modulo opzionale di Performance Courier. Basato sul protocollo standard TNT Express Label, il.
L’analisi dell’esperienza: alcuni concetti chiave Competenze emergenti e occupazione nel turismo A.A
Transcript della presentazione:

Basi di dati distribuite Prof. M.T. PAZIENZA a.a

XML e la GESTIONE DEI DOCUMENTI su WEB

TEXT MINING

Text Mining Necessità di elaborare testi automaticamente: Moltissime informazioni utili sono memorizzate nei testi Le pagine web HTML sono testi (con tag strutturati) Il Data Mining agisce su tabelle di dati (numeri, campi fissi, aderenza ai modelli dei dati) I testi sono pensati per essere letti dagli umani, non dai sistemi.

Text Mining Necessità di elaborare testi automaticamente: L’elaborazione del linguaggio naturale richiede sottosistemi sofisticati Si possono identificare sottoproblemi risolvibili in modo più semplice e, nel contempo, fornire risposte utili? Si, per es: la categorizzazione dei testi per topiche e l’estrazione di certi tipi di informazione dai testi liberi o da testi HTML strutturati

Text Mining Componenti del Text Mining: Categorizzazione per topiche o generi Fact extraction da testi Data Mining da basi di dati o da fatti estratti

Text Categorization Definizione: Assegna etichette a ciascun documento o pagina web Le etichette possono essere topiche del tipo:finanza, sport, notizie, affari,… Le etichette possono essere generi: editoriale, review, notizie Le etichette possono essere binarie: interessanti-per-me, non-interessanti-per- me,…

Text Categorization Metodo: 1.Assegnazione manuale di etichette 2.Regole codificate manualmente 3.(in genere se un documento contiene una data combinazione booleana di parole, allora assegna una categoria specifica) 4.Apprendimento automatico della funzione di etichettatura di un documento (es. k-Nearest Neighbors, Decision tree induction, support- vector machine…) dettagli in seguito

Gestione di dati XML Una gestione efficiente di dati XML affronta problemi collegati a: Memorizzazione ed indicizzazione Efficienza nell’elaborazione Definizione di appropriati modelli di dati e linguaggi di interrogazione Integrazione dei dati Vincoli di integrità Viste in un contesto XML …

Gestione di dati XML XML fornisce agli utenti finali (es. aziende) una piattaforma per la condivisione dei dati utilizzando una sintassi comune (XML non è semantica!) XML fornisce una integrazione dei dati su larga scala (e nuove misure di performance e complessità)

Gestione di dati XML / Data Base Nel campo delle basi dati la performance si misura in termini di “scaleup”: nella dimensione dei dati (una sorta di complessità dei dati), e nella dimensione delle query (complessità delle query)

Gestione di dati XML / Data Base Necessarie altre misure di performance con XML: Numero di sorgenti/file XML (complessità dei dati sorgente); se si integrano dati da sorgenti XML multiple, gli algoritmi devono “scaleup” nel numero delle sorgenti Indicazione di irregolarità: XML è concepito per supportare adeguatamente dati irregolari (anche se si può caratterizzare tale irregolarità che può influenzare aspetti differenti dell’elaborazione delle query)

XML / Data Integration Poiché XML fornisce una sintassi standard per rappresentare dati, si configura come una tecnologia a supporto dello scambio di informazioni sul WWW: l’integrazione di dati XML da sorgenti esterne multiple è un punto cruciale. Se non si raggiunge un accordo sulle DTD, XML non può supportare l’integrazione semantica dei dati.

XML / Data Integration Problemi da risolvere per l’integrazione: 1-Linguaggi per la descrizione dei contenuti e le capacità dei dati sorgente. Queste descrizioni forniscono un mapping semantico tra i dati sorgente e le relazioni in uno schema (intermedio) I tipi di dati strutturati che occorrono in XML sono più ricchi che nei dati relazionali Scaleup ad un numero di sorgenti molto grande Esplicitare la conoscenza contenuta nei DTD

XML / Data Integration Problemi da risolvere per l’integrazione: 2-Algoritmi di riformulazione di query. Necessità di sviluppare algoritmi per riformulare efficientemente le query utente (poste ad uno schema mediato) che si riferiscono ai dati sorgente

XML / Data Integration Problemi da risolvere per l’integrazione: 3-Traslazione tra DTD: Necessità di sviluppare tool per traslare dati XML conformi ad una DTD in un documento XML conforme ad una differente DTD (presumibilmente con un contenuto semantico correlato)

XML / Data Integration Problemi da risolvere per l’integrazione: 4-ottenere una descrizione della sorgente: Necessità di sviluppare metodi per calcolare automaticamente o semi-automaticamente la descrizione delle nuove sorgenti di dati XML