Basi di dati distribuite Prof. M.T. PAZIENZA a.a
XML e la GESTIONE DEI DOCUMENTI su WEB
TEXT MINING
Text Mining Necessità di elaborare testi automaticamente: Moltissime informazioni utili sono memorizzate nei testi Le pagine web HTML sono testi (con tag strutturati) Il Data Mining agisce su tabelle di dati (numeri, campi fissi, aderenza ai modelli dei dati) I testi sono pensati per essere letti dagli umani, non dai sistemi.
Text Mining Necessità di elaborare testi automaticamente: L’elaborazione del linguaggio naturale richiede sottosistemi sofisticati Si possono identificare sottoproblemi risolvibili in modo più semplice e, nel contempo, fornire risposte utili? Si, per es: la categorizzazione dei testi per topiche e l’estrazione di certi tipi di informazione dai testi liberi o da testi HTML strutturati
Text Mining Componenti del Text Mining: Categorizzazione per topiche o generi Fact extraction da testi Data Mining da basi di dati o da fatti estratti
Text Categorization Definizione: Assegna etichette a ciascun documento o pagina web Le etichette possono essere topiche del tipo:finanza, sport, notizie, affari,… Le etichette possono essere generi: editoriale, review, notizie Le etichette possono essere binarie: interessanti-per-me, non-interessanti-per- me,…
Text Categorization Metodo: 1.Assegnazione manuale di etichette 2.Regole codificate manualmente 3.(in genere se un documento contiene una data combinazione booleana di parole, allora assegna una categoria specifica) 4.Apprendimento automatico della funzione di etichettatura di un documento (es. k-Nearest Neighbors, Decision tree induction, support- vector machine…) dettagli in seguito
Gestione di dati XML Una gestione efficiente di dati XML affronta problemi collegati a: Memorizzazione ed indicizzazione Efficienza nell’elaborazione Definizione di appropriati modelli di dati e linguaggi di interrogazione Integrazione dei dati Vincoli di integrità Viste in un contesto XML …
Gestione di dati XML XML fornisce agli utenti finali (es. aziende) una piattaforma per la condivisione dei dati utilizzando una sintassi comune (XML non è semantica!) XML fornisce una integrazione dei dati su larga scala (e nuove misure di performance e complessità)
Gestione di dati XML / Data Base Nel campo delle basi dati la performance si misura in termini di “scaleup”: nella dimensione dei dati (una sorta di complessità dei dati), e nella dimensione delle query (complessità delle query)
Gestione di dati XML / Data Base Necessarie altre misure di performance con XML: Numero di sorgenti/file XML (complessità dei dati sorgente); se si integrano dati da sorgenti XML multiple, gli algoritmi devono “scaleup” nel numero delle sorgenti Indicazione di irregolarità: XML è concepito per supportare adeguatamente dati irregolari (anche se si può caratterizzare tale irregolarità che può influenzare aspetti differenti dell’elaborazione delle query)
XML / Data Integration Poiché XML fornisce una sintassi standard per rappresentare dati, si configura come una tecnologia a supporto dello scambio di informazioni sul WWW: l’integrazione di dati XML da sorgenti esterne multiple è un punto cruciale. Se non si raggiunge un accordo sulle DTD, XML non può supportare l’integrazione semantica dei dati.
XML / Data Integration Problemi da risolvere per l’integrazione: 1-Linguaggi per la descrizione dei contenuti e le capacità dei dati sorgente. Queste descrizioni forniscono un mapping semantico tra i dati sorgente e le relazioni in uno schema (intermedio) I tipi di dati strutturati che occorrono in XML sono più ricchi che nei dati relazionali Scaleup ad un numero di sorgenti molto grande Esplicitare la conoscenza contenuta nei DTD
XML / Data Integration Problemi da risolvere per l’integrazione: 2-Algoritmi di riformulazione di query. Necessità di sviluppare algoritmi per riformulare efficientemente le query utente (poste ad uno schema mediato) che si riferiscono ai dati sorgente
XML / Data Integration Problemi da risolvere per l’integrazione: 3-Traslazione tra DTD: Necessità di sviluppare tool per traslare dati XML conformi ad una DTD in un documento XML conforme ad una differente DTD (presumibilmente con un contenuto semantico correlato)
XML / Data Integration Problemi da risolvere per l’integrazione: 4-ottenere una descrizione della sorgente: Necessità di sviluppare metodi per calcolare automaticamente o semi-automaticamente la descrizione delle nuove sorgenti di dati XML