ESTRAZIONE DI ENTITÀ NON NOTE NON STRUTTURATI UTILIZZANDO LA

Slides:



Advertisements
Presentazioni simili
Approximate Sequence Matching: Implementazione e Analisi Prestazionale
Advertisements

Presentazione della tesi di laurea di Flavio Casadei Della Chiesa Newsletter: un framework per una redazione web.
Architettura del sistema
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA
CORSO DI SICUREZZA SU RETI II PROF. A. DE SANTIS ANNO 2006/07 Informatica granata Gruppo 2 ISP Gruppo 3 ISP.
Architettura MySQL E Motori MySQL L. Vigliano.
DBMS (DataBase Management System)
© 2007 SEI-Società Editrice Internazionale, Apogeo Unità B1 Introduzione alle basi di dati.
Unità D2 Database nel web. Obiettivi Comprendere il concetto di interfaccia utente Comprendere la struttura e i livelli che compongono unapplicazione.
© 2007 SEI-Società Editrice Internazionale, Apogeo Unità C1 Il linguaggio SQL.
Structured Query Language (SQL) Presentazione 13.1 Informatica Generale (Prof. Luca A. Ludovico)
Connessione con MySQL.
una interfaccia internet per il sistema Momis
Nana Mbinkeu Rodrigue Carlos 1 DB unimo OTTIMIZZAZIONE DI QUERY IN MOMIS Università degli studi di Modena e Reggio Emilia Relatore: Prof. Sonia.
WebProfessional Web Content Management System
Università degli studi di Modena e Reggio Emilia
1 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Relatore:
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Analisi.
SQL92 e XQuery1.0 a confronto1 SQL92 E XQUERY1.0 A CONFRONTO Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria - Sede di Modena Corso.
Re-engineering del wrapper XML Schema per il sistema MOMIS
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Semantic.
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica MOMIS: servizi di wrapping.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea in Ingegneria Informatica Integrazione di WordNet Domains.
Analisi e Contromisure di tecniche di Sql Injection
UNIVERSITA’ DEGLI STUDI DI MODENA E REGGIO EMILIA
Università degli studi di Modena e Reggio Emilia Progetto e realizzazione di un tool di sincronizzazione database server – palmare per il controllo del.
Biglietti: schema E/R.
1 Biglietti: schema E/R. 2 Biglietti: albero degli attributi.
Esercitazioni del Corso di Sistemi Informativi Marina Mongiello
Esercitazioni del Corso di Sistemi Informativi Marina Mongiello
Il progetto Media Library e nuovi servizi via web Gabriele Iotti 18 novembre Biblioteca di Scandiano Conferenze di Servizio.
Progetto e Sviluppo di un algoritmo per la gestione della Federazione Interdominio in unarchitettura di Service Discovery Candidato: XXX Roma, Febbraio.
Basi di dati Università Degli Studi Parthenope di Napoli
Gruppo ISP1 Commessa tuttipunti.org. Sommario Descrizione commessa Organizzazione del lavoro Lavoro svolto Problematiche di sicurezza Impostazioni di.
INFORMATICA E TECNOLOGIA DELLA COMUNICAZIONE IN RETE MODULO 2
2) Sistemi operativi Lab. Calc. AA2004/05 - cap.2.
Esercitazione.
Duplicati Lalgebra relazionale non ammette duplicati, SQL li ammette. Quindi select Città from Persona where Cognome= Rossi estrae una lista di città in.
Presentazione a cura diSlide n.1 AVIPA 1. Presentazione generale dell'ambiente software Viterbo, 10 Dicembre 2008.
Daniel Stoilov Tesi di Laurea
Università degli studi di Modena e Reggio Emilia Facoltà di Ingegneria Enzo Ferrari Modena Corso di Laurea in Ingegneria Informatica PROGETTO E SVILUPPO.
Viste. Cosè una vista? è possibile creare un subset logico di dati o una combinazione di dati una vista è una tabella logica basata su una tabella o su.
Reti di Calcolatori L-S Un Sistema Decentrato di Allocazione del Carico per Applicazioni di Calcolo Distribuito Mauro Bampo.
BRIDGE-3K Verso il futuro La migrazione dai sistemi HP3000. Un ponte verso il futuro conservando la cultura e le risorse aziendali. NOVITA 2007.
Chinosi Michele – matr.: La seconda release di Virtuose basata su database XML La seconda release di Virtuose basata su.
UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA FACOLTÀ DI INGEGNERIA DI MODENA Corso di Laurea Specialistica in Ingegneria Informatica PROGETTO E REALIZZAZIONE.
Archivi Amministrazione Contabile Verticali Import Export Configuratore.
La gestione delle informazioni non strutturate Roma, 15 novembre 2007.
Analisi (Analista) Progettazione (Progettista) Sviluppo o Traduzione (Sviluppatore) Documentazione.
BROKER SERVER Progetto di Ingegneria del Web 2008 Alessio Bianchi Andrea Gambitta Giuseppe Siracusano.
sql: esempi di linguaggio sql nell'implementazione mysql
Progetto Ingegneria del Software
Corso Laboratorio di Basi Dati II Usability Lab 2007 Corso Laboratorio di Basi Dati II Elementi di Progettazione di Basi di Dati Multimediali in rete Metodologie.
CORSI DI FORMAZIONE - Basi di Dati: MySql - Parte 4 - Dicembre Utenti e privilegi del database - 1 Root è lutente amministratore predefinito, ma.
DATABASE Introduzione
UNIVERSITA' DEGLI STUDI DI MILANO Facoltà di Scienze Matematiche, Fisiche e Naturali Corso di Laurea in Informatica Analisi, progettazione e realizzazione.
Corso di WebMaster Mercoledì 14 Novembre. Parte I – Introduzione al Corso Lezione 1: Presentazione Descrizione Breve del Corso Semplice Valutazione.
1 Sistemi Informativi e Servizi in Rete Università degli Studi di Brescia Facoltà di Ingegneria Parsing di documenti XML Esercizi.
N4N Platform Architecture PA Inside outlook.
Programmazione Web PHP e MySQL 1. 2Programmazione Web - PHP e MySQL Esempio: un blog.
Interazione col DB Per interagire con una base dati da una pagina PHP occorre procedere come segue: Eseguire la connessione al DBMS MySQL in ascolto;
Database Elaborato da: Claudio Ciavarella & Marco Salvati.
B IBLIO S ERVICE consultazione di articoli online Anna Riccioni Progetto per il corso di Reti di Calcolatori L-S Anno Accademico
Pop-Up Card Duel Realizzazione di un videogioco di carte in JAVA
Istituto Tecnico Industriale Don Orione Fano
Joomlahost.it1 Presentato da Fustini Alessandro Myslq DBA e Developer certified Joomlahost.it.
A scuola con Leopardi Realizzazione di un videogioco formativo
Eprogram informatica V anno.
Università degli studi di Modena e Reggio Emilia Facoltà di Scienze Fisiche, Informatiche e Matematiche Corso di Laurea in Informatica Progettazione e.
Transcript della presentazione:

ESTRAZIONE DI ENTITÀ NON NOTE NON STRUTTURATI UTILIZZANDO LA DA CORPUS DI DOCUMENTI NON STRUTTURATI UTILIZZANDO LA TECNOLOGIA COGITO Relatore: Chiar.mo prof. Sonia Bergamaschi Candidato: Fabio Manganiello

~ Contesto > Realizzazione di un software in grado di riconoscere e classificare in base al contesto d'uso entità non note all'interno di corpus di documenti non strutturati di grandi dimensioni > Contesto: tirocinio trimestrale presso Expert System S.p.a., azienda leader nel campo delle tecnologie semantiche > Sviluppo del software sulla base delle librerie aziendali [e sulla tecnologia proprietaria COGITO] > Sviluppo del task di tirocinio: integrazione come modulo all'interno del progetto Okkam, progetto semantico finanziato dall'UE

~ Obiettivo del software > Realizzazione di un database di entità non note a priori (nomi propri di persone, aziende, prodotti, luoghi...) con relativa classificazione in base ai casi d'uso e potenziale definizione ENTITÀ DI PARTENZA OBIETTIVO FINALE Apache Tomcat > web server > java > installare > open source > software

~ Perché i corpus > Non ha senso lavorare su singoli documenti o piccoli gruppi di documenti > Pochi elementi di classificazione > Poche potenziali entità da classificare > Potenziali occorrenze di entità usate al di fuori dei loro contesti usuali > Corpus usati in fase di test > Newton – utilme 5 annate (ca. 1500 articoli)‏ > Enciclopedia della Storia del Cinema (ca. 100 000 voci)‏ > Enciclopedia Encarta (ca. 200 000 voci)‏ > Corriere della Sera – ultime 15 annate (ca. 1 000 000 articoli)‏

~ Architettura del sistema XML disambiguazione risorsa opportuna [server GSL] client dispatcher documenti database

~ Linguaggi utilizzati > C++ [sviluppo del server GSL] > Perl [sviluppo del client] > XML [scambio delle informazioni server -> client] > SQL [inserimento e analisi dei dati su database]

~ Client Analizza struttura directory Ci sono file f da processare? [si] Leggi f Invia f al dispatcher Leggi XML di risposta Parsing XML Salvataggio su DB

~ Server GSL Associazione al dispatcher Comando di disambiguazione arrivato? [no] [si] Leggi documento Costruisci tree di disambiguazione Ottieni domini del documento Ci sono word w da esaminare? [no] [si] Ottieni supernomen virtuale, predicato, soggetto/complemento di w e loro domini Costruisci XML e invialo al dispatcher

~ Robustezza del codice > Non conoscendo a priori il tipo di entità che verranno esaminate e le dimensioni dei corpus da esaminare, è richiesto che l'applicazione sia il più robusta possibile e operi con stretti margini di errore in ogni situazione. > XML generato sempre valido (parsing di eventuali doppi apici)‏ > Query SQL sempre valide (parsing di eventuali apici singoli, misure contro SQL injection)‏ > Minimizzare l'allocazione di memoria dinamica per evitare potenziali memory leak > Ottimizzazione delle operazioni su DB (effettuare inserimenti o aggiornamenti su database solo quando la cache di INSERT è piena)‏ > Ottimizzazione delle query su DB (indicizzazione per ridurre I tempi di query)‏

~ Analisi dei dati su Newton – 1 mysql> select dom,count(*)‏ from doc_domains d join entity e on d.id_doc=e.id_doc and e.ent='Hubble' group by 1 order by 2 desc limit 12; +-------------------------+----------+ | dom | count(*) | | aeronautica | 15 | | commercio | 15 | | astronautica | 15 | | economia | 15 | | astronomia | 15 | | spettacolo | 11 | | ingegneria aerospaziale | 11 | | termini tecnici | 11 | | architettura | 11 | | diplomazia | 11 | | missilistica | 11 | | astrofisica | 11 | 12 rows in set (0.00 sec)‏ > Risultati dell'analisi effettuata sul corpus della rivista scientifica Newton (visualizzazione dei domini dei documenti associati all'entità non nota “Hubble”

~ Analisi dei dati su Newton – 2 mysql> select domain1,count(*) as num from entity_domains d join entity_synsets s join entity e on e.id_occ=s.id_occ and s.id_ent=d.id_ent and ent='Hubble' group by 1 order by 2 desc limit 20; +--------------+-----+ | domain1 | num | | astronautica | 14 | | fotografia | 1 | | diplomazia | 1 | 3 rows in set (0.00 sec)‏ > Risultati dell'analisi effettuata sul corpus della rivista scientifica Newton (visualizzazione dei domini dei documenti associati ai lemmi collegati all'entità non nota “Hubble”

~ Progetto Okkam Modulo Okkam > Progetto finanziato dalla UE per la creazione di una base di dati in grado di gestire in modo automatizzato la conoscenza disponibile in rete output in XML Modulo Okkam Database distribuito Okkam disambiguazione documenti

~ Come opera il modulo > Trova entità non note nel documento > Per ogni entità non nota, memorizza lemmi > Usati nella stessa frase > Usati nelle due frasi adiacenti > ... > Fino a una distanza in frasi d > Peso dell'occorrenza i-esima della coppia (e,l)i : > Peso complessivo della coppia (e,l):

~ Analisi dei dati – Corpus Corriere mysql> select ent,lemma,score from lemmas order by score desc limit 20; +-----------------+-----------+--------+ | ent | lemma | score | | Moratti | sindaco | 686.5 | | Prodi | governo | 568 | | Letizia Moratti | sindaco | 530.5 | | Berlusconi | governo | 356 | | Moratti | Milano | 284.75 | | Letizia Moratti | Milano | 280 | | Berlusconi | Prodi | 237 | | Palazzo Marino | Comune | 230.5 | | Romano Prodi | governo | 208.75 | | Vittorio Sgarbi | assessore | 193.25 | | Moratti | città | 177 | | Romano Prodi | premier | 177 | | Prodi | premier | 159.25 | | Sforzesco | Castello | 157.25 | | Veltroni | sindaco | 156.5 | | Lambro | Parco | 140.75 | | Palazzo Marino | assessore | 133 | | Pirelli | Telecom | 130.25 | | Palazzo Marino | sindaco | 127.25 | | Vittorio Sgarbi | Cultura | 124.5 | 20 rows in set (0.08 sec)‏ > Risultati dell'analisi effettuata sul corpus del biennio 2006-2007 del Corriere della Sera (coppie entità-lemma più ricorrenti)‏

~ Considerazioni sull'analisi > ...tuttavia lo score medio di pertinenza è sorprendentemente basso... mysql> select avg(score)‏ as "score medio" from lemmas; +-----------------+ | score medio | | 3.2243184912657 | 1 row in set (0.02 sec)‏ > è quindi necessario fare una scrematura post-analisi sul database per eliminare il “rumore”

~ Conclusioni > Le tecnologie semantiche sono il futuro dell'informatica > in particolare del web (rilvoluzione del web 3.0 alle porte)‏ > Le tecnologie semantiche consentiranno l'abbattimento delle barriere fra l'utente e un'informatica rigida e pragmatica, attraverso un'informatica in grado potenzialmente di comprendere il linguaggio naturale

> grazie_per_l_attenzione