Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
1
Università degli Studi di Modena e Reggio Emilia
Facoltà di Ingegneria di Modena Corso di Laurea in Ingegneria Informatica Estrazione di concetti ed analisi di documenti testuali: progetto e sviluppo dell’applicazione OKKAM-POP Relatore: Prof.ssa Sonia Bergamaschi Tesi di Laurea di: Michele Vitali Correlatore: Dott. Daniele Cordioli Anno Accademico 2008/2009
2
OBBIETTIVI Studio del progetto OKKAM, a cui Expert System partecipa attivamente. FP7 Impiego della tecnologia linguistica COGITO®. Studio di metodi per Information Extraction. Sviluppo dell’applicazione OKKAM-POP.
3
WEB SEMANTICO Inizio: 01/01/2008 Fine: 30/06/2010 PJ_REF: 215032
RDF OWL Inizio: 01/01/2008 Fine: 30/06/2010 PJ_REF: Costo: €
4
L’AZIENDA EXPERT SYSTEM
Fondata nel 1989. Sedi a Modena, Rovereto, Roma, Napoli e negli USA. Opera nei settori Knowledge Management e Natural Language Processing. Proprietaria della tecnologia linguistica COGITO®. Global Mobile Award 2009 con il prodotto COGITO® Answer (Best billing or custumer care solution). Clienti: Pirelli, BNL,Vodafone, Eni, Poste Italiane, RCS Mediagroup, Telecom Italia.
5
LA TECNOLOGIA COGITO® Piattaforma software per analisi linguistica che si basa sulla rete semantica lessicale SENSIGRAFO® Interpreta il linguaggio naturale catturando gli aspetti morfologici grammaticali logici semantici La DISAMBIGUAZIONE linguistica attribuisce ad ogni termine il giusto significato in base al contesto: “Il rapinatore mi ha colpito con il calcio della pistola.” “Il simbolo del calcio è Ca.”
6
COGITO® SCHEMA FUNZIONALE COGITO® Informazioni non strutturate
Analisi linguistica e semantica Informazioni strutturate DOCUMENTI MOBILE CONTENT INTRANET FLUSSI INFORMATIVI WEB COGITO® analisi morfologica analisi grammaticale analisi logica analisi semantica SENSIGRAFO® Mappa concettuale e cognitiva del linguaggio naturale Ricerca semantica Categorizzazione Estrazione delle informazioni Intelligence
7
INFORMATION EXTRACTION
Selezione di concetti significativi in un testo per la generazione automatica di metadati: “Carlo Ancelotti, il nuovo allenatore del Chelsea, ha tenuto la prima conferenza stampa in lingua inglese.” Algoritmo di estrazione Grado di automazione Codifica manuale Apprendimento automatico Statistico Basato su regole OKKAM-POP
8
REGOLE DI ESTRAZIONE PATTERN SINTATTICO CONTESTO SEMANTICO
Carlo Ancelotti , il nuovo allenatore del Chelsea … SOS PNT ART AGG PRE CONTESTO SEMANTICO Carlo Ancelotti , il nuovo allenatore del Chelsea … Nome di persona Professione Club calcistico
9
Colosso – “Azienda di notevole importanza”
APPLICAZIONE DELLE REGOLE Organizzazione Tempo … … … … Giorno – “Durata media del periodo di rotazione della Terra attorno al proprio asse.” Colosso – “Azienda di notevole importanza” SOS AGG “Nei giorni scorsi Intel ha presentato un nuovo prodotto.” “Il colosso mondiale Intel ha presentato un nuovo prodotto.”
10
(Extract, transform, load)
L’APPLICAZIONE OKKAM-POP CORPUS XML APPLICAZIONE ETL (Extract, transform, load) CORPUS TXT CORPUSXML arricchito COGITO® APPLICAZIONE ETL INFORMATION EXTRACTION Analisi dei dati con OKKAM QUERY GUI e feedback DB
11
DATI ESPORTATI NEL DB DOCUMENTI ENTITÀ APPOSIZIONI
SAO (Soggetto, Azione, Oggetto) PROPRIETÀ COGITO® CONTESTI DELLE ENTITÀ LEMMI PRINCIPALI DEI DOCUMENTI DOMINI ATTRIBUITI AI DOCUMENTI
12
OKKAM QUERY GUI
13
ALCUNI RISULTATI PERSONA DESCRIZIONE Maurizio Mattei
il designatore unico degli arbitri di serie A John Griffin uno scienziato esperto nei sistemi di difesa Angelo Bottini Il nuovo soprintendente archeologico di Roma ORG. DESCRIZIONE Ucimu L' associazione dei costruttori di macchine utensili Sea la società di gestione degli aeroporti milanesi Smat ( Società Metropolitana Acque Torino ) LUOGO DESCRIZIONE Taipei capitale dell' isola di Taiwan Porto Seguro una nota località balneare nello stato di Bahia Genoni un piccolo paesino in provincia di Nuoro
14
ALCUNE STATISTICHE TORINO, 18 GIU - I consigli di fabbrica di Mirafiori hanno deliberato per mercoledì due ore di sciopero ''contro lo scalone e gli scalini e la revisione al ribasso dei coefficienti'' per il calcolo delle pensioni e hanno promosso una raccolta di firme per invitare i segretari generali nello stabilimento Fiat (Fabbrica Italiana Automobili Torino) prima della conclusione della trattativa e per sottoporre l'eventuale intesa al voto dei lavoratori. Lo ha reso noto il sindacato Fiom-Cgil. Le Rsu aziendali hanno deliberato unitariamente due ore di sciopero, per ogni turno, dalle 10 alle 12 e dalle 14 alle 16, con iniziative fuori dai cancelli. Intanto domani, scioperera' l'Avio Group, ex Fiat Avio, di Rivalta, con corteo fuori dallo stabilimento. ''Il governo e i sindacati ascoltino i buoni consigli dei delegati di Mirafiori e usino la forza che a loro viene data. Saremo tutti giudicati dall'esito di questo negoziato'', afferma il segretario generale della Fiom torinese, Giorgio Airaudo. Sono stati analizzati articoli giornalistici risalenti agli anni 2005, 2006 e 2007 Documenti elaborati Numero di persone distinte estratte Frequenza media di ciascuna persona 8,921 Concetti estratti per le persone Numero di organizzazioni distinte estratte Frequenza media di ciascuna organizzazione 28,623 Concetti estratti per le organizzazioni 39.754 Numero di luoghi distinti estratti 71.546 Frequenza media di ciascuno luogo 41,488 Concetti estratti per i luoghi 31.847
15
SVILUPPI FUTURI Clustering dei dati per individuare il rumore all’interno delle estrazioni effettuate. Integrazione dei risultati all’interno del progetto europeo OKKAM.
16
Grazie per la cortese attenzione…
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.