La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea in Ingegneria Informatica Estrazione di concetti ed analisi.

Presentazioni simili


Presentazione sul tema: "Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea in Ingegneria Informatica Estrazione di concetti ed analisi."— Transcript della presentazione:

1 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea in Ingegneria Informatica Estrazione di concetti ed analisi di documenti testuali: progetto e sviluppo dellapplicazione OKKAM-POP Anno Accademico 2008/2009 Relatore: Prof.ssa Sonia Bergamaschi Tesi di Laurea di: Michele Vitali Correlatore: Dott. Daniele Cordioli

2 OBBIETTIVI Impiego della tecnologia linguistica COGITO ®. Studio di metodi per Information Extraction. Sviluppo dellapplicazione OKKAM-POP. Studio del progetto OKKAM, a cui Expert System partecipa attivamente. FP7

3 WEB SEMANTICO RDFOWL Inizio: 01/01/2008 Fine: 30/06/2010 PJ_REF: Costo:

4 LAZIENDA EXPERT SYSTEM Fondata nel Opera nei settori Knowledge Management e Natural Language Processing. Proprietaria della tecnologia linguistica COGITO ®. Global Mobile Award 2009 con il prodotto COGITO ® Answer (Best billing or custumer care solution). Clienti: Pirelli, BNL,Vodafone, Eni, Poste Italiane, RCS Mediagroup, Telecom Italia. Sedi a Modena, Rovereto, Roma, Napoli e negli USA.

5 LA TECNOLOGIA COGITO ® Piattaforma software per analisi linguistica che si basa sulla rete semantica lessicale SENSIGRAFO ® Interpreta il linguaggio naturale catturando gli aspetti morfologici grammaticali logici semantici La DISAMBIGUAZIONE linguistica attribuisce ad ogni termine il giusto significato in base al contesto: Il rapinatore mi ha colpito con il calcio della pistola. Il simbolo del calcio è Ca.

6 SCHEMA FUNZIONALE COGITO ® DOCUMENTI MOBILE CONTENT INTRANET FLUSSI INFORMATIVI WEB Informazioni non strutturate Analisi linguistica e semantica Informazioni strutturate COGITO ® analisi morfologica analisi grammaticale analisi logica analisi semantica SENSIGRAFO ® Mappa concettuale e cognitiva del linguaggio naturale Ricerca semantica Categorizzazione Estrazione delle informazioni Intelligence

7 INFORMATION EXTRACTION Selezione di concetti significativi in un testo per la generazione automatica di metadati: Carlo Ancelotti, il nuovo allenatore del Chelsea, ha tenuto la prima conferenza stampa in lingua inglese. Algoritmo di estrazione Grado di automazione Codifica manuale Apprendimento automatico Statistico Basato su regole OKKAM-POP

8 REGOLE DI ESTRAZIONE PATTERN SINTATTICO Carlo Ancelotti, il nuovo allenatore del Chelsea … SOSPNTARTAGGSOSPRESOS CONTESTO SEMANTICO Carlo Ancelotti, il nuovo allenatore del Chelsea … Nome di persona Professione Club calcistico

9 APPLICAZIONE DELLE REGOLE Tempo Organizzazione … …… Il colosso mondiale Intel ha presentato un nuovo prodotto. Giorno – Durata media del periodo di rotazione della Terra attorno al proprio asse. … Colosso – Azienda di notevole importanza SOS AGG SOS Nei giorni scorsi Intel ha presentato un nuovo prodotto.

10 LAPPLICAZIONE OKKAM-POP CORPUS XML arricchito APPLICAZIONE ETL DB Analisi dei dati con OKKAM QUERY GUI e feedback Analisi dei dati con OKKAM QUERY GUI e feedback APPLICAZIONE ETL (Extract, transform, load) APPLICAZIONE ETL (Extract, transform, load) CORPUS TXT CORPUS XML COGITO ® INFORMATION EXTRACTION INFORMATION EXTRACTION

11 DATI ESPORTATI NEL DB DOCUMENTI ENTITÀ APPOSIZIONI SAO (Soggetto, Azione, Oggetto) PROPRIETÀ COGITO ® CONTESTI DELLE ENTITÀ LEMMI PRINCIPALI DEI DOCUMENTI DOMINI ATTRIBUITI AI DOCUMENTI

12 OKKAM QUERY GUI

13 ALCUNI RISULTATI PERSONADESCRIZIONE Maurizio Matteiil designatore unico degli arbitri di serie A John Griffinuno scienziato esperto nei sistemi di difesa Angelo BottiniIl nuovo soprintendente archeologico di Roma LUOGODESCRIZIONE Taipeicapitale dell' isola di Taiwan Porto Segurouna nota località balneare nello stato di Bahia Genoniun piccolo paesino in provincia di Nuoro ORG.DESCRIZIONE UcimuL' associazione dei costruttori di macchine utensili Seala società di gestione degli aeroporti milanesi Smat( Società Metropolitana Acque Torino )

14 ALCUNE STATISTICHE Documenti elaborati Numero di persone distinte estratte Frequenza media di ciascuna persona8,921 Concetti estratti per le persone Numero di organizzazioni distinte estratte Frequenza media di ciascuna organizzazione28,623 Concetti estratti per le organizzazioni Numero di luoghi distinti estratti Frequenza media di ciascuno luogo41,488 Concetti estratti per i luoghi TORINO, 18 GIU - I consigli di fabbrica di Mirafiori hanno deliberato per mercoledì due ore di sciopero ''contro lo scalone e gli scalini e la revisione al ribasso dei coefficienti'' per il calcolo delle pensioni e hanno promosso una raccolta di firme per invitare i segretari generali nello stabilimento Fiat (Fabbrica Italiana Automobili Torino) prima della conclusione della trattativa e per sottoporre l'eventuale intesa al voto dei lavoratori. Lo ha reso noto il sindacato Fiom-Cgil. Le Rsu aziendali hanno deliberato unitariamente due ore di sciopero, per ogni turno, dalle 10 alle 12 e dalle 14 alle 16, con iniziative fuori dai cancelli. Intanto domani, scioperera' l'Avio Group, ex Fiat Avio, di Rivalta, con corteo fuori dallo stabilimento. ''Il governo e i sindacati ascoltino i buoni consigli dei delegati di Mirafiori e usino la forza che a loro viene data. Saremo tutti giudicati dall'esito di questo negoziato'', afferma il segretario generale della Fiom torinese, Giorgio Airaudo. Sono stati analizzati articoli giornalistici risalenti agli anni 2005, 2006 e 2007

15 SVILUPPI FUTURI Integrazione dei risultati allinterno del progetto europeo OKKAM. Clustering dei dati per individuare il rumore allinterno delle estrazioni effettuate.

16 Grazie per la cortese attenzione…


Scaricare ppt "Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea in Ingegneria Informatica Estrazione di concetti ed analisi."

Presentazioni simili


Annunci Google