La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università

Presentazioni simili


Presentazione sul tema: "Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università"— Transcript della presentazione:

1 Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università di Roma, Tor Vergata ) Facolta di Lettere 24 Marzo 2004 Facolta di Lettere 24 Marzo 2004

2 Outline Metadata Extraction and HLT Challenges The RTV Experience Conclusion

3 Computer, Lingue ed Applicazioni Perché comprendere tramite gli elaboratori i contenuti testuali? I testi sono i veicoli principali di significato per molte altre tipologie di dati (e.g. multimediali) … e per la definizione, trasmissione e condivisione di conoscenze (il Web e solo il piu evidente degli esempi) Ricerca di informazione

4 Elaborazione come processo di interpretazione Elaborare un testo in tale ambito significa interpretarne aspetti rilevanti del significato Area tematica (e.g. cronaca/politica) Obbiettivi (e.g. virus/spam nelle-mail) Personaggi e luoghi coinvolti Eventi dichiarati (e.g. news) Obbiettivi comunicativi (e.g. dialogo e pianificazione) Risultato: rappresentazione esplicita del significato testuale … che attiva alcune inferenze (e.g. rilevanza)

5 Un esempio: Notizie di Agenzia

6 Notizie di agenzia (2) I requisiti di una corretta interpretazione sono (almeno): ha battuto e il verbo principale … usato in forma transitiva semplice E usato nella sua accezione sportiva (nessuno e stato colpito qui!) Italia e Scozia sono rispettivamente soggetto e complemento oggetto grammaticali ( ) Italia non e un paese ma una squadra (!), (e cosi la Scozia) giornata e il turno e non il giorno Esisitono altre forme linguistiche equivalenti e.g.

7 Notizie di Agenzia (3): Multilingualità

8 Alcune Riflessioni La comprensione di informazione linguistica richiede conoscenza riguardo: La lingua (e.g. sintassi) Il mondo (e.g. rugby, squadre e nazioni) Come la prima fa riferimento al secondo Laccesso e la pubblicazione (elettronica) intelligente implica conoscenze riguardo: Lobbiettivo, i.e. ricerca Il mondo in cui la comunicazione e immersa I produttori vs. gli utenti del testo

9 Sfide e Ricerca Accuratezza del riconoscimento/produzione Robustezza (errori/rumore/incompletezza) Scala Copertura di Lessici e Grammatiche Espressività Dizionari, Lessici e Thesaura Modelli del mondo ed inferenza Flessibilità Lingua del produttore vs. consumatore Naturalezza

10 TAL: La architettura del processo Analisi Lessicale Analisi Sintattica Analisi Semantica An. Pragmatica / Applic. Lessico Grammatica Modello del mondo Modello del task testo Tokens+ features Struttura frase Interpretazione Forma Logica

11 HLT: Ricerca e Risultati Risorse e Standard Dizionari e Lessici Corpora Riconoscimento: Morfologia ed Analisi a Stati Finiti Riconoscimento Sintattico e Disambiguazione Riconoscimento e Classificazione dei Nomi Propri (e.g. luoghi o persone, >93% acc.) Disambiguazione del Senso ( 90% acc.) Riconoscimento Eventi (MUC Conferences, 87-98)

12 IE in MUC

13

14 HLT: Ricerca e Risultati (2) Apprendimento di conoscenza linguistica Analisi sintattica per esempi (e.g. parsing statistico, HMM) Acquisizione automatica di terminologia (e.g. broadband communication o imposte dirette) Regole di disambiguazione del senso (WSD) rispetto a dizionari semantici battere/sport vs. battere/colpire Wordnet (Miller et al, 91) ed i corpora Information Extraction Rules Apprendimento di schemi frasali ( [companies] acquire [companies] )

15 HLT @ DISP, Tor Vergata The AI-NLP group at Computer Science Dept Prof. Maria Teresa PAZIENZA Prof. Roberto BASILI 2-4 Researchers 1-2 PhD students 1-2 Visiting scientists URL: ai-nlp.info.uniroma2.it

16 HLT @ Rome, Tor Vergata Aree di Ricerca: Ingegneria delle Lingue Metodi robusti per il TAL Modelli Computazionali del Lessico e Disambiguazione del Senso Apprendimento Automatico per il TAL su larga scala Applicationi del TAL: Information Extraction e Retrieval (Categorizzazione) Question Answering Ingegneria della Conoscenza Ontologica mediata linguisticamente

17 HLT @ DISP, Tor Vergata ARIOSTO (92) :Acquisizione Automatica di conoscenza lessicale CHAOS (98.02) :Analizzatore sintattico (Italiano, Inglese) RGL (97) : Analisi formale dei concetti per lacquisizione di schemi di sottocategorizzazione verbale (Reticoli di GALOIS) GoDoT (98) : Disambiguazione Semantica SATOR (00) :Apprendimento Automatico di schemi per IE ONTOLOAD (01) :Acquisizione di ontologie di dominio a partire dai testi Sistemi

18 Analisi Sintattica Riconoscimento Grammaticale Robusto (CHAOS) (Basili et al., ECAI98, IWPT2000, NLE2002) Modularità e Lesssicalizzazione (Ing/It) Rappresentazione OO (orientata agli oggetti) dei dati linguistici 6 fasi inernedie di eaborazione grammaticale (e.g. etichettatura sintattica, i.e. POS tagging) Riusabilita tra lingue e domini diversi 80% Prec/Rec per linglese (IWPT00) 90 p/sec (per litaliano e linglese) (Ecai 98)

19 Analisi Sintattica: CHAOS add link

20 ECRAN (97-98)Apprendimento lessicale per IE adattivo TREVI (99-00)Categorizzazione e personalizzazione basata sul testo NAMIC (00-02)Hyperlinking multilinguale su flussi di notizie di agenzia MOSES (02-04)Question Answering basato su ontologie PrestoSpace (04-)Indicizzazione ed Interrogazione Semantica di dati multimediali (RAI) HLT @ Rome, Tor Vergata Progetti Internazionali (EU Esprit, 5-6 FW)

21 NAMIC English MS Italian MS Spanish MS World Model English EM Italian EM Spanish EM Language processors Hyperlinking Engine News streams XML Objective Representation Multilingual Hypernews Engine NAMIC monitor The NAMIC architecture

22 Il progetto: PrestoSpace The objective of the project is to provide technical devices and systems for digital preservation of all types of audio-visual collections. The aim is to build-up preservation factories providing affordable services to all kinds of collections owners to manage and distribute their assets. The 20th Century was the first with an audiovisual record. Audiovisual media became the new form of cultural expression. These historical, cultural and commercial assets are now entirely at risk from deterioration. Broadcasters have begun to digitise their large holdings, at high cost and using complex technology. The preservation factory approach aims for an integrated automated solution of sufficient low cost so that the small-to-medium collections can be saved through common standardised services.

23 The Partnership

24 Eventi – Meeting Alghero Presentazione del Progetto PrestoSpace (Daniel Teruggi - INA) Presentazione delliniziativa Memory Day 2005, (R. Olla – RAI) Presentazione progetto RicordeRAI, RAI teche, (B. Scaramucci – RAI)

25 Attivita Principali

26 Metadata Access and Delivery Produzione degli strumenti software per la preservation factory. Integrazione di metadati significativi e di strumenti avanzati per laccesso ai dati digitalizzati Disseminazione: Informazione semantica (e.g. eventi/partecipanti), Interfacce avanzate per laccesso (e.g. LN) dati ristrutturabili a seconda degli obbiettivi della ricerca

27 . Web A Perspective View English MS Italian MS English SemAn Italian SemAn Semantic analysis Components Metadata Enrichment (Learning) Data streams XML Metadata Publication Platform General Ontology Parsed sent. New Relations and Links

28 Un es. Rassegna Stampa Automatica Obbiettivi Ricerca autonoma di notizie in tempo reale Classificazione delle notizie Estrazione di informazioni puntuali (dichiarazioni) Integrazione di due tecnologie diverse Ricerca Autonoma su Web (Web spider) TAL per il trattamento automatico dei Testi Cooperazione tra gruppi HLT e DIST del Dipartimento Informatica, Sistemi e Produzione

29 Ricerca Autonoma su Web (Web spider) Gruppo DIST (Distributed Information System), prof. M. Angelaccio, B. Buttarazzi Metodologie: Web Searching & Visualization Web-based Workflow Engines Risultati VSEARCH, Web local searching tool WISH, Wireless VSEARCH con Caching Semantico

30 Rassegna Stampa Automatica (3) Ruolo delle due tecnologie diverse Ricerca Autonoma su Web (Web spider) Ricerca siti interessanti (per es. giornali su Web) Gestisce accesso e richiamo di pagine remote (ad es. cronaca, politica, sport) Trattamento automatico dei Testi Riconosce fenomeni di base nei testi Classifica estratti dei testi giornalistici Riconosce persone/agenti e loro dichiarazioni Estrae tutte le informazioni scoperte aggiornando un archivio locale

31 Rassegna Stampa Automatica (3) DemoDemo (in coll. con F. Perrazzoni, F. Di Cola) Funzionalità: Ricerca e Download di Pagine Web (Corriere della Sera) Selezione delle pagine e dei personaggi di interesse Estrazione linguistica delle informazioni (GATE+CHAOS) Navigazione attraverso le citazioni/dichiarazioni estratte

32 Conclusioni Il TAL e unarea tecnologica di grande interesse ed in enorme sviluppo La contiguità tra aree di ricerca diverse ed interagenti e un elemento fondante dellintera disciplina La armonizzazione disciplinare tra conoscenze umanistiche e competenze dellingegneria informatica trova in queste aree una sinergia di grande respiro e enormi potenzialità

33 Conclusioni (2) Il progetto Prestospace rappresenta una grande sfida e fornisce una serie di opportunità nellarea della comunicazione multimediale Problemi linguistici Problemi interpretativi ed editoriali Scenari applicativi avanzati (NL query) Metodologie innovative per la comunicazione/condivisione di dati multimediali


Scaricare ppt "Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università"

Presentazioni simili


Annunci Google