Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoPrimo Farina Modificato 10 anni fa
1
Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università di Roma, Tor Vergata ) Facolta di Lettere 24 Marzo 2004 Facolta di Lettere 24 Marzo 2004
2
Outline Metadata Extraction and HLT Challenges The RTV Experience Conclusion
3
Computer, Lingue ed Applicazioni Perché comprendere tramite gli elaboratori i contenuti testuali? I testi sono i veicoli principali di significato per molte altre tipologie di dati (e.g. multimediali) … e per la definizione, trasmissione e condivisione di conoscenze (il Web e solo il piu evidente degli esempi) Ricerca di informazione
4
Elaborazione come processo di interpretazione Elaborare un testo in tale ambito significa interpretarne aspetti rilevanti del significato Area tematica (e.g. cronaca/politica) Obbiettivi (e.g. virus/spam nelle-mail) Personaggi e luoghi coinvolti Eventi dichiarati (e.g. news) Obbiettivi comunicativi (e.g. dialogo e pianificazione) Risultato: rappresentazione esplicita del significato testuale … che attiva alcune inferenze (e.g. rilevanza)
5
Un esempio: Notizie di Agenzia
6
Notizie di agenzia (2) I requisiti di una corretta interpretazione sono (almeno): ha battuto e il verbo principale … usato in forma transitiva semplice E usato nella sua accezione sportiva (nessuno e stato colpito qui!) Italia e Scozia sono rispettivamente soggetto e complemento oggetto grammaticali ( ) Italia non e un paese ma una squadra (!), (e cosi la Scozia) giornata e il turno e non il giorno Esisitono altre forme linguistiche equivalenti e.g.
7
Notizie di Agenzia (3): Multilingualità
8
Alcune Riflessioni La comprensione di informazione linguistica richiede conoscenza riguardo: La lingua (e.g. sintassi) Il mondo (e.g. rugby, squadre e nazioni) Come la prima fa riferimento al secondo Laccesso e la pubblicazione (elettronica) intelligente implica conoscenze riguardo: Lobbiettivo, i.e. ricerca Il mondo in cui la comunicazione e immersa I produttori vs. gli utenti del testo
9
Sfide e Ricerca Accuratezza del riconoscimento/produzione Robustezza (errori/rumore/incompletezza) Scala Copertura di Lessici e Grammatiche Espressività Dizionari, Lessici e Thesaura Modelli del mondo ed inferenza Flessibilità Lingua del produttore vs. consumatore Naturalezza
10
TAL: La architettura del processo Analisi Lessicale Analisi Sintattica Analisi Semantica An. Pragmatica / Applic. Lessico Grammatica Modello del mondo Modello del task testo Tokens+ features Struttura frase Interpretazione Forma Logica
11
HLT: Ricerca e Risultati Risorse e Standard Dizionari e Lessici Corpora Riconoscimento: Morfologia ed Analisi a Stati Finiti Riconoscimento Sintattico e Disambiguazione Riconoscimento e Classificazione dei Nomi Propri (e.g. luoghi o persone, >93% acc.) Disambiguazione del Senso ( 90% acc.) Riconoscimento Eventi (MUC Conferences, 87-98)
12
IE in MUC
14
HLT: Ricerca e Risultati (2) Apprendimento di conoscenza linguistica Analisi sintattica per esempi (e.g. parsing statistico, HMM) Acquisizione automatica di terminologia (e.g. broadband communication o imposte dirette) Regole di disambiguazione del senso (WSD) rispetto a dizionari semantici battere/sport vs. battere/colpire Wordnet (Miller et al, 91) ed i corpora Information Extraction Rules Apprendimento di schemi frasali ( [companies] acquire [companies] )
15
HLT @ DISP, Tor Vergata The AI-NLP group at Computer Science Dept Prof. Maria Teresa PAZIENZA Prof. Roberto BASILI 2-4 Researchers 1-2 PhD students 1-2 Visiting scientists URL: ai-nlp.info.uniroma2.it
16
HLT @ Rome, Tor Vergata Aree di Ricerca: Ingegneria delle Lingue Metodi robusti per il TAL Modelli Computazionali del Lessico e Disambiguazione del Senso Apprendimento Automatico per il TAL su larga scala Applicationi del TAL: Information Extraction e Retrieval (Categorizzazione) Question Answering Ingegneria della Conoscenza Ontologica mediata linguisticamente
17
HLT @ DISP, Tor Vergata ARIOSTO (92) :Acquisizione Automatica di conoscenza lessicale CHAOS (98.02) :Analizzatore sintattico (Italiano, Inglese) RGL (97) : Analisi formale dei concetti per lacquisizione di schemi di sottocategorizzazione verbale (Reticoli di GALOIS) GoDoT (98) : Disambiguazione Semantica SATOR (00) :Apprendimento Automatico di schemi per IE ONTOLOAD (01) :Acquisizione di ontologie di dominio a partire dai testi Sistemi
18
Analisi Sintattica Riconoscimento Grammaticale Robusto (CHAOS) (Basili et al., ECAI98, IWPT2000, NLE2002) Modularità e Lesssicalizzazione (Ing/It) Rappresentazione OO (orientata agli oggetti) dei dati linguistici 6 fasi inernedie di eaborazione grammaticale (e.g. etichettatura sintattica, i.e. POS tagging) Riusabilita tra lingue e domini diversi 80% Prec/Rec per linglese (IWPT00) 90 p/sec (per litaliano e linglese) (Ecai 98)
19
Analisi Sintattica: CHAOS add link
20
ECRAN (97-98)Apprendimento lessicale per IE adattivo TREVI (99-00)Categorizzazione e personalizzazione basata sul testo NAMIC (00-02)Hyperlinking multilinguale su flussi di notizie di agenzia MOSES (02-04)Question Answering basato su ontologie PrestoSpace (04-)Indicizzazione ed Interrogazione Semantica di dati multimediali (RAI) HLT @ Rome, Tor Vergata Progetti Internazionali (EU Esprit, 5-6 FW)
21
NAMIC English MS Italian MS Spanish MS World Model English EM Italian EM Spanish EM Language processors Hyperlinking Engine News streams XML Objective Representation Multilingual Hypernews Engine NAMIC monitor The NAMIC architecture
22
Il progetto: PrestoSpace The objective of the project is to provide technical devices and systems for digital preservation of all types of audio-visual collections. The aim is to build-up preservation factories providing affordable services to all kinds of collections owners to manage and distribute their assets. The 20th Century was the first with an audiovisual record. Audiovisual media became the new form of cultural expression. These historical, cultural and commercial assets are now entirely at risk from deterioration. Broadcasters have begun to digitise their large holdings, at high cost and using complex technology. The preservation factory approach aims for an integrated automated solution of sufficient low cost so that the small-to-medium collections can be saved through common standardised services.
23
The Partnership
24
Eventi – Meeting Alghero Presentazione del Progetto PrestoSpace (Daniel Teruggi - INA) Presentazione delliniziativa Memory Day 2005, (R. Olla – RAI) Presentazione progetto RicordeRAI, RAI teche, (B. Scaramucci – RAI)
25
Attivita Principali
26
Metadata Access and Delivery Produzione degli strumenti software per la preservation factory. Integrazione di metadati significativi e di strumenti avanzati per laccesso ai dati digitalizzati Disseminazione: Informazione semantica (e.g. eventi/partecipanti), Interfacce avanzate per laccesso (e.g. LN) dati ristrutturabili a seconda degli obbiettivi della ricerca
27
. Web A Perspective View English MS Italian MS English SemAn Italian SemAn Semantic analysis Components Metadata Enrichment (Learning) Data streams XML Metadata Publication Platform General Ontology Parsed sent. New Relations and Links
28
Un es. Rassegna Stampa Automatica Obbiettivi Ricerca autonoma di notizie in tempo reale Classificazione delle notizie Estrazione di informazioni puntuali (dichiarazioni) Integrazione di due tecnologie diverse Ricerca Autonoma su Web (Web spider) TAL per il trattamento automatico dei Testi Cooperazione tra gruppi HLT e DIST del Dipartimento Informatica, Sistemi e Produzione
29
Ricerca Autonoma su Web (Web spider) Gruppo DIST (Distributed Information System), prof. M. Angelaccio, B. Buttarazzi Metodologie: Web Searching & Visualization Web-based Workflow Engines Risultati VSEARCH, Web local searching tool WISH, Wireless VSEARCH con Caching Semantico
30
Rassegna Stampa Automatica (3) Ruolo delle due tecnologie diverse Ricerca Autonoma su Web (Web spider) Ricerca siti interessanti (per es. giornali su Web) Gestisce accesso e richiamo di pagine remote (ad es. cronaca, politica, sport) Trattamento automatico dei Testi Riconosce fenomeni di base nei testi Classifica estratti dei testi giornalistici Riconosce persone/agenti e loro dichiarazioni Estrae tutte le informazioni scoperte aggiornando un archivio locale
31
Rassegna Stampa Automatica (3) DemoDemo (in coll. con F. Perrazzoni, F. Di Cola) Funzionalità: Ricerca e Download di Pagine Web (Corriere della Sera) Selezione delle pagine e dei personaggi di interesse Estrazione linguistica delle informazioni (GATE+CHAOS) Navigazione attraverso le citazioni/dichiarazioni estratte
32
Conclusioni Il TAL e unarea tecnologica di grande interesse ed in enorme sviluppo La contiguità tra aree di ricerca diverse ed interagenti e un elemento fondante dellintera disciplina La armonizzazione disciplinare tra conoscenze umanistiche e competenze dellingegneria informatica trova in queste aree una sinergia di grande respiro e enormi potenzialità
33
Conclusioni (2) Il progetto Prestospace rappresenta una grande sfida e fornisce una serie di opportunità nellarea della comunicazione multimediale Problemi linguistici Problemi interpretativi ed editoriali Scenari applicativi avanzati (NL query) Metodologie innovative per la comunicazione/condivisione di dati multimediali
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.