Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università

Slides:



Advertisements
Presentazioni simili
Dizionari elettronici in glottodidattica: possibilità attuali e potenzialità future Isabella Chiari Dizionari elettronici in glottodidattica: possibilità.
Advertisements

INFORMATICA UMANISTICA MODULI B, C E D
SVILUPPATO DA MIT Libraries e Hewlett-Packard (HP)
Introduzione al linguaggio R
Lo sviluppo delle PMI tra Innovazione e Competenze. Il progetto MASTER Valentina Castello.
Intelligenza Artificiale 1
Introduzione al linguaggio R
Crea il tuo sito con Web Matrix e il Web Hosting su ASP.NET
19/02/2002LITA, Milano1 Oncology over Internet (O2I) Paolo Romano, Istituto Nazionale per la Ricerca sul Cancro, Genova
L’azienda Volocom.
VERSO UN CURRICOLO PLURILINGUE, il “P. E. L
una interfaccia internet per il sistema Momis
Università degli studi di Modena e Reggio Emilia
1 Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento.
Integrazione di standard di classificazione per le-commerce: una nuova metodologia basata sul sistema MOMIS UNIVERSITÀ DEGLI STUDI DI MODENA E REGGIO EMILIA.
UNIVERSITA DEGLI STUDI DI MODENA E REGGIO EMILIA Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Progetto e sviluppo di.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Semantic.
Il mio nome è Alain Fergnani e nel corso della tesi mi sono occupato della dinamica delle ontologie per il Web Semantico, e in particolare dell’approccio.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea in Ingegneria Informatica Integrazione di WordNet Domains.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Ontologie Lessicali Multilingua:
I nuovi prodotti CSA Guide to Discovery Milano 9 Marzo 2006.
30/05/07Cinzia Bocchi1 Programmi Ministeriali Informatica Abacus Finalità e obiettivi.
Interaction Models Group. Funzionalità Interaction Models Group Consente lestrazione della struttura grammaticale di una frase La struttura grammaticale.
La nuova newsletter della statistica ufficiale Decima Conferenza nazionale di statistica Roma, 16 dicembre 2010.
linguistico-artistico-espressiva
Metodologie per la gestione di conoscenza ontologica Prof. M.T. PAZIENZA a.a
Sistemi basati su conoscenza Prof. M.T. PAZIENZA a.a
Metodologie per la gestione di conoscenza ontologica Prof. M.T. PAZIENZA a.a
Maria Teresa PAZIENZA a.a
DISP, Tor Vergata The AI-NLP group at Computer Science Dept Prof. Maria Teresa PAZIENZA Prof. Roberto BASILI 2-4 Researchers 1-2 PhD students 1-2.
Computer, Lingue ed Applicazioni Perché comprendere tramite gli elaboratori i contenuti testuali? I testi sono i veicoli principali di significato per.
Introduzione alle reti semantiche R. Basili. Sistemi basati su conoscenza Fanno uso di una rappresentazione esplicita del: –Mondo/Ambiente –Dominio di.
Modeling, managing and accessing e-content Linguistic Computing Laboratory Prof. Paola Velardi.
Metodologie di Annotazione Semantica per la Rappresentazione della Conoscenza nellambito dei Beni Culturali Paola Velardi Dipartimento di Informatica Università
informatica di base per le discipline umanistiche
Il futuro delle tecnologie nelleParticipation. Il punto di vista di DEMO-net Claudia Soria Istituto di Linguistica Computazionale del CNR.
Chi è Expert System Da oltre 15 anni Expert System è leader nella realizzazione di soluzioni avanzate di Semantic Intelligence per la gestione "intelligente"
Informatica giuridica Le applicazioni dellinformatica giuridica Nicola Palazzolo Anno Accademico 2006/2007 Prima parte.
Banche dati in rete dateneo Cosa faremo: Primo giorno Introduzione alle principali banche dati umanistiche Secondo giorno Esercitazioni.
Introduzione alla modellazione di sistemi interattivi
INGEGNERIA DELLA CONOSCENZA E SISTEMI ESPERTI Prof
INGEGNERIA DELLA CONOSCENZA E SISTEMI ESPERTI Stefania Bandini Dipartimento di Informatica, Sistemistica e Comunicazione Università di Milano-Bicocca.
KAPPAELLE 2008 Roberto Pirrone Università degli Studi Palermo
Corso SSIS 2003 – Modulo lingue straniere Software per linsegnamento della lingua straniera Jeffrey Earp – ITD/CNR 2003.
1 Internet e nuove tecnologie Anno Accademico Prof. Flavio De Paoli Dott. Marco Loregian.
La gestione delle informazioni non strutturate Roma, 15 novembre 2007.
Il Semantic Web applicato ai percorsi formativi nelle organizzazioni innovative By CSTAdvising CSTAdvising, professionisti della conoscenza,
Tesi di Laurea in Ingegneria Informatica
Maria Piscitelli Firenze, 3 dicembre 2010
Corso Laboratorio di Basi Dati II Usability Lab 2007 Corso Laboratorio di Basi Dati II Elementi di Progettazione di Basi di Dati Multimediali in rete Metodologie.
Università degli studi di Roma la Sapienza --- Laboratorio di Basi di Dati II - a.a. 2003/04 Presentato da: CAU Simone Matricola:
Universita’ degli Studi Roma Tre
Realizzazione di un sito internet per l’informazione scientifica e la formazione della popolazione sulle problematiche sanitarie derivanti dall’utilizzo.
Ontologie dei Sistemi Informativi – una prospettiva innovativa per il progetto “Governance Prefettura” M.Missikoff IASI-CNR Workshop – Governance Prefettura.
PART 3: DATA ANALYSIS THROUGH OMNIFIND. Il cliente: una sorgente importante di informazioni Mercato iper-competitivo, altamente caotico. Cliente al centro.
Intelligenza Artificiale 1 Gestione della conoscenza lezione 19 Prof. M.T. PAZIENZA a.a
Semantica approcci computazionali Maria Teresa PAZIENZA a.a
MICHAEL e MLA Kate Fernie ICT adviser The MICHAEL Project is funded under the European Commission eTEN Programme.
L'analisi dei testi per la realizzazione del Web Semantico: quali gli strumenti e le applicazioni Paolo Poto Expert System Spa.
KAPPAELLE Problemi Aperti Carlo Tasso LIA - UNiUD Gruppo infoFACTORY.
Come costruire sistemi di elaborazione del linguaggio naturale (NLP) Due paradigmi di riferimento –Basato sulla conoscenza (Knowledge Engineering, KE)
Tecnologie della lingua Human Language Technology (HLT)
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
Università degli studi di Modena e Reggio Emilia Facoltà di Scienze Fisiche, Informatiche e Matematiche Corso di Laurea in Informatica Progettazione e.
La Comprensione frasale
1 Lixto tools evaluations for HTML data Integration in Momis Lixto tools evaluations for HTML data Integration in Momis Università degli Studi di Modena.
CLIL PER UNA DIDATTICA INNOVATIVA Gina Muscarà Tione, Novembre 2008 Gina Muscarà Tione, Novembre 2008.
Laboratorio
Novembre 2009 SIGEC WEB – Presentazione Prototipo.
Didattica e libri di testo Elisa Corino DLM 2016.
Transcript della presentazione:

Inaugurazione Laboratorio P24 Tecnologie per il Trattamento Automatico della Lingua - Obiettivi, Progetti ed Opportunità a RTV - R. Basili (DISP, Università di Roma, Tor Vergata ) Facolta di Lettere 24 Marzo 2004 Facolta di Lettere 24 Marzo 2004

Outline Metadata Extraction and HLT Challenges The RTV Experience Conclusion

Computer, Lingue ed Applicazioni Perché comprendere tramite gli elaboratori i contenuti testuali? I testi sono i veicoli principali di significato per molte altre tipologie di dati (e.g. multimediali) … e per la definizione, trasmissione e condivisione di conoscenze (il Web e solo il piu evidente degli esempi) Ricerca di informazione

Elaborazione come processo di interpretazione Elaborare un testo in tale ambito significa interpretarne aspetti rilevanti del significato Area tematica (e.g. cronaca/politica) Obbiettivi (e.g. virus/spam nell ) Personaggi e luoghi coinvolti Eventi dichiarati (e.g. news) Obbiettivi comunicativi (e.g. dialogo e pianificazione) Risultato: rappresentazione esplicita del significato testuale … che attiva alcune inferenze (e.g. rilevanza)

Un esempio: Notizie di Agenzia

Notizie di agenzia (2) I requisiti di una corretta interpretazione sono (almeno): ha battuto e il verbo principale … usato in forma transitiva semplice E usato nella sua accezione sportiva (nessuno e stato colpito qui!) Italia e Scozia sono rispettivamente soggetto e complemento oggetto grammaticali ( ) Italia non e un paese ma una squadra (!), (e cosi la Scozia) giornata e il turno e non il giorno Esisitono altre forme linguistiche equivalenti e.g.

Notizie di Agenzia (3): Multilingualità

Alcune Riflessioni La comprensione di informazione linguistica richiede conoscenza riguardo: La lingua (e.g. sintassi) Il mondo (e.g. rugby, squadre e nazioni) Come la prima fa riferimento al secondo Laccesso e la pubblicazione (elettronica) intelligente implica conoscenze riguardo: Lobbiettivo, i.e. ricerca Il mondo in cui la comunicazione e immersa I produttori vs. gli utenti del testo

Sfide e Ricerca Accuratezza del riconoscimento/produzione Robustezza (errori/rumore/incompletezza) Scala Copertura di Lessici e Grammatiche Espressività Dizionari, Lessici e Thesaura Modelli del mondo ed inferenza Flessibilità Lingua del produttore vs. consumatore Naturalezza

TAL: La architettura del processo Analisi Lessicale Analisi Sintattica Analisi Semantica An. Pragmatica / Applic. Lessico Grammatica Modello del mondo Modello del task testo Tokens+ features Struttura frase Interpretazione Forma Logica

HLT: Ricerca e Risultati Risorse e Standard Dizionari e Lessici Corpora Riconoscimento: Morfologia ed Analisi a Stati Finiti Riconoscimento Sintattico e Disambiguazione Riconoscimento e Classificazione dei Nomi Propri (e.g. luoghi o persone, >93% acc.) Disambiguazione del Senso ( 90% acc.) Riconoscimento Eventi (MUC Conferences, 87-98)

IE in MUC

HLT: Ricerca e Risultati (2) Apprendimento di conoscenza linguistica Analisi sintattica per esempi (e.g. parsing statistico, HMM) Acquisizione automatica di terminologia (e.g. broadband communication o imposte dirette) Regole di disambiguazione del senso (WSD) rispetto a dizionari semantici battere/sport vs. battere/colpire Wordnet (Miller et al, 91) ed i corpora Information Extraction Rules Apprendimento di schemi frasali ( [companies] acquire [companies] )

DISP, Tor Vergata The AI-NLP group at Computer Science Dept Prof. Maria Teresa PAZIENZA Prof. Roberto BASILI 2-4 Researchers 1-2 PhD students 1-2 Visiting scientists URL: ai-nlp.info.uniroma2.it

Rome, Tor Vergata Aree di Ricerca: Ingegneria delle Lingue Metodi robusti per il TAL Modelli Computazionali del Lessico e Disambiguazione del Senso Apprendimento Automatico per il TAL su larga scala Applicationi del TAL: Information Extraction e Retrieval (Categorizzazione) Question Answering Ingegneria della Conoscenza Ontologica mediata linguisticamente

DISP, Tor Vergata ARIOSTO (92) :Acquisizione Automatica di conoscenza lessicale CHAOS (98.02) :Analizzatore sintattico (Italiano, Inglese) RGL (97) : Analisi formale dei concetti per lacquisizione di schemi di sottocategorizzazione verbale (Reticoli di GALOIS) GoDoT (98) : Disambiguazione Semantica SATOR (00) :Apprendimento Automatico di schemi per IE ONTOLOAD (01) :Acquisizione di ontologie di dominio a partire dai testi Sistemi

Analisi Sintattica Riconoscimento Grammaticale Robusto (CHAOS) (Basili et al., ECAI98, IWPT2000, NLE2002) Modularità e Lesssicalizzazione (Ing/It) Rappresentazione OO (orientata agli oggetti) dei dati linguistici 6 fasi inernedie di eaborazione grammaticale (e.g. etichettatura sintattica, i.e. POS tagging) Riusabilita tra lingue e domini diversi 80% Prec/Rec per linglese (IWPT00) 90 p/sec (per litaliano e linglese) (Ecai 98)

Analisi Sintattica: CHAOS add link

ECRAN (97-98)Apprendimento lessicale per IE adattivo TREVI (99-00)Categorizzazione e personalizzazione basata sul testo NAMIC (00-02)Hyperlinking multilinguale su flussi di notizie di agenzia MOSES (02-04)Question Answering basato su ontologie PrestoSpace (04-)Indicizzazione ed Interrogazione Semantica di dati multimediali (RAI) Rome, Tor Vergata Progetti Internazionali (EU Esprit, 5-6 FW)

NAMIC English MS Italian MS Spanish MS World Model English EM Italian EM Spanish EM Language processors Hyperlinking Engine News streams XML Objective Representation Multilingual Hypernews Engine NAMIC monitor The NAMIC architecture

Il progetto: PrestoSpace The objective of the project is to provide technical devices and systems for digital preservation of all types of audio-visual collections. The aim is to build-up preservation factories providing affordable services to all kinds of collections owners to manage and distribute their assets. The 20th Century was the first with an audiovisual record. Audiovisual media became the new form of cultural expression. These historical, cultural and commercial assets are now entirely at risk from deterioration. Broadcasters have begun to digitise their large holdings, at high cost and using complex technology. The preservation factory approach aims for an integrated automated solution of sufficient low cost so that the small-to-medium collections can be saved through common standardised services.

The Partnership

Eventi – Meeting Alghero Presentazione del Progetto PrestoSpace (Daniel Teruggi - INA) Presentazione delliniziativa Memory Day 2005, (R. Olla – RAI) Presentazione progetto RicordeRAI, RAI teche, (B. Scaramucci – RAI)

Attivita Principali

Metadata Access and Delivery Produzione degli strumenti software per la preservation factory. Integrazione di metadati significativi e di strumenti avanzati per laccesso ai dati digitalizzati Disseminazione: Informazione semantica (e.g. eventi/partecipanti), Interfacce avanzate per laccesso (e.g. LN) dati ristrutturabili a seconda degli obbiettivi della ricerca

. Web A Perspective View English MS Italian MS English SemAn Italian SemAn Semantic analysis Components Metadata Enrichment (Learning) Data streams XML Metadata Publication Platform General Ontology Parsed sent. New Relations and Links

Un es. Rassegna Stampa Automatica Obbiettivi Ricerca autonoma di notizie in tempo reale Classificazione delle notizie Estrazione di informazioni puntuali (dichiarazioni) Integrazione di due tecnologie diverse Ricerca Autonoma su Web (Web spider) TAL per il trattamento automatico dei Testi Cooperazione tra gruppi HLT e DIST del Dipartimento Informatica, Sistemi e Produzione

Ricerca Autonoma su Web (Web spider) Gruppo DIST (Distributed Information System), prof. M. Angelaccio, B. Buttarazzi Metodologie: Web Searching & Visualization Web-based Workflow Engines Risultati VSEARCH, Web local searching tool WISH, Wireless VSEARCH con Caching Semantico

Rassegna Stampa Automatica (3) Ruolo delle due tecnologie diverse Ricerca Autonoma su Web (Web spider) Ricerca siti interessanti (per es. giornali su Web) Gestisce accesso e richiamo di pagine remote (ad es. cronaca, politica, sport) Trattamento automatico dei Testi Riconosce fenomeni di base nei testi Classifica estratti dei testi giornalistici Riconosce persone/agenti e loro dichiarazioni Estrae tutte le informazioni scoperte aggiornando un archivio locale

Rassegna Stampa Automatica (3) DemoDemo (in coll. con F. Perrazzoni, F. Di Cola) Funzionalità: Ricerca e Download di Pagine Web (Corriere della Sera) Selezione delle pagine e dei personaggi di interesse Estrazione linguistica delle informazioni (GATE+CHAOS) Navigazione attraverso le citazioni/dichiarazioni estratte

Conclusioni Il TAL e unarea tecnologica di grande interesse ed in enorme sviluppo La contiguità tra aree di ricerca diverse ed interagenti e un elemento fondante dellintera disciplina La armonizzazione disciplinare tra conoscenze umanistiche e competenze dellingegneria informatica trova in queste aree una sinergia di grande respiro e enormi potenzialità

Conclusioni (2) Il progetto Prestospace rappresenta una grande sfida e fornisce una serie di opportunità nellarea della comunicazione multimediale Problemi linguistici Problemi interpretativi ed editoriali Scenari applicativi avanzati (NL query) Metodologie innovative per la comunicazione/condivisione di dati multimediali