Aspetti computazionali e metodologici della disambiguazione del Corpus Taurinense.

Slides:



Advertisements
Presentazioni simili
Progetto Qua.ser Indagine di customer satisfaction: Cambio di indirizzo Firenze, 30 giugno 2011.
Advertisements

Il ruolo sociale.
Analisi e progettazione
© 2007 SEI-Società Editrice Internazionale, Apogeo Unità B1 Introduzione alle basi di dati.
Le nuove funzioni della piattaforma Puntoedu lingue.
1 MINISTERO DELLA PUBBLICA ISTRUZIONE UFFICIO SCOLASTICO REGIONALE DELLA SARDEGNA DIREZIONE GENERALE Ufficio Ispettivo ESAME DI STATO 2008 – LE PROVE.
Linguaggi di programmazione
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Protocolli.
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, La rappresentazione dellinformazione testuale e i linguaggi di codifica.
OO 55 OI 59 OL 47 OR 45 OO= Orientamento allOBIETTIVO OI= Orientamento all'INNOVAZIONE OL= Orientamento alla LEADERSHIPOR= Orientamento alla RELAZIONE.
4 – Progettazione – Introduzione e Modello E-R
INDAGINE SULLUSO DELLE-BOOK PRESSO LE FACOLTÀ DI LETTERE E FILOSOFIA E DI INGEGNERIA DELLUNIVERSITÀ DEGLI STUDI DI PARMA Relatrice: Prof.ssa ANNA MARIA.
Innovazione nelle indagini statistiche sui trasporti
SEMPLIFICAZIONE AMMINISTRATIVA E INNOVAZIONE TECNOLOGICA: Reingegnerizzazione e normalizzazione dei procedimenti SUAP Marco Sandri.
Economia aziendale Corso di laurea in informatica La forma giuridica.
Monitoraggio e valutazione dei servizi formativi
Alunni e insegnanti in classe: la comunicazione Luisa Molinari Università di Parma.
Programmazione per Obiettivi
Considerazioni sullinserimento dei giovani nellINFN Gruppo di lavoro: S. Falciano, A. Kievsky, S. Leone e il rappresentante nazionale: E. Vigezzi Assemblea.
1 HTML - I Frame Laboratorio di Applicazioni Informatiche II mod. A.
1 FONDAMENTI DI INFORMATICA II Ingegneria Gestionale a.a ° Ciclo Liste.
Informatica di base A.A. 2003/2004 Algoritmi e programmi
Comprendere per riassumere, riassumere per comprendere
Qualità degli apprendimenti e loro valutazione La valutazione.
1 Corso di Laurea in Biotecnologie Informatica (Programmazione) Problemi e algoritmi Anno Accademico 2009/2010.
1 Anatomia di una pagina Un insieme di pagine web hanno generalmente una parte invariante (o poco): header, navigazione, footer una parte variabile: contenuti.
Il linguaggio Fortran 90: 4. Array: Vettori e Matrici
DAL PROBLEMA ALL'ALGORITMO Problemi e Programmi Paolo Amico
UNICO 2004.
Strutture di controllo in C -- Flow Chart --
Progettazione di una base di dati
AN FI Un denominatoe comune Comandi u notazioni che esprimono azioni che, una volta eseguite, comportano una modifica permanente dello stato interno.
FUNZIONI: IL MODELLO APPLICATIVO 1) Valutazione, nellenvironment corrente, del simbolo che denota il nome della funzione; 2) Valutazione, nellenvironment.
C__44__ S__54__ Ap__33__ Valutazione di un’altra persona MA A
Nuove frontiere della medicina trasfusionale: il contributo Avis
LA PALLAVOLO.
MACCHINARI SICURI WORKSHOP FASCICOLO TECNICO E ANALISI DEI RISCHI
Al termine di questa unità di apprendimento sarai in grado di:
PROGETTAZIONE DI UN DATA BASE TURCO MERY MAT CPA
TRASDUTTORI E SENSORI.
ISTITUTO COMPRENSIVO “G. BATTAGLINI” MARTINA FRANCA (TA)
QUIZ – PATENTE EUROPEA – ESAME WORD
Sistemi e Tecnologie Informatiche Requisiti per la realizzazione di un buon programma.
Individuare e certificare le competenze La progettazione della formazione per competenze nei percorsi in alternanza Umberto Vairetti, 2004.
La cascata gerarchica.
PROGETTO ECOMANAGER STUDIO DI UNSISTEMA DI PRODUZIONE ECO ATTENTO ALLINTERNO DI UNAZIENDA SITA SUL TERRITORIO ECO PROJECT SOLVING SRL Dott. Cristiano Galli.
Atzeni, Ceri, Paraboschi, Torlone Basi di dati McGraw-Hill,
PROBABILITA’.
Modulo 5 Modulo 5 Inizia Basi di dati Basi di dati Access Access Esci.
UFFICIO CATECHISTICO DIOCESANO
PROGETTAZIONE: SCOPO Requisiti: cosa realizzare; progetto: come realizzarlo Livelli di dettaglio: concettuale/logico/fisico; architetturale/di massima/dettagliato.
Perceptron. è la somma effettuata sul nodo i-esimo dello strato j n è il numero di nodi dello strato j-1 è l'output proveniente dal nodo k-esimo dello.
Corso di Laurea in Ingegneria per l’Ambiente e il Territorio Informatica per l’Ambiente e il Territorio Docente: Giandomenico Spezzano Tutor: Alfredo Cuzzocrea.
CMDBuild: un progetto open source di supporto alla gestione ICT Esempi di workflow implementati in ottica ITIL CMDBuild è un progetto di: Tecnoteca srl.
Che cos’è un progetto? È un’impresa: -complessa -unica
LEIS03100A - ITALIANO _ Rilevazioni Nazionali Elaborazione a cura di: Marcello Pedone IISS” A. DE PACE” LECCE LEIS03100A - Rilevazioni Nazionali.
1.1 Progettazione di Basi di Dati PROGETTAZIONE: SCOPO Requisiti: cosa realizzare; progetto: come realizzarlo Livelli di dettaglio: concettuale/logico/fisico;
Un Sistema per la Redazione Assistita di Testi Giuridici Tesi di Laurea Specialistica in Informatica di Emiliano Giovannetti Un Sistema per la Redazione.
MRS: an Introduction © A. D’Angelo Multi Robot Systems: an Introduction Antonio D’Angelo.
LABORATORIO DI INFORMATICA Ingegneria Informatica a. a
La pianificazione della produzione dei dati. Costituzione del gruppo di progettazione L’elevato grado di complessità e la multidisciplinarietà richiesta.
Gestione ottimizzata di centrali a ciclo combinato
Relazione sulle strutture dati Svolta da: Buccella Simone Strutture di dati Aree di memoria Puntatore numericibooleani alfabetici Statici dinamici Puntatori.
Progettazione di una base di dati Ciclo di vita di un sistema informativo Studio di fattibilità definisce le varie alternative possibili, i relativi costi.
La formazione degli utenti Un progetto per migliorare le competenze informative degli studenti a cura di Alina Renditiso, Bologna, marzo-aprile 2006
Progettazione di basi di dati: metodologie e modelli
FOCUS DELLA VALUTAZIONE “ IL CASO SINGOLO ” Si pone come finalità il miglioramento dell ’ intervento che riguarda il singolo beneficiario.
1 Informatica di Base Facoltà di Lingue e Letterature Straniere Corso di laurea in Relazioni Pubbliche.
1 Livello di benessere organizzativo, grado di condivisione del sistema di valutazione e valutazione dei superiori gerarchici. Sintesi dei risultati delle.
Lezione n. Parole chiave: Corso di Laurea: Insegnamento: Docente: A.A Salvatore Cuomo La ricorsione 15 Approccio ricorsivo, esercizi sulla.
Transcript della presentazione:

Aspetti computazionali e metodologici della disambiguazione del Corpus Taurinense

Scopo del progetto: Creazione di un corpus che possa fungere da modello di apprendimento per un sistema di annotazione stocastica basata sui Modelli Markoviani Nascosti (HMM)

Problema: come realizzare un efficace sistema di disambiguazione per una lingua letteraria ancora vergine sotto laspetto del trattamento automatico

Soluzione: creazione di un sistema di disambiguazione per Parti del Discorso (POS) basato su regole, il più possibile svincolate dal contesto in cui si trovano

Necessità di prevedere comunque limpiego di regole legate al contesto al fine di coprire tutti i numerosi casi di trattazione particolare dellelemento (token) da disambiguare

Tre differenti tipologie di disambiguazione: - Esterna: parti del discorso diverse - Interna: attributi genere/numero - Intra-POS: tipi diversi della stessa parte del discorso (es. modo, tempo, ecc.)

Necessità di prevedere una gerarchia di azione: Regole di disambiguazione organizzate in sei moduli distinti operanti in cascata In uno stesso modulo organizzazione delle regole secondo uno schema a mutua esclusione: regole diverse non possono agire sullo stesso token

Modulo 1Modulo 2Modulo 3Modulo 6Modulo 5Modulo 4 Testo iniziale Testo disambiguato

Tipologia di disambiguazione (interna, esterna, ecc.) non vincolata ad alcun modulo specifico: possibilità di agire contemporaneamente su più parametri anche allinterno di una stessa regola

Il primo modulo assume in ingresso un testo già diviso in token e dotato di completa annotazione morfosintattica e codifica metatestuale (markup)

Esempio testo di origine: %001 &V $0035$ D' amore abiendo gioia interamente, lasso, nonn¬ aio in altro intendimento né che partisse lo cor né la mente da ÷l primo loco là onde avea abento ; $0036$ ma feci come· ll' omo che consente molte fïate contro a suo talento : traduto m' àn li sguardi che sovente mi son mostrati, e messo in gran tormento. Sì come il marinaro la serèna, ca lo disvïa co lo dolze canto e poi li dà tempesta per inganno, $0037$ così la gioia m' è cangiata in pena, e· ÷Ø riso, lasso m' è tornato in pianto : per mia follia ò radop&[p&]iato il danno.

Esempio testo etichettato: %001 &V_lem=versesection,71,0,0,0,0,0 $0035$ D'_(lem=da,56,0,0,0,0,0);(lem=di,56,0,0,0,0,0);(lem=di,51,0,0,0,0,0) ;(lem=di;da,56,0,0,0,0,0) amore_lem=amore,20,0,4,6,0,0 abiendo_lem=avere,224,0,0,0,0,0 gioia_lem=gioia,20,0,5,6,0,0 interamente_lem=interamente,45,0,0,0,8,0,_lem=comma,71,0,0,0,0,0 lasso_lem=lasso,26,0,4,6,8,0,_lem=comma,71,0,0,0,0,0 nonn¬_lem=non,45,0,0,0,8,0 aio_lem=avere,211,1,0,6,0,0 in_(lem=in,56,0,0,0,0,0);(lem=in,51,0,0,0,0,0);(lem=in,75,0,0,0,0,0) altro_lem=altro,32,0,4,6,0,0 intendimento_lem=intendimento,20,0,4,6,0,0 né_lem=né,50,0,0,0,0,0 che_(lem=che,36,0,4;5,6;7,0,0);(lem=che,51,0,0,0,0,0);(lem=ché,51,0, 0,0,0,0);(lem=che,35,0,4;5,6,0,0);(lem=che,40,0,4;5,6,0,0);(lem=che, 32,0,4,6,0,0);(lem=che,45,0,0,0,8,0) partisse_lem=partire/- si/,116,3,0,6,0,0 lo_(lem=lo,60,0,4,6,0,0);(lem=lo,39,3,4,6,0,0) cor_(lem=cuore,20,0,4,6,0,0);(lem=cor,75,0,0,6,0,0) né_lem=né,50,0,0,0,0,0 la_(lem=la,60,0,5,6,0,0);(lem=la,39,3,5,6,0,0);(lem=là,45,0,0,0,8,0) mente_(lem=mente,20,0,5,6,0,0);(lem=mentire,115,2,0,6,0,0)

Funzionamento del motore di disambiguazione: - Creazione di una serie di puntatori ai token che compongono il testo - Definizione di regole che agiscono sul token del puntatore centrale

Caratteristiche dei puntatori: - numero minimo pari a 3 - mobili: avanzano allinterno del testo - puntano a elementi testuali contigui (dati di markup esclusi) - permettono di definire con assoluta precisione il campo di applicazione di una regola non generale

Esempio di puntatori: né_lem=né,50,0,0,0,0,0 PT 1 che_(lem=che,36,0,4;5,6;7,0,0);(lem=che,51,0,0,0,0,0 );(lem=ché,51,0,0,0,0,0);(lem=che,35,0,4;5,6,0,0); (lem=che,40,0,4;5,6,0,0);(lem=che,32,0,4,6,0,0); (lem=che,45,0,0,0,8,0) PT 2 partisse_lem=partire/-si/,116,3,0,6,0,0 PT 3 lo_(lem=lo,60,0,4,6,0,0);(lem=lo,39,3,4,6,0,0) cor_(lem=cuore,20,0,4,6,0,0);(lem=cor,75,0,0,6,0,0)

né_lem=né,50,0,0,0,0,0 che_(lem=che,36,0,4;5,6;7,0,0);(lem=che,51,0,0,0,0,0); (lem=ché,51,0,0,0,0,0);(lem=che,35,0,4;5,6,0,0); (lem=che,40,0,4;5,6,0,0);(lem=che,32,0,4,6,0,0); (lem=che,45,0,0,0,8,0) PT 1 partisse_lem=partire/-si/,116,3,0,6,0,0 PT 2 lo_(lem=lo,60,0,4,6,0,0);(lem=lo,39,3,4,6,0,0) PT 3 cor_(lem=cuore,20,0,4,6,0,0);(lem=cor,75,0,0,6,0,0) Scorrimento in avanti:

Funzionamento delle regole di disambiguazione: - analisi del contenuto dei puntatori: controllo di corrispondenza con quanto stabilito dalla regola - modifica (disambiguazione) del contenuto del puntatore centrale

Esempio di regola di disambiguazione if (campo ~ /^terza_/ && campo ~ /\);\(/) { nf++ if ($bw ~ /^già_/ || $fw ~ /^a_/) { assegna(campo, "20", end) } else { assegna(campo, "65", end) } }

Problematiche delle regole di disambiguazione: - elevata complessità di sviluppo - modalità di azione suddivisa su più moduli distinti - definizione di ordine gerarchico di funzionamento - difficoltà di controllo degli errori

Soluzione: - suddivisione delle regole in moduli omogenei per campo di applicazione (es. V/N; N/Adj; etc.) - utilizzo preventivo di regole ad-hoc per agevolare il funzionamento delle regole generali - utilizzo del modulo ausiliario PEX per la verifica della coerenza sintattica e di applicazione di una data regola

PEX – Pattern EXtractor - sistema dotato di capacità di emulazione di qualsivoglia modello no Definizione e stampa del contesto si Regola individuata? Ricerca della regola nel testo

Fasi di sviluppo tradizionali: - studio teorico dei vari tipi di regole - implementazione pratica delle stesse in un determinato formalismo, di solito strettamente dipendente dal programma di disambiguazione - attivazione del processo di elaborazione - verifica sul testo disambiguato del corretto operato delle regole - correzione in post-editing delle regole - rielaborazione del testo dallorigine

Fasi di sviluppo adottate nel CT: - studio teorico dei vari tipi di regole - emulazione delle singole regole mediante lutilizzo del modulo PEX - analisi dei risultati - eventuale correzione delle regole - implementazione definitiva delle regole - elaborazione del testo da disambiguare

Vantaggi: - semplificazione delliter di sviluppo - abbattimento dei cicli successivi di correzione regole e analisi dei dati - riduzione dei tempi morti di elaborazione - ottenimento di risultati certi e definitivi in tempi notevolmente ridotti - elaborazione finale in un unico passaggio