Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
1
Universal Dependencies e treebank
Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale
2
Treebank e valutazione
L’esistenza di molte risorse diverse rende difficile confrontare i risultati ottenuti da diversi sistemi e la valutazione deve sempre essere fatta in relazione alle stesse risorse. Se il sistema X e il sistema Y utilizzano lo stesso corpus per apprendere, ottengono lo stesso output? L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.
3
Treebank e valutazione
La comunità della LC opera pertanto nella direzione di rendere confrontabili i risultati dei sistemi che svolgono lo stesso task. Questo significa ad esempio che si cerca di costruire risorse in cui si utilizza lo stesso formato di rappresentazione (standard). L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.
4
Treebank e standard Per molti anni lo standard di riferimento per il formato dei treebank era il formato del Penn Treebank. Ben presto però sono emersi i limiti di questo formato soprattutto nella rappresentazione di lingue con ordine delle parole più libero dell’inglese. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.
5
Treebank e standard Soprattutto pensando alle lingue con ordine delle parole più libero dell’inglese si sono sviluppati i formati a dipendenze sulla base del formato del Prague Dependency Treebank. Il panorama dei treebank è molto variegato: per alcune lingue esistono più di un treebank in formati diversi, per altre nessuno. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.
6
Treebank e standard La nozione di standard è quindi particolarmente rilevante per i treebank e ha portato alla definizione di un formato universale detto Universal Dependency. Questo processo è durato vari anni e ha comportato vari passi all’interno delle varie comunità che operano sulle singole lingue. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.
7
Treebank e standard Per la lingua italiana ad esempio sono stati creati, intorno all’anno 2000, 2 treebank, entrambi con un formato a dipendenze, TUT e Italian Syntactic Semantic Treebank (presso l’Istituto di Linguistica Computazionale CNR di Pisa). La differenza tra i due formati ha creato problemi di compatibilità tra sistemi e risultati. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.
8
Universal Dependency L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.
9
Universal Dependency L’idea è di costruire risorse per tutte le lingue che utilizzano tutte lo stesso formato e sistemi che analizzano i dati di tutte le lingue. Tutta la rappresentazione si fonda sul principio che le teste delle relazioni sono le parole di contenuto, quelle che portano un maggiore contributo semantico. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.
10
Universal Dependency Nella LC la distinzione tra parole di contenuto (content word) e altre è cruciale in vari task. Le preposizioni e gli articoli sono considerati in UD come semplici accessori delle parole di contenuto attorno a cui tutte le strutture sintattiche si concretizzano. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.
11
Universal Dependency Rispetto ad altri formati, UD è meno dettagliato e le sue relazioni in numero inferiore. Questa “sottospecificazione” consente di convertire con maggiore facilità altri formati in UD e di semplificare il parsing, anche se provoca anche una perdita di informazioni. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.
12
Universal Dependency Questo formato soddisfa l’interesse per confronti multilingui e rende possibile sia campagne di valutazione multilingui sia l’apprendimento cross-linguistco a supporto della LC per lingue per cui non esistono risorse. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.
13
Universal Dependency e TUT
L’esistenza di UD ha creato le premesse per la fusione di un unico grande treebank per la lingua italiana. I due treebank precedentemente sviluppati sono stati prima convertiti in un formato comune e poi in formato UD. Più recentemente anche ParTUT è entrato a fare parte di UD. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.
14
Universal Dependency La release attuale, 2.0 , rilasciata il primo marzo 2017 contiene 70 treebank che rappresentano 50 diverse lingue. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.
15
Universal Dependency UDpipe è l’analizzatore morfo-sintattico che è stato costruito per il progetto. Nella versione demo online si può facilmente vedere quale output produce, addestrandolo sulla risorsa italiana o quella per altre lingue. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.