Il Parallel Turin University Treebank Cristina Bosco – Manuela Sanguinetti Informatica applicata alla comunicazione multimediale 2016-2017
ParTUT ParTUT è il primo treebank parallelo costruito utilizzando il formato di TUT; lo possiamo definire secondo le seguenti direzioni: composizione e dimensione del corpus formato di annotazione utilizzo collocazione rispetto ad altri progetti e risorse
Composizione di ParTUT Attualmente ParTUT contiene frasi derivanti da 6 diverse fonti: Il corpus della CE, JRC-Acquis Le licenze Creative Commons La dichiarazione dei diritti umani Il corpus di trascrizioni EUROPARL Il corpus web Inventory of Translated Talks (WIT3) Porzioni di Wikipedia e Project Syndicate
Dimensione di ParTUT Attualmente ParTUT contiene 3194 frasi che corrispondono a 89191 token. La media è di 1060 frasi per lingua, ed i testi sono così ripartiti: Italiano – 1070 frasi Francese – 1065 Inglese – 1045
Annotazione di ParTUT Il formato utilizzato è quello di TUT: 1 Universal (UNIVERSAL ADJ QUALIF ALLVAL ALLVAL) [2;ADJC+QUALIF-RMOD] 2 Declaration (DECLARE NOUN COMMON N SING DECLARE TRANS) [0;TOP-NOUN] 3 of (OF PREP MONO) [2;NOUN-OBJ] 4 Human (HUMAN ADJ QUALIF ALLVAL ALLVAL) [5;ADJC+QUALIF-RMOD] 5 Rights (RIGHT NOUN COMMON N PL) [3;PREP-ARG]
Annotazione di ParTUT Poiché il formato era stato in origine progettato per la lingua italiana, per rappresentare alcuni aspetti specifici del francese e dell’inglese è stato necessario arricchirlo. Tuttavia, essendo la lingua italiana molto ricca dal punto di vista morfologico e sintattico, gli arricchimenti necessari sono stati molto pochi, ad es. il genitivo sassone e le espletive per l’inglese.
Annotazione di ParTUT La procedura applicata per l’annotazione consiste in: pretrattamento manuale (conversione dei dati da altre codifiche in UTF-8) analisi automatica (eseguita da TULE) correzione manuale e revisione semiautomatica (eseguita con tool sviluppati ad hoc) conversione in formato ConLL e in Stanford Dependencies
Utilizzo di ParTUT Un treebank parallelo è una risorsa di fondamentale importanza per lo sviluppo dell’NLP in generale e per la MT in particolare. Dalla sua analisi è possibile estrarre dati altrimenti non rilevabili sul confronto cross-linguistico e derivarne informazioni importanti anche per le singole lingue coinvolte.
Utilizzo di ParTUT Il principale scopo per lo sviluppo di ParTUT è stato costruito è lo studio dei fenomeni sintattici delle 3 lingue coinvolte e di come questi possono essere messi in parallelo per informare sistemi di MT. Ma l’allineamento sintattico è di per se’ un task complesso che deve essere risolto anche in relazione alla teoria linguistica di riferimento ed al formato di rappresentazione adottato.
Utilizzo di ParTUT Per poter parlare di allineamento sintattico, prima occorre affrontare l’allineamento per parole … potremmo scoprire che l’allineamento sintattico non ci serve … È un task più semplice che ci fa intuire le difficoltà dell’allineamento sintattico … tutto ciò che non si riesce ad allineare per parola richiede la costruzione di un allineamento sintattico.
Utilizzo di ParTUT Per poter parlare di allineamento sintattico, occorre aver affrontato i task ad esso preliminari: Allineamento per paragrafi Allineamento per frasi Allineamento per parole Allineamento per strutture sintattiche
Utilizzo di ParTUT
Utilizzo di ParTUT