Il Parallel Turin University Treebank

Slides:



Advertisements
Presentazioni simili
Interaction Models Group. Funzionalità Interaction Models Group Consente lestrazione della struttura grammaticale di una frase La struttura grammaticale.
Advertisements

Elaborare il linguaggio naturale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.
Traduzione e computer (3) Cristina Bosco Informatica applicata alla comunicazione multimediale 2013.
Il Parallel Turin University Treebank Cristina Bosco – Manuela Informatica applicata alla comunicazione multimediale
Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale
Linguistica computazionale e approcci corpus-based
Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.
"Play Ogg" multimedialità libera con GNU/Linux... presentato da Stefano Pardini al Linux Day 2008 per ACROS ACROS.
Text Mining Informatica applicata alla comunicazione multimediale
Linguistica computazionale e approcci corpus-based
GLI IPERMEDIA LA COMUNICAZIONE è una forma di relazione sociale che coinvolge aspetti ed elementi diversi. E’ composta da: MITTENTE= chi manda.
Piattaforma per industrie stampaggio
Fotogrammetria - Lezione 3
Linguistica computazionale, treebank e altre risorse
Linguistica computazionale e treebank
La rappresentazione delle informazioni
Come cercare le fonti di informazione scientifica RISORSE
Valutazione del servizio scolastico Caratteristiche dell'informazione
Real-time 3D reconstruction using multiple depth cameras
Logica binaria Moreno Marzolla
Raccolta ed Analisi dei Requisiti nella Progettazione
Universal Dependencies e treebank
DIRIGERE L’INNOVAZIONE
Meccanismi di caricamento e aggiornamento dei dati
Unità di apprendimento 7
Studente/i Relatore Correlatore Committente Aris Piatti
Sociologia generale Lezione 1
Linguistica e treebank
Computer assisted translation e terminologia
COMUNICHIAMO E CONFRONTIAMOCI CON I MASS MEDIA
I programmi sono testi? Copyright Stefano Penge 2010 CC BY-NC-SA
Margarita Borreguero Zuloaga Annamaria Cacchione
Università di Pisa INFN – Sezione di Pisa
AsyncTasks.
Documentare la didattica
Gestione Informatica dei Dati Aziendali Sistemi Informativi Gestionali
Corpora Giuseppe Palumbo
IL TESTO ESPOSITIVO - INFORMATIVO
Laboratorio linguistico L’articolo di giornale
Laboratorio linguistico L’articolo di giornale
Consultare un corpus con AntConc
Presentazione del Manifesto 2017/2018
CRITERI PER LA BUONA FORMAZIONE DI UN OBIETTIVO
Rappresentazione dei Numeri
CRM per PMI Attualmente, molte PMI italiane non utilizzano strumenti a supporto del processo di Customer Relationship Management (CRM), rendendo non strutturata.
Psicologia dell’apprendimento
SISTEMA NAZIONALE DI VALUTAZIONE INCONTRI REGIONALI
le fonti di informazione scientifica
Programmare.
Emergency Department Wait Time Prediction
Corpora & co. Giuseppe Palumbo
VALUTAZIONE DEGLI OBIETTIVI DI APPRENDIMENTO (al termine del primo quadrimestre) Prove comuni A.S. 2017/2018.
BootCaT: Bootstrapping Corpora and Terminology
I linguaggi non verbali sono molto vari, immediati, facili da apprendere e senza dubbio assumono un ruolo importante nella vita di relazione degli.
I pomeriggi del CLA Errori, sbagli, interlingua nell'apprendimento dell'italiano L2 05/06/2018 dott. Simone Cavallo.
Sistemi informativi statistici
Definizione di linguaggio di programmazione
Move-Me Project - Final Conference
PROGETTO: I DIRITTI DEI BAMBINI
Macchine Parlanti A.A. 2018/19 Titolo progetto (es. orologio parlante senza display) template per il progetto finale del corso di Documentazione Linguistica.
Tutto molto bello, tutto molto utile?
Università degli studi di Modena e Reggio Emilia
SISTEMA NAZIONALE DI VALUTAZIONE INCONTRI REGIONALI
Premessa Parlare di Problem Based o Project Based Learning significa affrontare alcuni problemi specifici: Cosa possiamo fare per rinnovare la scuola.
Dalle prove INVALSI alla didattica
CRITERI PER LA BUONA FORMAZIONE DI UN OBIETTIVO
I sistemi di equazioni di I grado
La metodologia del nostro curricolo di italiano: principi generali
Diagrammi di fase (o di stato)
CHI È IL DOCENTE DI ITALIANO A STRANIERI?
Transcript della presentazione:

Il Parallel Turin University Treebank Cristina Bosco – Manuela Sanguinetti Informatica applicata alla comunicazione multimediale 2016-2017

ParTUT ParTUT è il primo treebank parallelo costruito utilizzando il formato di TUT; lo possiamo definire secondo le seguenti direzioni: composizione e dimensione del corpus formato di annotazione utilizzo collocazione rispetto ad altri progetti e risorse

Composizione di ParTUT Attualmente ParTUT contiene frasi derivanti da 6 diverse fonti: Il corpus della CE, JRC-Acquis Le licenze Creative Commons La dichiarazione dei diritti umani Il corpus di trascrizioni EUROPARL Il corpus web Inventory of Translated Talks (WIT3) Porzioni di Wikipedia e Project Syndicate

Dimensione di ParTUT Attualmente ParTUT contiene 3194 frasi che corrispondono a 89191 token. La media è di 1060 frasi per lingua, ed i testi sono così ripartiti: Italiano – 1070 frasi Francese – 1065 Inglese – 1045

Annotazione di ParTUT Il formato utilizzato è quello di TUT: 1 Universal (UNIVERSAL ADJ QUALIF ALLVAL ALLVAL) [2;ADJC+QUALIF-RMOD] 2 Declaration (DECLARE NOUN COMMON N SING DECLARE TRANS) [0;TOP-NOUN] 3 of (OF PREP MONO) [2;NOUN-OBJ] 4 Human (HUMAN ADJ QUALIF ALLVAL ALLVAL) [5;ADJC+QUALIF-RMOD] 5 Rights (RIGHT NOUN COMMON N PL) [3;PREP-ARG]

Annotazione di ParTUT Poiché il formato era stato in origine progettato per la lingua italiana, per rappresentare alcuni aspetti specifici del francese e dell’inglese è stato necessario arricchirlo. Tuttavia, essendo la lingua italiana molto ricca dal punto di vista morfologico e sintattico, gli arricchimenti necessari sono stati molto pochi, ad es. il genitivo sassone e le espletive per l’inglese.

Annotazione di ParTUT La procedura applicata per l’annotazione consiste in: pretrattamento manuale (conversione dei dati da altre codifiche in UTF-8) analisi automatica (eseguita da TULE) correzione manuale e revisione semiautomatica (eseguita con tool sviluppati ad hoc) conversione in formato ConLL e in Stanford Dependencies

Utilizzo di ParTUT Un treebank parallelo è una risorsa di fondamentale importanza per lo sviluppo dell’NLP in generale e per la MT in particolare. Dalla sua analisi è possibile estrarre dati altrimenti non rilevabili sul confronto cross-linguistico e derivarne informazioni importanti anche per le singole lingue coinvolte.

Utilizzo di ParTUT Il principale scopo per lo sviluppo di ParTUT è stato costruito è lo studio dei fenomeni sintattici delle 3 lingue coinvolte e di come questi possono essere messi in parallelo per informare sistemi di MT. Ma l’allineamento sintattico è di per se’ un task complesso che deve essere risolto anche in relazione alla teoria linguistica di riferimento ed al formato di rappresentazione adottato.

Utilizzo di ParTUT Per poter parlare di allineamento sintattico, prima occorre affrontare l’allineamento per parole … potremmo scoprire che l’allineamento sintattico non ci serve … È un task più semplice che ci fa intuire le difficoltà dell’allineamento sintattico … tutto ciò che non si riesce ad allineare per parola richiede la costruzione di un allineamento sintattico.

Utilizzo di ParTUT Per poter parlare di allineamento sintattico, occorre aver affrontato i task ad esso preliminari: Allineamento per paragrafi Allineamento per frasi Allineamento per parole Allineamento per strutture sintattiche

Utilizzo di ParTUT

Utilizzo di ParTUT