Il Parallel Turin University Treebank Cristina Bosco – Manuela Informatica applicata alla comunicazione multimediale 2014-2015.

Slides:



Advertisements
Presentazioni simili
The Stella project has been funded with support from the European Commission. This PowerPoint reflects only the view of the initiatives author(s), and.
Advertisements

Procedure e funzioni A. Ferrari.
A cura del PROGETTO QUALITA Ministero dellIstruzione, dellUniversità e della Ricerca Ufficio Scolastico Regionale per la Campania Direzione Generale VERSO.
Laboratorio linguistico L’articolo di giornale
Metodo globale/alfabetico
Interaction Models Group. Funzionalità Interaction Models Group Consente lestrazione della struttura grammaticale di una frase La struttura grammaticale.
DIFFICOLTA’ DEL LINGUAGGIO
Università della Calabria Corso di laurea: Scienze della Formazione Primaria anno accademico Università della Calabria Corso di laurea: Scienze.
Tenendo conto della Finalità della scuola: Offrire un contributo significativo alla formazione delluomo e del cittadino che dovrà vivere ed operare nella.
Computer, Lingue ed Applicazioni Perché comprendere tramite gli elaboratori i contenuti testuali? I testi sono i veicoli principali di significato per.
Lo sviluppo del linguaggio nel bambino
Mentre lerrore grammaticale è generalmente attribuito a ignoranza della lingua e facilmente scusato, lerrore pragmatico non viene percepito.
Valutazione e Tecnologie Didattiche
Quanto vale la mia offerta agli occhi del cliente
LA LETTERATURA Metodo di studio.
Integrazione dei dati e reportistica avanzata in SURplus: un esempio
Chomsky La grammatica/sintassi è una proprietà della mente Distinta dalla capacità di comunicare E una facoltà autonoma ed innata La comunicazione è solo.
Elaborare il linguaggio naturale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.
HyperText Markup Language 17-23/6/08 Informatica applicata B Cristina Bosco.
DSA e strumenti compensativi
Sviluppo del linguaggio nel bambino bilingue
Espressione polirematica
Introduzione Statistica descrittiva Si occupa dellanalisi dei dati osservati. Si basa su indicatori statistici (di posizione, di variazione, di concentrazione,
HTML per iniziare Gianpaolo Cecere. 29 aprile Sintassi HTML I tag HTML sono direttive per i browser I tag sono contenitori per porzioni di documento.
EVOLUZIONE DEL LINGUAGGIO: DAGLI SCIMPANZÉ AI BAMBINI “SELVAGGI”
ORIENTAMENTO Il modo più semplice per indicare a qualcuno la nostra posizione (posizione relativa) è quella di far riferimento a punti fissi, i punti cardinali,
Associazione per lo sviluppo delle tecnologie nella didattica
Ci presentiamo….
Traduzione e computer (3) Cristina Bosco Informatica applicata alla comunicazione multimediale 2013.
Facoltà degli studi umanistici.
Lente convergente e legge dei punti coniugati in laboratorio
PROGRAMMAZIONE DISCIPLINARE DOCENTE: PELLEGRINETTI ENRICA
Cos’é il Modello di Organizzazione e Gestione o Modello 231?
ROVIGO 29 – 30 settembre 2014 Elaborazione di Simulazioni di Seconde Prove relative agli Esami di Stato a conclusione del primo quinquennio.
LA LIM IPPSA NINO BERGESE.
MODELLO A DUE VIE DI LETTURA
Computer assisted translation (2) Cristina Bosco Informatica applicata alla comunicazione multimediale 2013.
la traduzione dei programmi
PROGETTO: IMPARO UNA TERZA LINGUA: LINGUA SPAGNOLA in classe ANNO SCOLASTICO Destinatari: ALUNNI CLASSI I E II ITES Referente: Prof.ssa PALMIERI.
Componenti formali del linguaggio
Introduzione: informatica 18/2/2013 Informatica applicata alla comunicazione multimediale Cristina Bosco.
Traduzione e computer (3) Cristina Bosco Informatica applicata alla comunicazione multimediale
Traduzione e computer (4) Cristina Bosco Informatica applicata alla comunicazione multimediale
PROGRAMMAZIONE DISCIPLINARE CLASSI SECONDE A.S MATERIA:ITALIANO DOCENTE: PELLEGRINETTI ENRICA.
TALN Corpus-based computational linguistics Seminario del corso di Trattamento Automatico del Linguaggio Naturale (a. a – 2002) Daniele Barsocchi.
Trattamento Automatico del Linguaggio Naturale (1)
I Nostri Problemi Il Villaggio di Ofelon aderisce alla licenza Creative Commons Concetti in pillole ( 33 )
L’analisi del contenuto Doppia funzione dell’analisi del contenuto: -Può essere un tipo di ricerca specifico -Può essere una tecnica di ricerca Come TECNICA.
Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale
Linguistica computazionale e approcci corpus-based
Linguistica computazionale: task sul linguaggio naturale Cristina Bosco 2015 Informatica applicata alla comunicazione multimediale.
Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.
Informatica applicata alla comunicazione multimediale
Giannicola Spezzigu Accordo: sovrapposizione di 3 o più suoni Ogni sigla denota un accordo, ossia i suoni da cui esso è formato Accordi e.
Master in Telemedicina HTML per iniziare Maria Simi, dicembre 2004 [da un tutorial di Rigget]
Come costruire sistemi di elaborazione del linguaggio naturale (NLP) Due paradigmi di riferimento –Basato sulla conoscenza (Knowledge Engineering, KE)
Linguaggio come processo cognitivo
Tecnologie della lingua Human Language Technology (HLT)
Informatica 4 La ricorsione. Definizione di ricorsione Ricorsione è la proprietà di quei programmi che, all’interno delle istruzioni che li compongono,
Lo sviluppo del giornalismo online
Linguistica computazionale: come accedere all’informazione codificata nel linguaggio naturale (seconda parte) Cristina Bosco 2014 Informatica applicata.
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
1 Lixto tools evaluations for HTML data Integration in Momis Lixto tools evaluations for HTML data Integration in Momis Università degli Studi di Modena.
Computer assisted translation (CAT - 2) Cristina Bosco Informatica applicata alla comunicazione multimediale
UN TENTATIVO DI DEFINIZIONE INTEGRATO
Parsing ricorsivo discendente Il parsing ricorsivo discendente (recursive descent parsing) è un metodo di tipo top-down che può essere facilmente codificato.
Che cos’è la linguistica?
Corso Base Wordfast - PRO. CAT TOOLS vs MACHINE TRANSLATION Che cosa fa un CAT TOOL Un Cat Tool NON traduce da solo ma si avvale di frase già tradotte.
Il Parallel Turin University Treebank
Universal Dependencies e treebank
Transcript della presentazione:

Il Parallel Turin University Treebank Cristina Bosco – Manuela Informatica applicata alla comunicazione multimediale

ParTUT ParTUT è il primo treebank parallelo costruito utilizzando il formato di TUT; lo possiamo definire secondo le seguenti direzioni: composizione e dimensione del corpus formato di annotazione utilizzo collocazione rispetto ad altri progetti e risorse

Composizione di ParTUT Attualmente ParTUT contiene frasi derivanti da 6 diverse fonti: Il corpus della CE, JRC-Acquis Le licenze Creative Commons La dichiarazione dei diritti umani Il corpus di trascrizioni EUROPARL Il corpus web Inventory of Translated Talks (WIT3) Porzioni di Wikipedia e Project Syndicate (in via di sviluppo)

Dimensione di ParTUT Attualmente ParTUT contiene 3194 frasi che corrispondono a token. La media è di 1060 frasi per lingua, ed i testi sono così ripartiti: Italiano – 1070 frasi Francese – 1065 Inglese – 1045

Annotazione di ParTUT Il formato utilizzato è quello di TUT: 1 Universal (UNIVERSAL ADJ QUALIF ALLVAL ALLVAL) [2;ADJC+QUALIF-RMOD] 2 Declaration (DECLARE NOUN COMMON N SING DECLARE TRANS) [0;TOP-NOUN] 3 of (OF PREP MONO) [2;NOUN-OBJ] 4 Human (HUMAN ADJ QUALIF ALLVAL ALLVAL) [5;ADJC+QUALIF-RMOD] 5 Rights (RIGHT NOUN COMMON N PL) [3;PREP-ARG]

Annotazione di ParTUT Poiché il formato era stato in origine progettato per la lingua italiana, per rappresentare alcuni aspetti specifici del francese e dell’inglese è stato necessario arricchirlo. Tuttavia, essendo la lingua italiana molto ricca dal punto di vista morfologico e sintattico, gli arricchimenti necessari sono stati molto pochi, ad es. il genitivo sassone e le espletive per l’inglese.

Annotazione di ParTUT La procedura applicata per l’annotazione consiste in: pretrattamento manuale (conversione dei dati da altre codifiche in UTF-8) analisi automatica (eseguita da TULE) correzione manuale e revisione semiautomatica (eseguita con tool sviluppati ad hoc) conversione in formato ConLL e in Stanford Dependencies

Utilizzo di ParTUT Un treebank parallelo è una risorsa di fondamentale importanza per lo sviluppo dell’NLP in generale e per la MT in particolare. Dalla sua analisi è possibile estrarre dati altrimenti non rilevabili sul confronto cross-linguistico e derivarne informazioni importanti anche per le singole lingue coinvolte.

Utilizzo di ParTUT Il principale scopo per lo sviluppo di ParTUT è stato costruito è lo studio dei fenomeni sintattici delle 3 lingue coinvolte e di come questi possono essere messi in parallelo per informare sistemi di MT. Ma l’allineamento sintattico è di per se’ un task complesso che deve essere risolto anche in relazione alla teoria linguistica di riferimento ed al formato di rappresentazione adottato.

Utilizzo di ParTUT Per poter parlare di allineamento sintattico, prima occorre affrontare l’allineamento per parole … potremmo scoprire che l’allineamento sintattico non ci serve … È un task più semplice che ci fa intuire le difficoltà dell’allineamento sintattico … tutto ciò che non si riesce ad allineare per parola richiede la costruzione di un allineamento sintattico.

Utilizzo di ParTUT Per poter parlare di allineamento sintattico, occorre aver affrontato i task ad esso preliminari: Allineamento per paragrafi Allineamento per frasi Allineamento per parole Allineamento per strutture sintattiche

Utilizzo di ParTUT