Computer Assisted Translation (CAT) Cristina Bosco Informatica applicata alla comunicazione multimediale 2014-2015.

Slides:



Advertisements
Presentazioni simili
Approximate Sequence Matching: Implementazione e Analisi Prestazionale
Advertisements

Linguaggio C e C++.
Presentazione della tesi di laurea di Flavio Casadei Della Chiesa Newsletter: un framework per una redazione web.
Intelligenza artificiale
IlTrovatore S.p.a. IlTrovatore RemoteSearch IlTrovatore mette a disposizione di portali Internet, piccole e medie imprese, tutto il suo know-how nel settore.
MAPPE CONCETTUALI Sergio Capone ITP
© 2007 SEI-Società Editrice Internazionale, Apogeo Unità B1 Introduzione alle basi di dati.
© 2007 SEI-Società Editrice Internazionale, Apogeo Unità A1 Introduzione a Java.
Unità D2 Database nel web. Obiettivi Comprendere il concetto di interfaccia utente Comprendere la struttura e i livelli che compongono unapplicazione.
THE BUSINESS NETWORK AGGREGATOR I CHAMPION. THE BUSINESS NETWORK AGGREGATOR NKW è un Network Innovativo. Si configura come aggregatore di reti dimpresa.
PHP.
I linguaggi di programmazione
SISTEMA INFORMATIVO AZIENDALE
INTERNET : ARPA sviluppa ARPANET (rete di computer per scopi militari)
Nel ventesimo secolo ci fu la nascita dellinformatica il termine telematica nasce dalla fusione di due termini telecomunicazione e informatica una rete.
Type Checking (1° parte)
Università degli studi di Modena e Reggio Emilia
LIM lavagna interattiva multimediale
Il Software: Obiettivi Programmare direttamente la macchina hardware è molto difficile: lutente dovrebbe conoscere lorganizzazione fisica del computer.
Dott. Nicola Ciraulo CMS Dott. Nicola Ciraulo
IL PATRIMONIO DI DATI - LE BASI DI DATI. Il patrimonio dei dati Il valore del patrimonio di dati: –Capacità di rispondere alle esigenze informative di.
CORSO DI INFORMATICA LAUREA TRIENNALE-COMUNICAZIONE & DAMS
Cos’è un CMS? Content Management System
Corso di PHP.
Case Based Reasoning
1 Workshop Conclusione Azione Formativa Torino 11 Maggio 2011 Organizzazione dellazione formativa - Il percorso formativo - il calendario - Aspetti organizzativi.
Implementare un modello di dati
Database & Information Retrieval
Descrizione Semantica ad Alto Livello di Ambienti Virtuali in X3D
INFORMATICA MATTEO CRISTANI. INDICE CICLO DELLE LEZIONI LEZ. 1 INTRODUZIONE AL CORSO LEZ. 2 I CALCOLATORI ELETTRONICI LEZ. 3 ELEMENTI DI TEORIA DELL INFORMAZIONE.
Lezione 1 Linguaggi di programmazione – Algoritmi –Istruzioni
Il Semantic Web applicato ai percorsi formativi nelle organizzazioni innovative By CSTAdvising CSTAdvising, professionisti della conoscenza,
Corso JAVA Lezione n° 11 Istituto Statale di Istruzione Superiore “F. Enriques”
Dati e DBMS DBMS relazionali SQL Progettazione di una base di dati Programma del Corso.
Programma di Informatica Classi Prime
Traduzione e computer (3) Cristina Bosco Informatica applicata alla comunicazione multimediale 2013.
Tipologie standard di preventivi nella localizzazione, cosa è cambiato?
Corso di Visual Basic 6.0 OBBIETTIVI
Computer Assisted Translation (CAT) Cristina Bosco Informatica applicata alla comunicazione multimediale
I DATABASE.
Cloud SIA V anno. Introduzione ai Data Warehouse.
Computer assisted translation (2) Cristina Bosco Informatica applicata alla comunicazione multimediale 2013.
Traduzione e computer (3) Cristina Bosco Informatica applicata alla comunicazione multimediale
Traduzione e computer (4) Cristina Bosco Informatica applicata alla comunicazione multimediale
INTERFACCE Schede elettroniche che permettono al calcolatore di comunicare con le periferiche, che possono essere progettate e costruite in modo molto.
Le “nuvole informatiche”
GLI ALGORITMI VISIBILE SUL BLOG INFORMATICA ANNO SCOLASTICO 2013 / 2014 GABRIELE SCARICA 2°T.
Dati e DBMS DBMS relazionali SQL Progettazione di un DBMS Normalizzazione Programma del Corso di Basi di Dati.
Linguistica computazionale: task sul linguaggio naturale Cristina Bosco 2015 Informatica applicata alla comunicazione multimediale.
BUSINESS TRANSLATION Lesson 2. EQUITY PROFILO DI ALESSANDRO BENETTON 1) Alessandro Benetton è vice presidente del gruppo Benetton Spa e membro del board.
Database Elaborato da: Claudio Ciavarella & Marco Salvati.
By: Powered by:. Tecnologia Microsoft La soluzione CCAnalyzer utilizza la tecnologia OLAP (On Line Analytical Processing) di Microsoft presente nel software.
Il software Componente del computer costituita dai: –programmi di base per la gestione del sistema –programmi applicativi per l’uso del sistema Queste.
Una magnifica alleanza ! Roberto CHIMENTI Joomladay Roma–19/11/2009 Roberto CHIMENTI Joomladay Roma–19/11/2009 Roberto Chimenti -
Programmazione Attività di progettazione ed implementazione di programmi I programmi permettono di realizzare funzioni complesse su un hardware in grado.
Dati e DBMS DBMS relazionali SQL Progettazione di una base di dati Normalizzazione Programma del Corso.
Cooperare per risparmiare … ma non solo Liliana Morotti Regional Manager - SilverPlatter Information
Allineamento di sequenze
Internetworking V anno. Le soluzioni cloud per la progettazione di infrastrutture di rete.
Il software Claudia Raibulet
Tecnologie della lingua Human Language Technology (HLT)
Informazione e Informatica - presentazione dei concetti di base -
Linguistica computazionale: come accedere all’informazione codificata nel linguaggio naturale (seconda parte) Cristina Bosco 2014 Informatica applicata.
Integrazione con e /. Integrazione e/ - Banche24 Aggiornamenti previsti nel 2012 Sono previsti due momenti di rilascio per le funzionalità di integrazione.
Computer assisted translation (CAT - 2) Cristina Bosco Informatica applicata alla comunicazione multimediale
Dal problema al programma – ciclo di sviluppo del software La scrittura del programma è solo una delle fasi del processo di sviluppo di un'applicazione.
Parsing ricorsivo discendente Il parsing ricorsivo discendente (recursive descent parsing) è un metodo di tipo top-down che può essere facilmente codificato.
1 Informatica di Base Facoltà di Lingue e Letterature Straniere Corso di laurea in Relazioni Pubbliche.
Corso Base Wordfast - PRO. CAT TOOLS vs MACHINE TRANSLATION Che cosa fa un CAT TOOL Un Cat Tool NON traduce da solo ma si avvale di frase già tradotte.
Computer Assisted Translation
Transcript della presentazione:

Computer Assisted Translation (CAT) Cristina Bosco Informatica applicata alla comunicazione multimediale

Breve storia L’idea di sistema di CAT nasce negli anni ‘60, quando la European Coal and Steel Community (ECSC) sviluppa un sistema per la ricerca di termini e del loro contesto in traduzioni memorizzate in formato elettronico. Il principale obiettivo è di mostrare i termini nel Linguaggio Sorgente (LS) ed i loro equivalenti nel Linguaggio Target (LT) all’interno dei loro rispettivi contesti.

Breve storia L’idea moderna di sistema consiste invece nel cercare le unità di traduzione uguali per riutilizzarle, e la si trova per la prima volta all’inizio degli anni ‘70, nel modello sviluppato da Krollman per l’esercito tedesco. “For revised new editions of translations only the changed passages would have to be retyped. Insertion of changes and corrections into the old text would automatically be done by computer.” (Krollmann 1971)

Breve storia Alla fine degli anni ‘70 Arthern, un traduttore della EC, propone un ulteriore sviluppo, nell’ambito di una discussione sull’uso dei database terminologici e l’introduzione di Systran. Arthern suggerisce di sviluppare il sistema in modo che possa trovare non solo le unità di traduzione uguali al testo da tradurre, ma anche quelle simili.

Breve storia Accanto all’idea di “exact match” nasce quindi l’idea di “fuzzy match” (the nearest available equivalent), ma anche la proposta di integrare sistemi di CAT e di MT, per poter ottenere come risultato la maggior quantità di materiale tradotto e limitare l’intervento umano. Realizzare quindi, in accordo con ALPAC, sistemi di traduzione con al centro il traduttore invece della macchina.

Breve storia Solo all’inizio degli anni ‘80 la ricerca di “exact matches” viene implementata da ALPS Incorporated, in una semplice componente detta “repetitions processing” del Translation Support System (TTS), un sistema di MT. L’idea del “fuzzy matching” è implementata per la prima volta all’inizio degli anni ‘90, nei primi sistemi commercializzati di TM, IBM Translation Manager e SDL Trados.

I sistemi di TM Componenti di un sistema di TM: Editor multilingue – serve a leggere il testo in LS e a scriverne la traduzione in tutti i formati necessari Manager della terminologia – per gestire tutto ciò che riguarda la memorizzazione e modifica dei termini organizzati per soggetto, cliente e progetto Riconoscitore di termini – per orientare la ricerca nel database terminologico

I sistemi di TM Componenti di un sistema di TM: Riconoscitore di concordanze – per cercare tutte le istanze di una stringa di ricerca nel loro contesto Calcolatore statistiche – per avere una panoramica quantitativa sulla TM e sapere ad es. quanto del materiale esistente è riutilizzato nella nuova traduzione

I sistemi di TM Componenti di un sistema di TM: Strumento di allineamento – per creare la TM con dentro i documenti precedentemente tradotti, confrontarli con i testi da tradurre facendo il match dei segmenti corrispondenti, e legare insieme le unità di traduzione.

I sistemi di TM Alcuni sistemi offrono anche gli strumenti per la creazione e gestione di basi terminologiche, e per l’integrazione con sistemi di MT che comportano quindi la gestione di vari tipi di file all’interno di progetti complessi. In sostanza dagli anni ’90 i sistemi di MT sono rimasti sostanzialmente uguali, con l’eccezione degli algoritmi di matching e l’aggiunta di funzioni più sofisticate.

I sistemi di TM

In sostanza dagli anni ’90 i sistemi di MT sono rimasti sostanzialmente uguali, con l’eccezione degli algoritmi di matching e l’aggiunta di funzioni più sofisticate. Quello che è cambiato è però il processo traduttivo viene organizzato e il modo in cui le persone coinvolte in esso possono interagire grazie all’architettura client/server e grazie al cloud computing e crowd sourcing.

Cloud computing Con cloud computing si indica un paradigma di erogazione di risorse informatiche (archiviazione, elaborazione e trasmissione di dati) on demand tramite il web. Le risorse non vengono pienamente configurate e messe in opera dal fornitore apposta per l'utente, ma gli sono assegnate, rapidamente e convenientemente, grazie a procedure automatizzate, a partire da un insieme di risorse condivise con altri utenti lasciando all'utente parte dell'onere della configurazione.

Crowdsourcing Con crowdsourcing (da crowd, "folla", e outsourcing "esternalizzazione di una parte delle proprie attività”) si indica un modello di business per cui si affida la progettazione, la realizzazione o lo sviluppo di un progetto, oggetto o idea ad un insieme indefinito di persone non organizzate precedentemente, solitamente tramite siti e portali web. Questo modello è molto applicato per lo sviluppo di risorse linguistiche, e consente di ottenere dati che non risentono di bias e sono quindi condivisi.

Tipi di sistemi di TM Una Translation Memory (TM) è solitamente un database in cui ogni record contiene una Translation Unit (TU), che consiste in una coppia di segmenti in LS e LT e in varie informazioni sulla TU (data di creazione, autore, progetto, cliente). Una TM è un database dinamico, che può essere popolato in diversi modi.

Tipi di sistemi di TM Esistono tre modi di popolare il database TM: Mentre si traduce – ogni TU tradotta viene salvata nella TM Importando una TM – sia creata con lo stesso sistema di TM, sia creata con un altro, ma con un formato compatibile Allineando un testo con una traduzione – esistono strumenti di allineamento per mettere insieme testi tradotti ad es. in altri progetti

Tipi di sistemi di TM Alcuni sistemi di TM non sono database, ma gestiscono il testo nel loro complesso. Rispetto ai sistemi basati su database hanno il vantaggio di mettere a disposizione maggiori informazioni sul contesto. Per questo motivo nei sistemi basati su database le TU vengono arricchite con informazioni sul contesto, senza le quali le TU sono completamente decontestualizzate.

MT e TM MT e TM sono due cose distinte, ma hanno certe cose in comune: TM trae spunto dalla MT example-based e dalla statistical MT, entrambi approcci rivolti alla ricerca del best matching per la frase da tradurre. Ci sono però differenze sostanziali di obiettivo tra TM da un lato e MT example-based e statistical MT dall’altro.

MT e TM Un sistema di TM svolge una forma di Information Retrieval che delega al traduttore la decisione su quanto e come utilizzare e modificare il risultato che il sistema produce. Un sistema di MT example-based o statistical MT invece producono traduzioni selezionando le informazioni necessarie nella loro base di conoscenza costituita da testi tradotti.

MT e TM TM e MT si possono utilmente integrare in diversi modi: Batch processing – in un sistema che provi a valutare per ogni TU i match (esatti e fuzzy) prima dell’intervento del traduttore, è possibile far intervenire un sistema di MT per tutte quelle TU che non hanno nessun match, segnalando il fatto che si tratta di una traduzione non ricavata dalla TM.

MT e TM Batch processing, una nota Alcuni sistemi di TM valutano la TU nel momento in cui il traduttore la seleziona per iniziare a tradurre Altri sistemi valutano tutte le unità del testo da tradurre prima che il traduttore inizi il suo lavoro.

MT e TM TM e MT si possono utilmente integrare in diversi modi: Interactive processing – in un sistema di TM che è in comunicazione con un sistema di MT, il traduttore può richiamare la MT su ogni TU su cui la TM non gli offre suggerimenti per la traduzione, e poi se serve può modificare il risultato offerto dalla MT.

MT e TM L’integrazione di TM e MT risulta particolarmente produttiva quando il sistema di MT viene addestrato su grandi corpora e precisamente su quelli che contengono le TU che utilizza il sistema di TM. I vantaggi si vedono in termini di velocità, costo, qualità più stabile e quindi aumento della produttività.

Vantaggi e limiti delle TM L’uso di TM aumenta la produttività dei traduttori e la qualità dei materiali tradotti garantendo l’omogeneità soprattutto terminologica. I report mostrano aumenti di produttività tra il 25 e il 60%. Il numero di parole tradotte al giorno si attesta intorno ad un massimo di

Vantaggi e limiti delle TM L’uso di TM ha però anche effetti negativi sulla qualità della traduzione. Il principale problema è che le TU sono viste come isolate dal contesto e questo rende difficile ad es. la traduzione corretta di legami anaforici cross sentenziali.

Vantaggi e limiti delle TM L’uso di TM ha però anche effetti negativi sulla qualità della traduzione. Un altro problema è il fatto che la nozione di similarità tra TU di un traduttore e di un computer possono essere sensibilmente diverse tra loro e quindi il sistema può presentare come exact match delle traduzione errate dal punto di vista del traduttore, oppure come fuzzy macth delle cose che non c’entrano.

Migliorare l’IR delle TM I sistemi di IR che stanno dietro le TM non sono molto cambiati nel tempo. Il principale loro limite consiste nel fatto che si basano su caratteri e stringhe, senza utilizzare aspetti linguistici come quelli derivanti da analisi morfologica, sintattica e semantica per determinare il match tra TU.

Migliorare l’IR delle TM Ad esempio, i sistemi di TM non sono in grado di riconoscere il match tra due TU quando ci sono semplici cambiamenti nell’ordine degli elementi della frase. ES. Il cane dorme da oltre un’ora dentro la sua cuccia in giardino Il cane dorme in giardino dentro la sua cuccia da oltre un’ora

Migliorare l’IR delle TM L’uso di conoscenza linguistica potrebbe notevolmente migliorare le prestazioni dei sistemi di TM per due motivi: Migliorare la precision e recall del retrieval monolingue Aumentare la riusabilità delle TU suddividendole in parti più piccole

Migliorare l’IR delle TM ES. A[Il cane dorme] B[da oltre un’ora] C[dentro la sua cuccia] D[in giardino] A[Il cane dorme] D[in giardino] C[dentro la sua cuccia] B[da oltre un’ora]

Migliorare l’IR delle TM L’uso di conoscenza linguistica è quindi l’obiettivo dei sistemi di TM di seconda generazione, che integrano metodi di analisi linguistica e di shallow parsing per aumentare le possibilità di match. Questo ha effetti positivi soprattutto per certe coppie di lingue.

Migliorare l’IR delle TM Empirically documented knowledge about the nature and applications of TM systems and translators’ interaction with them is both scarce and fragmented. In particular, more research is needed on how translators interact with TM technology and on how it influences translators’ cognitive processes. The translation profession itself will also welcome more knowledge about the translators’ perspective on TM technology. (Christensen and Schjoldager 2010, 99)