Computer Assisted Translation

Slides:



Advertisements
Presentazioni simili
Computer Assisted Translation (CAT) Cristina Bosco Informatica applicata alla comunicazione multimediale
Advertisements

Computer Assisted Translation (CAT) Cristina Bosco Informatica applicata alla comunicazione multimediale
Computer assisted translation (CAT - 2) Cristina Bosco Informatica applicata alla comunicazione multimediale
Corso Base Wordfast - PRO. CAT TOOLS vs MACHINE TRANSLATION Che cosa fa un CAT TOOL Un Cat Tool NON traduce da solo ma si avvale di frase già tradotte.
Giuditta Cantoni, 4 E S.I.A I DATABASE. Definizione databese In informatica, il termine database, banca dati o base di dati (a volte abbreviato con il.
Fondamenti di Informatica - D. Talia - UNICAL 1 Fondamenti di Informatica FONDAMENTI DI INFORMATICA Domenico Talia
1 14 marzo 2006 sommaruga andrea Fondazione Ordine Ingegneri di Milano VPN: Reti Private Virtuali VPN: RETI PRIVATE VIRTUALI LE POSSIBILITA' DI ACCESSO.
POLITECNICO DI MILANO FACOLTA’ DI INGEGNERIA SEDE DI CREMONA TESI DI DIPLOMA IN INGEGNERIA INFORMATICA RELATOREAUTORI Prof. Vittorio TrecordiDemicheli.
Presentazione della piattaforma e - learning MOODLE a cura di Davide Afretti Bologna, 24 aprile 2013.
Gestione delle configurazioni Configuration management (CM) E` un processo che controlla le modifiche fatte a un sistema e gestisce le diverse versioni.
Carlo Magnaguagno1 UNI-CREMA INTERNET Le cose da sapere per navigare Per muoversi nella rete non è necessario essere esperti di informatica, ne capire.
.  I tipi di dati non primitivi sono gli array, le struct e le union.  Gli array sono degli aggregati di variabili dello stesso tipo.  La dichiarazione.
Il Parallel Turin University Treebank
Chi siamo.
Synapse Gestione e Flussi documentali
Corso per Webmaster base
Che cosa c’è “DIETRO” DatAvvocato?
Protocollo di trasmissione tramite tecnologia Barryvox
Che cos’è un e book? E’ un libro in formato digitale; si può leggere con un apposito dispositivo ereader, oppure su un tablet, uno smartphone o un computer.
Piattaforma per industrie stampaggio
Tratto da: Anna Labella (a cura), E questo tutti chiamano Informatica, Manuali Scienze e Tecnologie – Formazione, La Sapienza Roma.
Rappresentazione dell’ Informazione Informazione e Comunicazione
La rappresentazione delle informazioni
REX - Istruzioni tipo IKEA
Programmazione per la Musica | Adriano Baratè
Relazione finale su [nome del progetto]
Universal Dependencies e treebank
Il Binding Nicolò Sordoni.
Basi di Dati: Introduzione
Linguistica e treebank
Considerazioni sull'infrastruttura
Computer assisted translation e terminologia
Organizzazione fisica
Il business model Giorno 3
* Il Sistema Operativo GNU/Linux * Sistema Operativo e Applicazioni
Web Marketing Il web marketing applica al web le tradizionali strategie di Marketing reinterpretandole, adattandole al contesto e ai differenti canali.
analizzatore di protocollo
La valutazione delle performance di processo
Che cos’e’ l’Informatica
Il sistema azienda Istituti e aziende Il concetto di azienda Elementi costitutivi dell’azienda L’azienda di produzione L’azienda come sistema L’azienda.
Corso di Ingegneria del Web A A Domenico Rosaci 1
MODULO 1 – Computer essentials
Organizzazione di una rete Windows 2000
Introduzione alle basi di dati
[Nome progetto] Relazione finale
Smart City.
Basi di dati - Fondamenti
Pharma Language 27/12/2018.
Programmare.
BootCaT: Bootstrapping Corpora and Terminology
Questa presentazione può essere utilizzata come traccia per una discussione con gli spettatori, durante la quale potranno essere assegnate delle attività.
© 2007 SEI-Società Editrice Internazionale, Apogeo
Dott. Stefano Carrara - Amministratore Leanus Roma, 4 Dicembre 2015
Marco Panella Internet e WWW Marco Panella
Sistemi informativi statistici
© 2007 SEI-Società Editrice Internazionale, Apogeo
[Nome progetto] Relazione finale
in Word 5 nuovi modi per lavorare Collabora con chiunque, ovunque
Definizione di linguaggio di programmazione
Esercitazione sulle modalità
Fogli elettronici e videoscrittura
Gli archivi e le basi di dati
IT SECURITY Controllo di accesso
Parti interne del computer
A-to-Z Consente di Localizzare e Accedere a tutte le risorse della biblioteca: riviste online riviste cartacee riviste nelle banche dati in full text riviste.
ROMA, FEBBRAIO 2019 Recupero di dati contabili da testi non strutturati di bilanci d’impresa disponibili sul sito Telemaco attraverso tecniche di text-mining.
Gli Indici di Produttività di Divisia
1Il processo produttivo
CLOUD.
Transcript della presentazione:

Computer Assisted Translation Informatica Applicata alla Comunicazione Multimediale 2016/2017 Cristina Bosco

Ausili alla Traduzione In senso generale sono ausili alla traduzione gli strumenti di elaborazione del linguaggio umano: elaboratori di testi software OCR (Optical Character Recognition) strumenti per il riconoscimento e la sintesi vocale strumenti per la ricerca e sostituzione di testo risorse linguistiche

Sistemi di traduzione In senso stretto sistemi informatici per la traduzione sono invece sistemi che svolgono compiti di traduzione: sostituendo il traduttore (traduttori automatici = machine translation) supportando il traduttore con strumenti per lo svolgimento di attività tradizionalmente svolte manualmente come (CAT): analisi sul testo sorgente o target creazione, gestione e consultazione di glossari e basi terminologiche ricerche in corpora linguistici

CAT Alle applicazioni che supportano il lavoro umano di traduzione si fa riferimento collettivamente con il nome di CAT (Computer Aided Translation o Computer Assisted Translation). Non sono propriamente strumenti CAT quelli per la traduzione automatica (MT, Machine Translation), anche nella sua varietà assistita (HAMT, Human Aided Machine Translation).

CAT e TM I sistemi per la traduzione assistita attualmente più diffusi forniscono al traduttore professionista vari strumenti tra cui soprattutto la memoria di traduzione (TM, Translation Memory). Per questo motivo che il termine TM viene spesso, sebbene in modo impreciso, usato interscambiabilmente con il termine CAT.

Breve storia Con il rapporto ALPAC del 1966 la ricerca nel campo della traduzione automatica subisce una battuta di arresto e si cominciano a cercare modi di mettere la tecnologia informatica al servizio del traduttore umano. Le prime soluzioni consistevano essenzialmente in banche dati terminologiche, che a causa dei costi elevati delle tecnologie informatiche, negli anni '70, erano retaggio di poche grandi aziende. Tra la fine degli anni '70 e l'inizio degli anni '80 cominciarono a circolare idee che costituivano la base del concetto di memoria di traduzione.

Breve storia "It must in fact be possible to produce a program which would enable the word processor to 'remember' whether any part of a new text typed into it had already been translated, and to fetch this part, together with the translation which had already been done, and display it on screen or print it out, automatically." [P. J. Arthern, Aids unlimited: the scope for machine aids in a large organization, in Aslib Proceedings volume 33, no. 8, Machine Aids for Translators, Aslib, London, 1981.]

Breve storia Negli anni '80 compaiono sul mercato i primi personal computer e i sistemi di CAT cominciarono effettivamente a essere realizzati. Il pioniere è TSS (Translation Support System), un software per sistema operativo OS/2 realizzato da ALPS, una società statunitense produttrice di software per applicazioni linguistiche, poi divenuta Alpnet. TSS fu realizzato attorno alla metà degli anni '80 e fu adottato da alcune grandi società, tra le quali IBM, per la propria attività di traduzione interna.

Breve storia La seconda metà degli anni '80 vede un grande fermento nel settore: la società olandese INK realizza nel 1987 un sistema ispirato a TSS e integrato da un componente terminologico (TermTracer), producendo un pacchetto denominato Text Tools. La società Trados, fondata nel 1984, ottiene il diritto di commercializzare tale pacchetto in Germania. Lo stesso anno la società svizzera Star AG, specializzata in traduzioni tecniche, realizza per i collaboratori interni un software di traduzione denominato Transit, funzionante sotto DOS. Diverse altre aziende realizzano strumenti simili a uso interno.

Breve storia La commercializzazione di tali pacchetti al di fuori delle grandi aziende inizia nei primi anni '90. Nel 1990 esce la prima versione di Trados MultiTerm per DOS. Nel 1992 IBM lancia sul mercato il suo SAA AD/Cycle Translation Manager/2 (TM/2) per OS/2. Lo stesso anno fa il suo esordio sul mercato Trados Translator's Workbench per DOS. L'anno successivo Atril realizza e immette sul mercato Déjà Vu per Windows. Nel 1994 anche Star mette in commercio la versione per Windows del proprio sistema. I prezzi elevati di questi strumenti (diversi milioni di lire) e i requisiti hardware non contenuti ne rallentano la diffusione fra i traduttori indipendenti.

Breve storia Nello stesso quinquennio vedono la luce diversi altri software basati sul concetto di memoria di traduzione, che hanno però scarso successo e il cui sviluppo viene abbandonato. Nella seconda metà degli anni '90, mentre alcuni dei software nati agli inizi del decennio conquistano una sempre maggiore popolarità fra i traduttori, grazie anche a un sostanziale ribasso dei prezzi, fanno la loro comparsa prodotti nuovi, tra i quali SDLX (1998).

Breve storia Alla fine degli ’90 e nel primo decennio del 2000, videro la luce diversi software economici oppure gratuiti come Wordfast (1999), Omega T (2002), Memo Q (2009) o online come Translator’s Toolkit di Google (2008). Oggi i sistemi di CAT più noti sono SDL Trados, Star Transit, Across, Atril Déjà Vu, incalzati da WordFast, Omega T e Memo Q.

Breve storia

Breve storia L’idea di sistema di CAT nasce negli anni ‘60, quando la European Coal and Steel Community (ECSC) sviluppa un sistema per la ricerca di termini e del loro contesto in traduzioni memorizzate in formato elettronico. Il principale obiettivo è di mostrare i termini nel Linguaggio Sorgente (LS) ed i loro equivalenti nel Linguaggio Target (LT) all’interno dei loro rispettivi contesti.

Breve storia L’idea moderna di sistema consiste invece nel cercare le unità di traduzione uguali per riutilizzarle, e la si trova per la prima volta all’inizio degli anni ‘70, nel modello sviluppato da Krollman per l’esercito tedesco. “For revised new editions of translations only the changed passages would have to be retyped. Insertion of changes and corrections into the old text would automatically be done by computer.” (Krollmann 1971)

Breve storia Alla fine degli anni ‘70 Arthern, un traduttore della EC, propone un ulteriore sviluppo, nell’ambito di una discussione sull’uso dei database terminologici e l’introduzione di Systran. Arthern suggerisce di sviluppare il sistema in modo che possa trovare non solo le unità di traduzione uguali al testo da tradurre, ma anche quelle simili.

Breve storia Accanto all’idea di “exact match” nasce quindi l’idea di “fuzzy match” (the nearest available equivalent), ma anche la proposta di integrare sistemi di CAT e di MT, per poter ottenere come risultato la maggior quantità di materiale tradotto e limitare l’intervento umano. Realizzare quindi, in accordo con ALPAC, sistemi di traduzione con al centro il traduttore invece della macchina.

Breve storia Solo all’inizio degli anni ‘80 la ricerca di “exact matches” viene implementata da ALPS Incorporated, in una semplice componente detta “repetitions processing” del Translation Support System (TTS), un sistema di MT. L’idea del “fuzzy matching” è implementata per la prima volta all’inizio degli anni ‘90, nei primi sistemi commercializzati di TM, IBM Translation Manager e SDL Trados.

Memoria di traduzione: UT Una memoria di traduzione è un archivio elettronico in cui i testi in lingua sorgente e i corrispondenti testi in una o più lingue target sono memorizzati in modo parallelo. I testi sono segmentati in unità minime dette Unità di Traduzione (UT) e allineati in modo che ad ogni segmento in lingua sorgente corrisponda il proprio traducente in ciascuna delle lingue target.

Memoria di traduzione: creazione I sistemi di CAT consentono di creare una memoria di traduzione in due modi differenti: - costruendola durante il processo di traduzione; l’utente crea una nuova memoria vuota e il sistema si occupa di riempirla durante la traduzione, man mano che il traduttore lavora, archiviando in modo automatico nella memoria di traduzione le traduzioni prodotte.

Memoria di traduzione: creazione - Indipendentemente dal processo di traduzione. Se sono disponibili in formato elettronico sia il testo in lingua sorgente, sia il corrispondente testo in lingua target, è infatti possibile alimentare una memoria di traduzione tramite procedure di allineamento automatico. I testi sorgente e target vengono segmentati ed inseriti nella memoria di traduzione appaiati (con interventi manuali più o meno estesi).

Memoria di traduzione: utilizzo Quando si traduce utilizzando uno strumento di CAT, questo segmenta il testo da tradurre e per ogni segmento, man mano che si traduce, controlla se esistono corrispondenze nella memoria di traduzione. Se trova un segmento uguale (exact match, corrispondenza esatta) o simile (fuzzy match, corrispondenza parziale) nella lingua di partenza, presenta al traduttore il segmento corrispondente nella lingua di arrivo che il traduttore potrà accettare, correggere come necessario o ignorare facendo una traduzione ex-novo.

Memoria di traduzione: search La maggior parte degli strumenti di CAT consente di cercare nella memoria di traduzione singoli termini o espressioni per verificare come sono stati tradotti in precedenza. Una memoria di traduzione è uno strumento potente per la traduzione di testi ripetitivi (documentazione tecnica, manualistica, testi legali e commerciali), che coerenza stilistica e terminologica e tempi di traduzione ridotti.

I sistemi di TM Componenti di un sistema di TM: Editor multilingue – serve a leggere il testo in LS e a scriverne la traduzione in tutti i formati necessari Manager della terminologia – per gestire tutto ciò che riguarda la memorizzazione e modifica dei termini organizzati per soggetto, cliente e progetto Riconoscitore di termini – per orientare la ricerca nel database terminologico

I sistemi di TM Componenti di un sistema di TM: Riconoscitore di concordanze – per cercare tutte le istanze di una stringa di ricerca nel loro contesto Calcolatore statistiche – per avere una panoramica quantitativa sulla TM e sapere ad es. quanto del materiale esistente è riutilizzato nella nuova traduzione

I sistemi di TM Componenti di un sistema di TM: Strumenti di allineamento – per creare la TM con dentro i documenti precedentemente tradotti, confrontarli con i testi da tradurre facendo il match dei segmenti corrispondenti, e legare insieme le unità di traduzione.

I sistemi di TM Alcuni sistemi offrono anche gli strumenti per la creazione e gestione di basi terminologiche, e per l’integrazione con sistemi di MT che comportano quindi la gestione di vari tipi di file all’interno di progetti complessi. In sostanza dagli anni ’90 i sistemi di MT sono rimasti sostanzialmente uguali, con l’eccezione degli algoritmi di matching e l’aggiunta di funzioni più sofisticate.

I sistemi di TM

I sistemi di TM Dagli anni ’90 quello che è cambiato è però il modo in cui il processo traduttivo viene organizzato e il modo in cui le persone coinvolte in esso possono interagire grazie all’architettura client/server e grazie al cloud computing e crowd sourcing.

Cloud computing Con cloud computing si indica un paradigma di erogazione di risorse informatiche (archiviazione, elaborazione e trasmissione di dati) on demand tramite il web. Le risorse non vengono pienamente configurate e messe in opera dal fornitore apposta per l'utente, ma gli sono assegnate, rapidamente e convenientemente, grazie a procedure automatizzate, a partire da un insieme di risorse condivise con altri utenti lasciando all'utente parte dell'onere della configurazione.

Crowdsourcing Con crowdsourcing (da crowd, "folla", e outsourcing "esternalizzazione di una parte delle proprie attività”) si indica un modello di business per cui si affida la progettazione, la realizzazione o lo sviluppo di un progetto, oggetto o idea ad un insieme indefinito di persone non organizzate precedentemente, solitamente tramite siti e portali web. Questo modello è sovente applicato per lo sviluppo di risorse linguistiche, e consente di ottenere dati che non risentono di bias e sono quindi manifestazione della conoscenza condivisa dalla comunità dei parlanti.

Tipi di sistemi di TM Una Translation Memory (TM) è solitamente un database in cui ogni record contiene una Translation Unit (TU), che consiste in una coppia di segmenti in LS e LT e in varie informazioni sulla TU (data di creazione, autore, progetto, cliente). Una TM è un database dinamico, che può essere popolato in diversi modi.

Tipi di sistemi di TM Esistono tre modi di popolare il database TM: Mentre si traduce – ogni TU tradotta viene salvata nella TM Importando una TM – sia creata con lo stesso sistema di TM, sia creata con un altro, ma con un formato compatibile Allineando un testo con una traduzione – esistono strumenti di allineamento per mettere insieme testi tradotti ad es. in altri progetti

Tipi di sistemi di TM Alcuni sistemi di TM non sono database, ma gestiscono il testo nel loro complesso. Rispetto ai sistemi basati su database hanno il vantaggio di mettere a disposizione maggiori informazioni sul contesto. Per questo motivo nei sistemi basati su database le TU vengono arricchite con informazioni sul contesto, senza le quali le TU sono completamente decontestualizzate.

MT e TM MT e TM sono due cose distinte, ma hanno certe cose in comune: TM trae spunto dalla MT example-based e dalla statistical MT, entrambi approcci rivolti alla ricerca del best matching per la frase da tradurre. Ci sono però differenze sostanziali di obiettivo tra TM da un lato e MT example-based e statistical MT dall’altro.

MT e TM Un sistema di TM svolge una forma di Information Retrieval che delega al traduttore la decisione su quanto e come utilizzare e modificare il risultato che il sistema produce. Un sistema di MT example-based o statistical MT invece produce traduzioni selezionando le informazioni necessarie nella base di conoscenza costituita da testi tradotti.

MT e TM TM e MT si possono utilmente integrare in diversi modi: Batch processing – in un sistema che provi a valutare per ogni TU i match (esatti e fuzzy) prima dell’intervento del traduttore, è possibile far intervenire un sistema di MT per tutte quelle TU che non hanno nessun match, segnalando il fatto che si tratta di una traduzione non ricavata dalla TM.

MT e TM Batch processing, una nota Alcuni sistemi di TM valutano la TU nel momento in cui il traduttore la seleziona per iniziare a tradurre Altri sistemi valutano tutte le unità del testo da tradurre prima che il traduttore inizi il suo lavoro.

MT e TM TM e MT si possono utilmente integrare in diversi modi: Interactive processing – in un sistema di TM che è in comunicazione con un sistema di MT, il traduttore può richiamare la MT su ogni TU su cui la TM non gli offre suggerimenti per la traduzione, e poi se serve può modificare il risultato offerto dalla MT.

MT e TM L’integrazione di TM e MT risulta particolarmente produttiva quando il sistema di MT viene addestrato su grandi corpora e precisamente su quelli che contengono le TU che utilizza il sistema di TM. I vantaggi si vedono in termini di velocità, costo, qualità più stabile e quindi aumento della produttività.

Vantaggi e limiti delle TM L’uso di TM aumenta la produttività dei traduttori e la qualità dei materiali tradotti garantendo l’omogeneità soprattutto terminologica. I report mostrano aumenti di produttività tra il 25 e il 60%. Il numero di parole tradotte al giorno si attesta intorno ad un massimo di 2.400.

Vantaggi e limiti delle TM L’uso di TM ha però anche effetti negativi sulla qualità della traduzione. Il principale problema è che le TU sono viste come isolate dal contesto e questo rende difficile ad es. la traduzione corretta di legami anaforici cross sentenziali.

Vantaggi e limiti delle TM L’uso di TM ha però anche effetti negativi sulla qualità della traduzione. Un altro problema è il fatto che la nozione di similarità tra TU di un traduttore e di un computer possono essere sensibilmente diverse tra loro e quindi il sistema può presentare come exact match delle traduzione errate dal punto di vista del traduttore, oppure come fuzzy macth delle cose che non c’entrano.

Migliorare l’IR delle TM I sistemi di IR che stanno dietro le TM non sono molto cambiati nel tempo. Il principale loro limite consiste nel fatto che si basano su caratteri e stringhe, senza utilizzare aspetti linguistici come quelli derivanti da analisi morfologica, sintattica e semantica per determinare il match tra TU.

Migliorare l’IR delle TM Ad esempio, i sistemi di TM non sono in grado di riconoscere il match tra due TU quando ci sono semplici cambiamenti nell’ordine degli elementi della frase. ES. Il cane dorme da oltre un’ora dentro la sua cuccia in giardino Il cane dorme in giardino dentro la sua cuccia da oltre un’ora

Migliorare l’IR delle TM L’uso di conoscenza linguistica potrebbe notevolmente migliorare le prestazioni dei sistemi di TM per due motivi: Migliorare la precision e recall del retrieval monolingue Aumentare la riusabilità delle TU suddividendole in parti più piccole

Migliorare l’IR delle TM ES. A[Il cane dorme] B[da oltre un’ora] C[dentro la sua cuccia] D[in giardino] A[Il cane dorme] D[in giardino] C[dentro la sua cuccia] B[da oltre un’ora]

Migliorare l’IR delle TM L’uso di conoscenza linguistica è quindi l’obiettivo dei sistemi di TM di seconda generazione, che integrano metodi di analisi linguistica e di shallow parsing per aumentare le possibilità di match. Questo ha effetti positivi soprattutto per certe coppie di lingue.

Migliorare l’IR delle TM Empirically documented knowledge about the nature and applications of TM systems and translators’ interaction with them is both scarce and fragmented. In particular, more research is needed on how translators interact with TM technology and on how it influences translators’ cognitive processes. The translation profession itself will also welcome more knowledge about the translators’ perspective on TM technology. (Christensen and Schjoldager 2010, 99)