Computer assisted translation (CAT - 2) Cristina Bosco Informatica applicata alla comunicazione multimediale 2015-2016.

Slides:



Advertisements
Presentazioni simili
Gestione della memoria centrale
Advertisements

Informatica Modulo 2 – Office Word.
STRUTTURA DEL PERSONAL COMPUTER
PROGRAMMARE IN PASCAL (le basi)
I linguaggi di programmazione
Una Introduzione alle Basi di Dati
Fondamenti di Informatica
Archivi   L’uso degli archivi deriva dalla necessità di conservare dati e informazioni in modo permanente affinché possano essere riutilizzate anche.
Access: Query semplici
Fogli elettronici - Spreadsheet
Popovic e i 5 tipi di cambiamento
Corso di Laurea in Ingegneria per lAmbiente e il Territorio Informatica per lAmbiente e il Territorio Docente: Giandomenico Spezzano Tutor: Alfredo Cuzzocrea.
Informatica di Base – A.A
Informatica di Base – A.A
Autore: Francesco Palmieri Microsoft Excel Tecniche di base.
20Segmenti.it Tesina di Alessandro Cipolletti.
Introduzione a EBSCOhost Tutorial. Benvenuti alla panoramica sullinterfaccia di EBSCOhost. In questo tutorial viene illustrata linterfaccia di ricerca.
DSA strumenti compensativi
INSTANT READER PROGRAMMADILETTURATEMPORIZZATA Le teorie più diffuse sulle modalità di apprendimento della lettura distinguono tra accesso diretto (detto.
La Revisione dei documenti
Software e sistema operativo 19-22/5/08 Informatica applicata B Cristina Bosco.
ACCESS Introduzione Una delle necessità più importanti in informatica è la gestione di grandi quantità di dati. I dati possono essere memorizzati.
Lezione 17 Riccardo Sama' Copyright Riccardo Sama' Access.
MIGLIORAMENTO USABILITA TIPI FASCICOLO. Miglioramento usabilità tipi fascicolo Esigenza Lutilizzo avanzato delle tipologie di fascicoli procedimentali.
Elenchi in Excel E’ possibile inserire le voci del nuovo elenco oppure
. STUDIARE IN L2 Strazzari.
Corso JAVA Lezione n° 11 Istituto Statale di Istruzione Superiore “F. Enriques”
11/10/2004Introduzione all'Informatica1 Che cose lInformatica Computer ScienceLInformatica (Computer Science) non è soltanto La scienza e la tecnologia.
Lavorare con le query Federica Scarrione 18/05/2009 fonte:
Prof. Reale Nicola Studentessa Parcesepe Federica
Traduzione e computer (3) Cristina Bosco Informatica applicata alla comunicazione multimediale 2013.
Writer: Stili Modelli Lezione 03. Modelli di formato e modelli di documento Modelli di formato: Sono gli stili attribuiti al carattere, al paragrafo alle.
Tipologie standard di preventivi nella localizzazione, cosa è cambiato?
Interrogare il database
Computer Assisted Translation (CAT) Cristina Bosco Informatica applicata alla comunicazione multimediale
Come collaborare all'organizzazione di un corso in rete
Memoria La memoria è un vettore di stringhe di bit (word/parole) In memoria è allocato il Sistema Operativo. In memoria sono allocati i programmi per poter.
Definizione di un algoritmo
Il Parallel Turin University Treebank Cristina Bosco – Manuela Informatica applicata alla comunicazione multimediale
Computer assisted translation (2) Cristina Bosco Informatica applicata alla comunicazione multimediale 2013.
Traduzione e computer (3) Cristina Bosco Informatica applicata alla comunicazione multimediale
Traduzione e computer (4) Cristina Bosco Informatica applicata alla comunicazione multimediale
Implementazione di dizionari Problema del dizionario dinamico Scegliere una struttura dati in cui memorizzare dei record con un campo key e alcuni altri.
Rappresentazione dell’informazione nel calcolatore.
Computer Assisted Translation (CAT) Cristina Bosco Informatica applicata alla comunicazione multimediale
Linguistica computazionale: task sul linguaggio naturale Cristina Bosco 2015 Informatica applicata alla comunicazione multimediale.
Strazzari STUDIARE IN L2.. Strazzari All’alunno straniero occorrono : 2 anni circa per acquisire la competenza comunicativa interpersonale 5 anni circa.
Scrivere e compilare programmi
1 Analisi ammortizzata Si considera il tempo richiesto per eseguire, nel caso pessimo, una intera sequenza di operazioni. Se le operazioni costose sono.
PERMESSO PERsistent MESSaging in ad hOc networks Corso di Reti di Calcolatori LS – AA Presentazione di Davide Sansovini Professore: Antonio Corradi.
1 Informatica Generale Susanna Pelagatti Ricevimento: Mercoledì ore presso Dipartimento di Informatica, Via Buonarroti,
Allineamento di sequenze
Il software Claudia Raibulet
Intelligenza Artificiale Metodologie di ragionamento Prof. M.T. PAZIENZA a.a
Informatica e Informatica di Base
UNITA’ 02 Malware.
Corso integrato di Matematica, Informatica e Statistica Informatica di base Linea 1 Daniela Besozzi Dipartimento di Informatica e Comunicazione Università.
NiXuS srl1 Training Galco Italia 22 Gennaio 2000 pMeter Software per l’analisi delle performance aziendali. N I X U S srl Via G. Scarabelli Roma,
Microsoft Access (parte 3) Introduzione alle basi di dati Scienze e tecniche psicologiche dello sviluppo e dell'educazione, laurea magistrale Anno accademico:
Cloud Tecno V. Percorso didattico per l’apprendimento di Microsoft Access 4 - Le maschere.
Opportunità formative nelle Istituzioni europee Dott.ssa Barbara Forni Ufficio d’Informazione a Milano del Parlamento europeo.
“ Pseudocodice ” Un programma per computer lavorerà su in insieme di “ variabili ” contenenti i dati del problema, soluzioni intermedie, soluzioni finali.
Le basi di dati.
Sistemi Bibliotecari Integrati (SBI) Genova, Biblioteca Civica Berio Sala dei Chierici 20 giugno 2008.
Il nuovo sito della CSN1 Salvatore Costa (Catania) Andrea Ventura (Lecce) Roma - Riunione di CSN gennaio 2016.
 Ogni processo che deve essere eseguito da un sistema di elaborazione, deve essere caricato e risiedere almeno parzialmente nella memoria centrale 
Access Breve introduzione. Componenti E’ possibile utilizzare Access per gestire tutte le informazioni in un unico file. In un file di database di Access.
Dal problema al programma – ciclo di sviluppo del software La scrittura del programma è solo una delle fasi del processo di sviluppo di un'applicazione.
Corso Base Wordfast - PRO. CAT TOOLS vs MACHINE TRANSLATION Che cosa fa un CAT TOOL Un Cat Tool NON traduce da solo ma si avvale di frase già tradotte.
Controlli. ActionSheet e Alert Selezionare un’azione In molte situazioni è necessario fornire all’utente una scelta fra varie azioni disponibili. per.
Transcript della presentazione:

Computer assisted translation (CAT - 2) Cristina Bosco Informatica applicata alla comunicazione multimediale

Cosa è una Memoria di Traduzione Una TM (Translation Memory) è un archivio di materiali linguistici, in formato elettronico, in lingua originale (LS) e tradotta (LT). È costruita da traduttori umani grazie a sistemi di CAT ed organizzata in frammenti di testo detti Unità di Traduzione (UdiT) solitamente di lunghezza pari ad una frase.

Cosa è una Memoria di Traduzione I sistemi di gestione delle TM servono per costruire ed ampliare le TM e per utilizzarle. Il risultato è di incrementare la produttività dl traduttore che non si trova a tradurre più di una volta il frammento di testo che ha precedentemente tradotto, ma anche l’uniformità terminologica e stilistica della traduzione.

Cosa è una Memoria di Traduzione Un sistema di CAT memorizza coppie bilingui allineate nella TM. Quando, nel corso della traduzione, un segmento di testo identico o simile ad uno precedentemente tradotto viene trovato nella TM (match), il sistema ne propone la traduzione. Il traduttore può accettarla, modificarla o rifiutarla.

Come funziona una Memoria di Traduzione Supponiamo che nella TM ci siano le seguenti UdiT: UdiT-1: Io mangiavo ieri una pera. allineata con Yesterday I ate a pear. UdiT-2: Io mangio sovente una mela. allineata con I often eat an apple. (se sono nella TM vuol dire che il traduttore le ha tradotte e il sistema le ha allineate)

Come funziona una Memoria di Traduzione Quando il traduttore traduce la nuova frase: Io mangio una mela Il sistema propone: I often eat an apple. perché il sistema riconosce una somiglianza tra la frase nuova e una delle frasi presenti nella TM (UdiT-2) e propone di conseguenza la traduzione di UdiT-2.

Come funziona una Memoria di Traduzione Quanto sono simili le UdiT? UdiT-1: Io mangiavo ieri una pera (Yesterday I ate a pear) UdiT-2: Io mangio sovente una mela (I often eat an apple) Nuova frase: Io mangio una mela Il sistema conta le parole uguali (2 su 4 per UdiT-1 e 4 su 4 per UdiT-2) e sceglie UdiT-2.

Come funziona una Memoria di Traduzione Il sistema non è in grado di riconoscere in cosa consiste la differenza tra la frase nuova e quella che trova nella TM e di fare qualche considerazione di natura linguistica. È solo un calcolo sulle parole che sono uguali e che sono diverse nelle due frasi; se questo calcolo porta ad un risultato che supera la soglia stabilita dal traduttore allora il sistema propone la traduzione.

Come funziona una Memoria di Traduzione Se il il sistema si basasse solo su exact match, sarebbe in grado di proporre la traduzione solo quando la frase nuova è esattamente identica ad una frase precedentemente tradotta (che si trova nella MT). Ma poiché il sistema considera anche i fuzzy match, propone traduzioni anche di frasi non identiche a quelle che trova nella sua MT, a condizione che siano sufficientemente simili con esse.

Come funziona una Memoria di Traduzione I match che vengono trovati tra il testo da tradurre e quello contenuto nella TM non sono infatti solo quelli perfetti, ma anche quelli parziali, in accordo con le impostazioni scelte dal traduttore. Per questo motivo i sistemi di CAT si rivelano utili per testi con: omogeneità terminologica omogeneità fraseologica frasi semplici e brevi, poco ambigue e ripetitive

Costruire una Memoria di Traduzione Nel corso della traduzione, in un sistema di CAT, tutto il testo in LS e la sua traduzione in LT viene automaticamente memorizzato in forma allineata nella TM scelta dal traduttore. È anche possibile importare altre TM o allineare testi disponibili in LS e in LT utilizzando programmi appositi.

Costruire una Memoria di Traduzione

Gestire una Memoria di Traduzione Ogni UdiT in una TM consiste in una coppia di segmenti di testo, il segmento in LS e quello in LT, insieme a informazioni relative alla date di creazione e modifica dei segmenti, alla persona che ha creato o modificato il segmento, al progetto e al cliente per cui quella particolare UdiT viene adoperata. Questo consente di filtrare le TM per future traduzioni.

Utilizzare una Memoria di Traduzione Una volta che si ha a disposizione una TM la si utilizza durante il successivo lavoro di traduzione e si continua anche ad arricchirla. Il sistema di CAT infatti utilizza la TM per proporre all’utente possibili traduzioni per la nuove UdiT da tradurre, ma continua anche ad aggiungere tutte le traduzioni nuove che il traduttore introduce nel sistema.

Utilizzare una Memoria di Traduzione I sistemi di gestione delle TM usano algoritmi per la ricerca di corrispondenze che si basano su criteri come la somiglianza tra stringhe di caratteri. La percentuale di somiglianza viene impostata dal traduttore. La percezione della somiglianza può però essere differente per il sistema e il traduttore.

Utilizzare una Memoria di Traduzione I sistemi di gestione delle TM possono funzionare in due modi alternativi: Interattivo, il testo da tradurre è mostrato suddiviso in UdiT e il traduttore sceglie quale UdiT tradurre, il sistema cerca il match nella TM e produce di conseguenza una proposta di traduzione

Utilizzare una Memoria di Traduzione I sistemi di gestione delle TM possono funzionare in due modi alternativi: Automatico, il sistema analizza tutto il testo e per tutte le UdiT cerca il match nella TM e produce di conseguenza una proposta di traduzione

Utilizzare una Memoria di Traduzione Un sistema di CAT basato su TM risulta utile perché evita di ripetere la traduzione di frasi già tradotte, ma funziona bene soprattutto se si ha a disposizione una TM di grandi dimensioni.

Effetti negativi di una Memoria di Traduzione L’utilizzo di una TM può anche avere conseguenze negative sulla qualità della traduzione: una TM opera generalmente a livello della frase e il pericolo è che il traduttore si concentri troppo su frasi isolate trascurando il contesto in cui esse sono inserite. Limita la ridistribuzione del testo in più frasi.

Una nota TM Una reale TM è quella dell’Acquis Communautaire, nota con il nome di DGT-TM (European Commission's Directorate-General for Translation) e accessibile alla pagina resa disponibile a partire dal 2007 allo scopo di supportare il multilinguismo, la diversità linguistica e il riutilizzo della informazioni della Commissione.

DGT-TM L’Acquis Communautaire è l’intero corpus legislativo della Comunità Europea, comprensivo di trattati regolamenti e direttive. È un corpus parallelo tradotto nelle 23 lingue ufficiali della Comunità rappresentate nelle seguenti sezioni: Bulgarian, Czech, Danish, Dutch, English, Estonian, German, Greek, Finnish, French, Irish, Hungarian, Italian, Latvian, Lithuanian, Maltese, Polish, Portuguese, Romanian, Slovak, Slovene, Spanish e Swedish.

DGT-TM I testi paralleli, o bi-testi, sono prodotti manualmente tramite traduzione e raccolti nella DGT-TM in forma di unità di traduzione. DGT-TM è attualmente il più grande corpus parallelo esistente, per la dimensione e per il numero di lingue che comprende. Il suo valore dipende però anche dal fatto che include coppie di lingue rare.

DGT-TM La prima release di DGT-TM risale al 2007 e includeva i documenti pubblicati fino al La seconda release è stata resa pubblica nel 2012 ed include i documenti dal 2007 al Ogni anno viene rilasciata una nuova release. L’allineamento dei dati è manuale fino al 2007, automatico dopo il Il formato dei dati è sempre Translation Memory eXchange (TMX).

DGT-TM Il numero di unità di traduzione varia da una release all’altra e da una lingua all’altra: 2007: : : totale:

DGT-TM Il numero di unità di traduzione varia tra le diverse lingue. Ad esempio la sezione Irish del corpus, in gaelico, esiste solo nell’ultima release e contiene unità di traduzione, mentre la sezione English in inglese contiene unità.