La traduzione automatica dei testi Modelli, metodi e problemi Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.
TA, Traduzione automatica – i primordi MT, machine translation Warren Weaver, 1947 il problema della traduzione può essere assimilato a un problema crittografico, ossia a un problema di codifica Esperimento dell’Università di Georgetown 1954 un sistema IBM per la traduzione di un numero ristretto di frasi dal russo all’inglese vocabolario di circa 250 parole Ricerche negli USA e nell’ex Unione Sovietica Bel’skaja, Ljapunov, Kulagina, Panov, Andreev, Mel’čuk Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.
Il documento dell’ALPAC Automatic Language Processing Advisory Committee (ALPAC) 1966 i risultati delle ricerche condotte sulla traduzione automatica non hanno portato a vantaggi né qualitativi né economici né in termini di rapidità nelle traduzioni prodotte non si riconosce l’interesse e l’utilità nella prosecuzione di tali ricerche sulla TA Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.
Nuovi impulsi negli anni Settanta NLP, Natural Language Processing in particolare nel POS tagging e nel parsing sintattico componenti di analisi morfologica, sintattica e disambiguatori semantici Systran (acronimo composto di System Translation) Finanziamenti di organismi internazionali Nato, l’aeronautica americana, Onu, l’Unione europea banche dati terminologiche nei campi dell’economia, del diritto e della politica internazionale per la standardizzazione delle traduzioni tecnico-scientifiche dei documenti interni e pubblici ad alta circolazione Finanziamenti di grandi multinazionali Xerox o General Motors traduzione di manuali tecnici e di documenti multilingui a fini pratici Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.
Terminologia NLP, Natural Language Processing «lo studio dei sistemi informatici per la comprensione e generazione del linguaggio naturale» (Grishman 1986) TAL, trattamento automatico del linguaggio strettamente legato all’intelligenza artificiale obiettivo: svolgimento di compiti linguistici produttivi o ricettivi da parte di un automa Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.
L’uomo e la macchina TA (computer-aided translation, CAT) Traduzione assistita dal computer Banche dati terminologiche specifiche Strumenti per la scrittura e la consultazione (human-aided machine translation) Traduzione automatica assistita Il computer fornisce un’analisi iniziale del testo Testo grezzo e post-edizione Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.
Modelli di traduzione automatica Sistemi basati su regole Traduzione diretta o per unità Traduzione sintattica o T-sistemi Traduzione a interlingua Sistemi probabilistici Statistical Machine Translation Example-based MT Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.
Sistemi di traduzione diretta Per unità, binary translation il modulo morfologico analizza la forma della parola da tradurre individua le eventuali informazioni fornite dalla flessione e le scompone ottenuta la forma traducente della base applica un altro componente morfologico per produrre la corretta forma flessa nella lingua di arrivo Il sistema riduce al minimo le informazioni linguistiche (morfologiche e sintattiche) da analizzare prendendo in considerazione solo le caratteristiche della specifica lingua di partenza e della specifica lingua di arrivo necessarie per il procedimento di trasposizione Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.
T-sistemi («transfer systems») centralità delle operazioni di trasformazione sintattica modelli e strumenti tipici del Natural Language Processing Il modello è solitamente a tre fasi: analisi morfo-sintattica trasferimento della struttura sintattica (albero sintattico) della lingua di partenza in quella di arrivo sintesi Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.
Natural Language Generation Sistemi a interlingua Interlingua rappresentazione intermedia serie di livelli astratti di rappresentazione morfologica, sintattica e semantica Vi sono due passaggi di traduzione: T1 descrive il passaggio dalla lingua di partenza all’interlingua T2 descrive il passaggio dall’interlingua alla lingua di arrivo Ideale nei sistemi multilingui Enunziato in SL Parsing sintattico Interlingua Modulo morfo-sintattico Modulo semantico Knowledge bases Natural Language Generation Enunziato in TL Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.
«Statistical Machine Translation» (SMT) Accesso a corpora paralleli Parametri statistici per l’attribuzione dell’ordine delle parole e del migliore candidato per la traduzione Example-based MT «calchi» sugli esempi memorizzati nel corpus Traduzione presenza di candidati simili nei corpora paralleli usati come riferimento posizione delle parole all’interno della frase confrontata con l’ordine delle parole nel corpus Sistemi ibridi con componenti rule-based e probabilistiche Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.
I software commerciali di traduzione Applicazioni per personal computer Globalink, Systran, Intergraph e Logos, Hypertrans, Korya Eiwa I sistemi di traduzione online Systran (Google, Altavista Babel Fish) un utente può gratuitamente tradurre in tempo reale un testo (in inglese, francese, tedesco, italiano, russo, ecc.) in una qualunque delle lingue supportate incollando il testo nella finestra indicando l’indirizzo di una qualunque pagina web (URL) il prodotto è una traduzione grezza Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.
Systran su Babel Fish di Altavista Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.
Qualità delle traduzioni online Qualità generalmente abbastanza scadente Le ragioni l’uso di vecchi modelli di TA limitate capacità di analisi sintattica e mancanza di disambiguazione sintattica vocabolari molto ridotti che escludono numerosi linguaggi settoriali; mancanza di specificità del dominio di contenuto analizzato Le prestazioni migliorano laddove sia consentita l’indicazione dell’ambito settoriale del testo Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.
Sistemi professionali per traduttori Le workstations, o workbenches TRADOS Translation Workbench, Translation Manager della IBM, Deja vu autonomia al traduttore Pacchetti integrati per gestire le traduzioni in modo flessibile word processors multilingui controllori grammaticali e ortografici dizionari e tesauri banche dati terminologiche (termbanks) possibilità di accesso a traduzioni precedenti (translation memory) motori di traduzione automatica corpora paralleli, software di allineamento Translation memories confrontano il materiale da tradurre con materiale già tradotto (dal singolo utente o da altri) mediante algoritmi suggeriscono la traduzione più probabile Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.
La lingua tradotta: successi e insuccessi Scopi diversi parametri relativi compiti specifici Tipologia testuale dei documenti testi specialistici testi di istruzioni per l’uso, testi di tecnologia informatica, di business ed economia, testi tecnico-scientifici in generale sistemi specializzati modelli ultraspecializzati meteo canadese testi generali (varietà di contenuto e stile) Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.
Perché i testi specialistici sono tradotti meglio? Il lessico è relativamente circoscritto Le polirematiche e le collocazioni sono cristallizzate Le strutture sintattiche sono prevedibili ed esplicite Tali caratteristiche rendono utile ed efficace il ricorso a sistemi di TA per testi standardizzati e controllati come le documentazioni tecniche appartenenti a domini di contenuto prevedibili e cristallizzati Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.
Sistemi di impianto generale Tradurre testi di diversi argomenti sia generali, come lettere, testi giornalistici o pagine web, sia specialistici Sistemi meno riusciti per la complessità della gestione della varietà l’idea di un sistema di impianto generale che renda superfluo l’intervento umano è oggi largamente decaduta intervento umano in pre- o post- editing Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.
Nodi della traduzione automatica Gli omografi testuali e assoluti possono essere risolti in parte attraverso sistemi di traduzione basata su regole nella quale vi sia l’analisi sintattica della frase gli omografi assoluti rimangono un problema per i motori di tipo esclusivamente sintattico Le polirematiche e le collocazioni sono più cristallizzate e spesso hanno traducenti imprevedibili, non derivabili dall’analisi sintattica della frase sono in numero altissimo nelle lingue naturali e dunque spesso non sono censite anche in grandi dizionari esistono usi anche «non idiomatici» delle parole che formano collocazioni e polirematiche pronomi personali, dimostrativi o aggettivi possessivi, deittici e anafore in generale anaphora resolution Il testo dialogico spesso breve, ma ricco di fenomeni complessi come riduzioni, inversioni e topicalizzazioni Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.
Nuove mete per la traduzione automatica Integrazione con corpora paralleli modello basato su corpora o example-based permettono di individuare locuzioni, polirematiche e spesso intere frasi in corrispettivi nella lingua di partenza e arrivo Estensione a lingue precedentemente non trattate lingue minoritarie apre la via a nuove potenzialità e nuove sfide che possono mettere alla prova i sistemi correnti e rivoluzionarne i modelli La traduzione automatica del parlato speech translation o spoken-language mt integra la traduzione automatica vera e propria con i temi propri del riconoscimento e della sintesi del parlato dialogo uomo-macchina Sviluppo tecnologico di moduli esistenti traduzioni di buona qualità soprattutto di testi a carattere tecnico-specialistico lo sviluppo delle translation memories la traduzione in tempo reale di pagine web e di e-mail la creazione di moduli di TA integrabili ad altre applicazioni Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.