La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

La traduzione automatica dei testi Modelli, metodi e problemi Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.

Presentazioni simili


Presentazione sul tema: "La traduzione automatica dei testi Modelli, metodi e problemi Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari."— Transcript della presentazione:

1 La traduzione automatica dei testi Modelli, metodi e problemi Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.

2 TA, Traduzione automatica – i primordi Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari. Warren Weaver, 1947 il problema della traduzione può essere assimilato a un problema crittografico, ossia a un problema di codifica MT, machine translation 1954 un sistema IBM per la traduzione di un numero ristretto di frasi dal russo allinglese vocabolario di circa 250 parole Esperimento dellUniversità di Georgetown Belskaja, Ljapunov, Kulagina, Panov, Andreev, Melčuk Ricerche negli USA e nellex Unione Sovietica

3 Il documento dellALPAC Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari i risultati delle ricerche condotte sulla traduzione automatica non hanno portato a vantaggi né qualitativi né economici né in termini di rapidità nelle traduzioni prodotte non si riconosce linteresse e lutilità nella prosecuzione di tali ricerche sulla TA Automatic Language Processing Advisory Committee (ALPAC)

4 Nuovi impulsi negli anni Settanta Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari. NLP, Natural Language Processing in particolare nel POS tagging e nel parsing sintattico componenti di analisi morfologica, sintattica e disambiguatori semantici Systran (acronimo composto di System Translation) Finanziamenti di organismi internazionali Nato, laeronautica americana, Onu, lUnione europea banche dati terminologiche nei campi delleconomia, del diritto e della politica internazionale per la standardizzazione delle traduzioni tecnico- scientifiche dei documenti interni e pubblici ad alta circolazione Finanziamenti di grandi multinazionali Xerox o General Motors traduzione di manuali tecnici e di documenti multilingui a fini pratici

5 Terminologia Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari. «lo studio dei sistemi informatici per la comprensione e generazione del linguaggio naturale» (Grishman 1986) NLP, Natural Language Processing strettamente legato allintelligenza artificiale obiettivo: svolgimento di compiti linguistici produttivi o ricettivi da parte di un automa TAL, trattamento automatico del linguaggio

6 Luomo e la macchina Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari. TA Traduzione assistita dal computer (computer-aided translation, CAT) Banche dati terminologiche specifiche Strumenti per la scrittura e la consultazione Traduzione automatica assistita (human-aided machine translation) Il computer fornisce unanalisi iniziale del testo Testo grezzo e post- edizione

7 Modelli di traduzione automatica Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari. Sistemi basati su regole Traduzione diretta o per unità Traduzione sintattica o T- sistemi Traduzione a interlingua Sistemi probabilistici Statistical Machine Translation Example- based MT

8 Sistemi di traduzione diretta Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari. Per unità, binary translation il modulo morfologico analizza la forma della parola da tradurre individua le eventuali informazioni fornite dalla flessione e le scompone ottenuta la forma traducente della base applica un altro componente morfologico per produrre la corretta forma flessa nella lingua di arrivo Il sistema riduce al minimo le informazioni linguistiche (morfologiche e sintattiche) da analizzare prendendo in considerazione solo le caratteristiche della specifica lingua di partenza e della specifica lingua di arrivo necessarie per il procedimento di trasposizione

9 T-sistemi («transfer systems») Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari. centralità delle operazioni di trasformazione sintattica modelli e strumenti tipici del Natural Language Processing Il modello è solitamente a tre fasi: 1)analisi morfo-sintattica 2)trasferimento della struttura sintattica (albero sintattico) della lingua di partenza in quella di arrivo 3)sintesi

10 Sistemi a interlingua Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari. Interlingua rappresentazione intermedia serie di livelli astratti di rappresentazione morfologica, sintattica e semantica Vi sono due passaggi di traduzione: T 1 descrive il passaggio dalla lingua di partenza allinterlingua T 2 descrive il passaggio dallinterlingua alla lingua di arrivo Ideale nei sistemi multilingui Parsing sintattico Enunziato in SL Modulo morfo- sintattico Modulo semantico Knowledge bases Interlingua Enunziato in TL Natural Language Generation

11 «Statistical Machine Translation» (SMT) Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari. Accesso a corpora paralleliParametri statistici per lattribuzione dellordine delle parole e del migliore candidato per la traduzione Example-based MT «calchi» sugli esempi memorizzati nel corpus Traduzione presenza di candidati simili nei corpora paralleli usati come riferimento posizione delle parole allinterno della frase confrontata con lordine delle parole nel corpus Sistemi ibridi con componenti rule-based e probabilistiche

12 I software commerciali di traduzione Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari. Applicazioni per personal computer Globalink, Systran, Intergraph e Logos, Hypertrans, Korya Eiwa I sistemi di traduzione online Systran (Google, Altavista Babel Fish) un utente può gratuitamente tradurre in tempo reale un testo (in inglese, francese, tedesco, italiano, russo, ecc.) in una qualunque delle lingue supportate incollando il testo nella finestra indicando lindirizzo di una qualunque pagina web (URL) il prodotto è una traduzione grezza

13 Systran su Babel Fish di Altavista Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.

14 Qualità delle traduzioni online Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari. Qualità generalmente abbastanza scadenteLe ragioni luso di vecchi modelli di TA limitate capacità di analisi sintattica e mancanza di disambiguazione sintattica vocabolari molto ridotti che escludono numerosi linguaggi settoriali; mancanza di specificità del dominio di contenuto analizzato Le prestazioni migliorano laddove sia consentita lindicazione dellambito settoriale del testo

15 Sistemi professionali per traduttori Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari. Le workstations, o workbenches TRADOS Translation Workbench, Translation Manager della IBM, Deja vu autonomia al traduttore Pacchetti integrati per gestire le traduzioni in modo flessibile word processors multilingui controllori grammaticali e ortografici dizionari e tesauri banche dati terminologiche (termbanks) possibilità di accesso a traduzioni precedenti (translation memory) motori di traduzione automatica corpora paralleli, software di allineamento Translation memories confrontano il materiale da tradurre con materiale già tradotto (dal singolo utente o da altri) mediante algoritmi suggeriscono la traduzione più probabile

16 La lingua tradotta: successi e insuccessi Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari. Scopi diversi parametri relativi compiti specifici Tipologia testuale dei documenti testi specialistici testi di istruzioni per luso, testi di tecnologia informatica, di business ed economia, testi tecnico-scientifici in generale sistemi specializzati modelli ultraspecializzati meteo canadese testi generali (varietà di contenuto e stile)

17 Perché i testi specialistici sono tradotti meglio? Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari. Il lessico è relativamente circoscritto Le polirematiche e le collocazioni sono cristallizzate Le strutture sintattiche sono prevedibili ed esplicite Tali caratteristiche rendono utile ed efficace il ricorso a sistemi di TA per testi standardizzati e controllati come le documentazioni tecniche appartenenti a domini di contenuto prevedibili e cristallizzati

18 Sistemi di impianto generale Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari. sia generali, come lettere, testi giornalistici o pagine web, sia specialistici Tradurre testi di diversi argomenti per la complessità della gestione della varietà lidea di un sistema di impianto generale che renda superfluo lintervento umano è oggi largamente decaduta intervento umano in pre- o post- editing Sistemi meno riusciti

19 Nodi della traduzione automatica Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari. Gli omografi testuali e assoluti possono essere risolti in parte attraverso sistemi di traduzione basata su regole nella quale vi sia lanalisi sintattica della frase gli omografi assoluti rimangono un problema per i motori di tipo esclusivamente sintattico Le polirematiche e le collocazioni 1)sono più cristallizzate e spesso hanno traducenti imprevedibili, non derivabili dallanalisi sintattica della frase 2)sono in numero altissimo nelle lingue naturali e dunque spesso non sono censite anche in grandi dizionari 3)esistono usi anche «non idiomatici» delle parole che formano collocazioni e polirematiche pronomi personali, dimostrativi o aggettivi possessivi, deittici e anafore in generale anaphora resolution Il testo dialogico spesso breve, ma ricco di fenomeni complessi come riduzioni, inversioni e topicalizzazioni

20 Nuove mete per la traduzione automatica Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari. Integrazione con corpora paralleli modello basato su corpora o example-based permettono di individuare locuzioni, polirematiche e spesso intere frasi in corrispettivi nella lingua di partenza e arrivo Estensione a lingue precedentemente non trattate lingue minoritarie apre la via a nuove potenzialità e nuove sfide che possono mettere alla prova i sistemi correnti e rivoluzionarne i modelli La traduzione automatica del parlato speech translation o spoken-language mt integra la traduzione automatica vera e propria con i temi propri del riconoscimento e della sintesi del parlato dialogo uomo-macchina Sviluppo tecnologico di moduli esistenti traduzioni di buona qualità soprattutto di testi a carattere tecnico-specialistico lo sviluppo delle translation memories la traduzione in tempo reale di pagine web e di la creazione di moduli di TA integrabili ad altre applicazioni


Scaricare ppt "La traduzione automatica dei testi Modelli, metodi e problemi Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari."

Presentazioni simili


Annunci Google