La traduzione automatica dei testi

Slides:



Advertisements
Presentazioni simili
Approximate Sequence Matching: Implementazione e Analisi Prestazionale
Advertisements

Esame di stato La prima prova.
Informatica applicata alla comunicazione multimediale
Intelligenza artificiale
© 2007 SEI-Società Editrice Internazionale, Apogeo Unità E1 Dallanalisi del problema alla definizione dellalgoritmo.
© 2007 SEI-Società Editrice Internazionale, Apogeo Unità A1 Introduzione a Java.
Laboratorio linguistico L’articolo di giornale
IL TESTO INFORMATIVO.
I Sistemi di Supporto alle Decisioni Chiara Mocenni
Multimedialità Ipertesto Interattività
Intelligenza Artificiale Linguaggio naturale
Computer, Lingue ed Applicazioni Perché comprendere tramite gli elaboratori i contenuti testuali? I testi sono i veicoli principali di significato per.
Apprendimento Automatico: Elaborazione del Linguaggio Naturale
Introduzione allinformatica. Cosè linformatica ? Scienza della rappresentazione e dellelaborazione dellinformazione ovvero Studio degli algoritmi che.
Il lessico Lessico: insieme delle parole di una lingua (astratto)
Computer e traduzione /3/2010 Informatica applicata alla
La valutazione certificatoria Il modello CILS
Unità Didattica 2 I Linguaggi di Programmazione
informatica di base per le discipline umanistiche
Informatica giuridica Informatica e lingua del diritto Nicola Palazzolo Anno Accademico 2006/2007.
LINGUAGGI DI PROGRAMMAZIONE
Corso SSIS 2003 – Modulo lingue straniere Software per linsegnamento della lingua straniera Jeffrey Earp – ITD/CNR 2003.
Corso SSIS 2004 – Modulo lingue straniere Software per linsegnamento della lingua straniera Jeffrey Earp – ITD/CNR 2004.
Large linguistically-processed Web corpora for multiple languages Marco Baroni e Adam Kilgarrif in Proceedings of EACL 2006 presentazione Fantini - Inglese.
Database & Information Retrieval
DSA e strumenti compensativi
Prerequisiti Saper comprendere e rielaborare un testo scritto
Il MIO COMPUTER.
Espressione polirematica
LA VALUTAZIONE DEL TESTO SCRITTO RIFLESSIONI E PROPOSTE DI LAVORO
Che cos’è Il Quadro comune europeo di riferimento?
MODELLO A DUE VIE DI LETTURA
Suggerimenti per la stesura del saggio breve
Ricerca Internazionale IEA-PIRLS
Programma di Informatica Classi Prime
Traduzione e computer (3) Cristina Bosco Informatica applicata alla comunicazione multimediale 2013.
Tipologie standard di preventivi nella localizzazione, cosa è cambiato?
Educazione linguistica
Computer Assisted Translation (CAT) Cristina Bosco Informatica applicata alla comunicazione multimediale
Come collaborare all'organizzazione di un corso in rete
La prima prova scritta dell’esame di stato
Creato da Riccardo Nuzzone
Traduzione e computer (3) Cristina Bosco Informatica applicata alla comunicazione multimediale
Traduzione e computer (4) Cristina Bosco Informatica applicata alla comunicazione multimediale
Come costruire sistemi di elaborazione del linguaggio naturale Fornire le conoscenze necessarie per elaborare dati linguistici –Acustico-fonetiche (input.
Computer Assisted Translation (CAT) Cristina Bosco Informatica applicata alla comunicazione multimediale
Tecnologie Informatiche ed Elettroniche per le Produzioni Animali (corso TIE) CORSO LAUREA MAGISTRALE IN SCIENZE E TECNOLOGIE DELLE PRODUZIONI ANIMALI.
TECNOLOGIE PER LA DISABILITA’ UDITIVA
Linguistica computazionale: task sul linguaggio naturale Cristina Bosco 2015 Informatica applicata alla comunicazione multimediale.
Matematica Facoltà di Scienze Matematiche, Fisiche e Naturali
1 Linguaggi: guardando la semantica §esistono un insieme di concetti semantici e di strutture di implementazione in termini dei quali si descrivono in.
Parte IIElementi di Informatica1 Introduzione ai sistemi operativi Parte II.
INTELLIGENZA ARTIFICIALE
Come costruire sistemi di elaborazione del linguaggio naturale (NLP) Due paradigmi di riferimento –Basato sulla conoscenza (Knowledge Engineering, KE)
Intelligenza Artificiale Metodologie di ragionamento Prof. M.T. PAZIENZA a.a
Tecnologie della lingua Human Language Technology (HLT)
Fagioli, Caltagirone,Tomboletti e Delli Gatti.
Traduzione e computer (2) Cristina Bosco Informatica applicata alla comunicazione multimediale
Parte IIConoscenze Informatiche1 Introduzione ai sistemi operativi e WindowsX Parte II.
Università degli studi di Modena e Reggio Emilia Facoltà di Scienze Fisiche, Informatiche e Matematiche Corso di Laurea in Informatica Progettazione e.
UNITÀ DIDATTICA Argomento: Acquisizione ed espansione del lessico ricettivo e produttivo: creazione di un cruciverba multidisciplinare Docente: Colantonio.
Strategie e risorse umane
Computer assisted translation (CAT - 2) Cristina Bosco Informatica applicata alla comunicazione multimediale
COMPRENSIONE, ANALISI E INTERPRETAZIONE DI UN TESTO POETICO
FRAMEWORK EUROPEO DELLE COMPETENZE LINGUISTICHE ELEMENTARE - A1ELEMENTARE - A2 INTERMEDIO - B1 AscoltoRiesco a riconoscere parole che mi sono familiari.
Università per Stranieri di Perugia Uso di Moodle nell’apprendimento linguistico Problemi e prospettive Dott. Francesco ScolastraDott.ssa Stefania Spina.
Dal problema al programma – ciclo di sviluppo del software La scrittura del programma è solo una delle fasi del processo di sviluppo di un'applicazione.
Unità di apprendimento 6
ALGORITMI, LINGUAGGI E PROGRAMMI Facoltà di Lingue e Letterature Straniere Corso di laurea in Relazioni Pubbliche.
MT in pratica Cristina Bosco Informatica applicata alla comunicazione multimediale.
Transcript della presentazione:

La traduzione automatica dei testi Modelli, metodi e problemi Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.

TA, Traduzione automatica – i primordi MT, machine translation Warren Weaver, 1947 il problema della traduzione può essere assimilato a un problema crittografico, ossia a un problema di codifica Esperimento dell’Università di Georgetown 1954 un sistema IBM per la traduzione di un numero ristretto di frasi dal russo all’inglese vocabolario di circa 250 parole Ricerche negli USA e nell’ex Unione Sovietica Bel’skaja, Ljapunov, Kulagina, Panov, Andreev, Mel’čuk Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.

Il documento dell’ALPAC Automatic Language Processing Advisory Committee (ALPAC) 1966 i risultati delle ricerche condotte sulla traduzione automatica non hanno portato a vantaggi né qualitativi né economici né in termini di rapidità nelle traduzioni prodotte non si riconosce l’interesse e l’utilità nella prosecuzione di tali ricerche sulla TA Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.

Nuovi impulsi negli anni Settanta NLP, Natural Language Processing in particolare nel POS tagging e nel parsing sintattico componenti di analisi morfologica, sintattica e disambiguatori semantici Systran (acronimo composto di System Translation) Finanziamenti di organismi internazionali Nato, l’aeronautica americana, Onu, l’Unione europea banche dati terminologiche nei campi dell’economia, del diritto e della politica internazionale per la standardizzazione delle traduzioni tecnico-scientifiche dei documenti interni e pubblici ad alta circolazione Finanziamenti di grandi multinazionali Xerox o General Motors traduzione di manuali tecnici e di documenti multilingui a fini pratici Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.

Terminologia NLP, Natural Language Processing «lo studio dei sistemi informatici per la comprensione e generazione del linguaggio naturale» (Grishman 1986) TAL, trattamento automatico del linguaggio strettamente legato all’intelligenza artificiale obiettivo: svolgimento di compiti linguistici produttivi o ricettivi da parte di un automa Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.

L’uomo e la macchina TA (computer-aided translation, CAT) Traduzione assistita dal computer Banche dati terminologiche specifiche Strumenti per la scrittura e la consultazione (human-aided machine translation) Traduzione automatica assistita Il computer fornisce un’analisi iniziale del testo Testo grezzo e post-edizione Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.

Modelli di traduzione automatica Sistemi basati su regole Traduzione diretta o per unità Traduzione sintattica o T-sistemi Traduzione a interlingua Sistemi probabilistici Statistical Machine Translation Example-based MT Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.

Sistemi di traduzione diretta Per unità, binary translation il modulo morfologico analizza la forma della parola da tradurre individua le eventuali informazioni fornite dalla flessione e le scompone ottenuta la forma traducente della base applica un altro componente morfologico per produrre la corretta forma flessa nella lingua di arrivo Il sistema riduce al minimo le informazioni linguistiche (morfologiche e sintattiche) da analizzare prendendo in considerazione solo le caratteristiche della specifica lingua di partenza e della specifica lingua di arrivo necessarie per il procedimento di trasposizione Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.

T-sistemi («transfer systems») centralità delle operazioni di trasformazione sintattica modelli e strumenti tipici del Natural Language Processing Il modello è solitamente a tre fasi: analisi morfo-sintattica trasferimento della struttura sintattica (albero sintattico) della lingua di partenza in quella di arrivo sintesi Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.

Natural Language Generation Sistemi a interlingua Interlingua rappresentazione intermedia serie di livelli astratti di rappresentazione morfologica, sintattica e semantica Vi sono due passaggi di traduzione: T1 descrive il passaggio dalla lingua di partenza all’interlingua T2 descrive il passaggio dall’interlingua alla lingua di arrivo Ideale nei sistemi multilingui Enunziato in SL Parsing sintattico Interlingua Modulo morfo-sintattico Modulo semantico Knowledge bases Natural Language Generation Enunziato in TL Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.

«Statistical Machine Translation» (SMT) Accesso a corpora paralleli Parametri statistici per l’attribuzione dell’ordine delle parole e del migliore candidato per la traduzione Example-based MT «calchi» sugli esempi memorizzati nel corpus Traduzione presenza di candidati simili nei corpora paralleli usati come riferimento posizione delle parole all’interno della frase confrontata con l’ordine delle parole nel corpus Sistemi ibridi con componenti rule-based e probabilistiche Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.

I software commerciali di traduzione Applicazioni per personal computer Globalink, Systran, Intergraph e Logos, Hypertrans, Korya Eiwa I sistemi di traduzione online Systran (Google, Altavista Babel Fish) un utente può gratuitamente tradurre in tempo reale un testo (in inglese, francese, tedesco, italiano, russo, ecc.) in una qualunque delle lingue supportate incollando il testo nella finestra indicando l’indirizzo di una qualunque pagina web (URL) il prodotto è una traduzione grezza Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.

Systran su Babel Fish di Altavista Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.

Qualità delle traduzioni online Qualità generalmente abbastanza scadente Le ragioni l’uso di vecchi modelli di TA limitate capacità di analisi sintattica e mancanza di disambiguazione sintattica vocabolari molto ridotti che escludono numerosi linguaggi settoriali; mancanza di specificità del dominio di contenuto analizzato Le prestazioni migliorano laddove sia consentita l’indicazione dell’ambito settoriale del testo Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.

Sistemi professionali per traduttori Le workstations, o workbenches TRADOS Translation Workbench, Translation Manager della IBM, Deja vu autonomia al traduttore Pacchetti integrati per gestire le traduzioni in modo flessibile word processors multilingui controllori grammaticali e ortografici dizionari e tesauri banche dati terminologiche (termbanks) possibilità di accesso a traduzioni precedenti (translation memory) motori di traduzione automatica corpora paralleli, software di allineamento Translation memories confrontano il materiale da tradurre con materiale già tradotto (dal singolo utente o da altri) mediante algoritmi suggeriscono la traduzione più probabile Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.

La lingua tradotta: successi e insuccessi Scopi diversi parametri relativi compiti specifici Tipologia testuale dei documenti testi specialistici testi di istruzioni per l’uso, testi di tecnologia informatica, di business ed economia, testi tecnico-scientifici in generale sistemi specializzati modelli ultraspecializzati meteo canadese testi generali (varietà di contenuto e stile) Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.

Perché i testi specialistici sono tradotti meglio? Il lessico è relativamente circoscritto Le polirematiche e le collocazioni sono cristallizzate Le strutture sintattiche sono prevedibili ed esplicite Tali caratteristiche rendono utile ed efficace il ricorso a sistemi di TA per testi standardizzati e controllati come le documentazioni tecniche appartenenti a domini di contenuto prevedibili e cristallizzati Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.

Sistemi di impianto generale Tradurre testi di diversi argomenti sia generali, come lettere, testi giornalistici o pagine web, sia specialistici Sistemi meno riusciti per la complessità della gestione della varietà l’idea di un sistema di impianto generale che renda superfluo l’intervento umano è oggi largamente decaduta intervento umano in pre- o post- editing Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.

Nodi della traduzione automatica Gli omografi testuali e assoluti possono essere risolti in parte attraverso sistemi di traduzione basata su regole nella quale vi sia l’analisi sintattica della frase gli omografi assoluti rimangono un problema per i motori di tipo esclusivamente sintattico Le polirematiche e le collocazioni sono più cristallizzate e spesso hanno traducenti imprevedibili, non derivabili dall’analisi sintattica della frase sono in numero altissimo nelle lingue naturali e dunque spesso non sono censite anche in grandi dizionari esistono usi anche «non idiomatici» delle parole che formano collocazioni e polirematiche pronomi personali, dimostrativi o aggettivi possessivi, deittici e anafore in generale anaphora resolution Il testo dialogico spesso breve, ma ricco di fenomeni complessi come riduzioni, inversioni e topicalizzazioni Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.

Nuove mete per la traduzione automatica Integrazione con corpora paralleli modello basato su corpora o example-based permettono di individuare locuzioni, polirematiche e spesso intere frasi in corrispettivi nella lingua di partenza e arrivo Estensione a lingue precedentemente non trattate lingue minoritarie apre la via a nuove potenzialità e nuove sfide che possono mettere alla prova i sistemi correnti e rivoluzionarne i modelli La traduzione automatica del parlato speech translation o spoken-language mt integra la traduzione automatica vera e propria con i temi propri del riconoscimento e della sintesi del parlato dialogo uomo-macchina Sviluppo tecnologico di moduli esistenti traduzioni di buona qualità soprattutto di testi a carattere tecnico-specialistico lo sviluppo delle translation memories la traduzione in tempo reale di pagine web e di e-mail la creazione di moduli di TA integrabili ad altre applicazioni Chiari, I. (2007), Introduzione alla linguistica computazionale, Laterza, Roma-Bari.