Elaborare il linguaggio naturale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010.

Slides:



Advertisements
Presentazioni simili
Dal corpus al treebank Alcune applicazioni ai Persiani di Eschilo Federico Boschetti Dal corpus al treebank Alcune applicazioni ai Persiani di Eschilo.
Advertisements

Specifiche Algebriche
Università degli studi di Modena e Reggio Emilia
Istituzioni di linguistica
governare l’Information Overload
Sistemi computazionali per il linguaggio naturale
Interaction Models Group. Funzionalità Interaction Models Group Consente lestrazione della struttura grammaticale di una frase La struttura grammaticale.
Semantica approcci computazionali
Intelligenza Artificiale Linguaggio naturale
Elaborazione del linguaggio naturale part of speech
Estrazione di terminologia da corpora
FMZ, Giugno 2001 Parsing del linguaggio naturale Fabio Massimo Zanzotto Università di Tor Vergata.
Maria Teresa PAZIENZA a.a
Maria Teresa PAZIENZA a.a
Computer, Lingue ed Applicazioni Perché comprendere tramite gli elaboratori i contenuti testuali? I testi sono i veicoli principali di significato per.
Sistemi basati su conoscenza Comunicazione basata sul linguaggio naturale Prof. M.T. PAZIENZA a.a
Elaborazione del linguaggio naturale morfologia, FSA, FST, POS esercizi Maria Teresa PAZIENZA a.a
Apprendimento Automatico: Elaborazione del Linguaggio Naturale
Istituzioni di linguistica
Lo sviluppo del linguaggio nel bambino
Digressione: il linguaggio di query CQP
Basi di dati Università Degli Studi Parthenope di Napoli
Unità Didattica 2 I Linguaggi di Programmazione
Progettazione di una base di dati
LINGUAGGI DI PROGRAMMAZIONE
Le nuove frontiere della Resocontazione
Che cos’è l’annotazione di un corpus?
Istituzioni di linguistica a.a Federica Da Milano
La progettazione di un sistema informatico
Giuliana Bernaudo Direttore Distretto Sanitario Tirreno ASP Cosenza
SINTASSI.
Fabio Massimo Zanzotto (slides di Andrea Turbati con aggiunte)
Usability Lab 2001 Corso Elementi di Progettazione di Basi di Dati Multimediali in Rete Metodologie di validazione e Usabilità Usability Lab 2001 Interfacce.
Usability Lab 2007 Corso Laboratorio di Basi Dati II Interfacce Visuali Avanzate (AVI) Linguaggio di interrogazione iconico Prof. Flavio Fontana Usability.
Grammatiche, Linguaggio e Automi R. Basili TAL - a.a
Traduzione e computer (3) Cristina Bosco Informatica applicata alla comunicazione multimediale 2013.
Estrazione di terminologia da corpora Maria Teresa PAZIENZA a.a
Sistemi basati su conoscenza Comunicazione basata sul linguaggio naturale (grammatica, semantica) Prof. M.T. PAZIENZA a.a
Michele A. Cortelazzo Morfologia 1.
Sistemi basati su conoscenza Linguaggio naturale: grammatiche Prof. M.T. PAZIENZA a.a
Il Parallel Turin University Treebank Cristina Bosco – Manuela Informatica applicata alla comunicazione multimediale
Elaborazione del linguaggio naturale CFG: esercizi Maria Teresa PAZIENZA a.a
Computer assisted translation (2) Cristina Bosco Informatica applicata alla comunicazione multimediale 2013.
Componenti formali del linguaggio
DIPARTIMENTO DI INFORMATICA Una delle condizioni di cui hanno bisogno i nuovi strumenti per la didattica (slides, esercizi on-line, forum, etc) per essere.
Intelligenza Artificiale 1 Gestione della conoscenza lezione 19 Prof. M.T. PAZIENZA a.a
TALN Corpus-based computational linguistics Seminario del corso di Trattamento Automatico del Linguaggio Naturale (a. a – 2002) Daniele Barsocchi.
Trattamento Automatico del Linguaggio Naturale (1)
Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale
1 Università degli Studi di Pisa Facoltà di Scienze Matematiche Fisiche e Naturali Corso di Laurea in Informaticaa Corso di Intelligenza Artificiale: Trattamento.
Linguistica computazionale e approcci corpus-based
Linguistica computazionale: task sul linguaggio naturale Cristina Bosco 2015 Informatica applicata alla comunicazione multimediale.
Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.
Informatica applicata alla comunicazione multimediale
Sistemi basati su conoscenza Linguaggio naturale: semantica Prof. M.T. PAZIENZA a.a
Progettazione di una base di dati Ciclo di vita di un sistema informativo Studio di fattibilità definisce le varie alternative possibili, i relativi costi.
Parsing Sintattico con Context Free Grammars Michelangelo Falco - Seminari del Corso di Linguistica Computazionale Siena 19.
Sistemi basati su conoscenza Comunicazione basata sul linguaggio naturale (grammatica, semantica) Prof. M.T. PAZIENZA a.a
Progettazione di basi di dati: metodologie e modelli
Come costruire sistemi di elaborazione del linguaggio naturale (NLP) Due paradigmi di riferimento –Basato sulla conoscenza (Knowledge Engineering, KE)
Tecnologie della lingua Human Language Technology (HLT)
Linguistica computazionale: come accedere all’informazione codificata nel linguaggio naturale (seconda parte) Cristina Bosco 2014 Informatica applicata.
LA FRASE SEMPLICE M. Dardano – P. Trifone, Grammatica italiana con nozioni di linguistica, Zanichelli, Bologna, III ed.
Comprensione frasale Garden Path theory
La Comprensione frasale
EVIDENCE BASED NURSING: CORSO BASE PER INFERMIERI Busto Arsizio, 11 gennaio 2009 Esercitazione di valutazione critica di un RCT Emilia Lo Palo Infermiera.
Corso di “Teorie e pratiche della traduzione” “La scrittura accademica attraverso le lingue e le culture: studio su corpus della voce autoriale” Dott.ssa.
Computer assisted translation (CAT - 2) Cristina Bosco Informatica applicata alla comunicazione multimediale
Il Parallel Turin University Treebank
Linguistica computazionale e treebank
Transcript della presentazione:

Elaborare il linguaggio naturale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale Facoltà di Lingue 23/2/2010

2 Problemi nellelaborare il linguaggio Problema 1: Il linguaggio contiene molte ambiguità che rendono difficile elaborarlo Problema 2: Il linguaggio è usato sovente in forma non corretta

Problema 1 Cosa succede se una frase (o sua componente) è ambigua? si costruiscono più strutture alternative e le si gestisce in parallelo, fino alla soluzione dellambiguità MA NON BASTA (quandanche possibile in un sistema reale) occorre avere CRITERI efficienti per ORDINARE le alternative e scegliere la migliore

Problema 2 Esempio: in inglese il soggetto precede il verbo, ma i parlanti comprendono una frase anche se il suo soggetto si trova dopo il verbo QUINDI LA VIOLAZIONE delle REGOLE non impedisce la COMUNICAZIONE

Elaborare il linguaggio Raffinare le tecniche di elaborazione Applicare il trattamento a testi ristretti (ad es. come genere) Sviluppare risorse linguistiche di grandi dimensioni e facilmente riutilizzabili ed accessibili per ottenere basi statistiche

Approccio corpus-based Utilizzato dai linguisti dalla fine dell800 e tuttora molto diffuso Consiste nellapprendere dal linguaggio le regole ed irregolarità del linguaggio

Approccio corpus-based Esempio: nel parsing, di fronte allambiguità e quindi generazione di più strutture, per una singola frase, si ricavano dai dati linguistici i CRITERI per scegliere la migliore delle strutture generate

Approccio corpus-based In pratica: si prende un campione di linguaggio, cioè un insieme di frasi = CORPUS si cercano nel corpus le strutture linguistiche e le loro probabilità = BASE di CONOSCENZA se si incontra una struttura ambigua si cerca nella base di conoscenza linformazione utile per costruire la rappresentazione più probabile della struttura

Un progetto reale: TUT Obiettivo: sviluppare una risorsa linguistica, una banca di alberi sintattici per litaliano

Fasi di sviluppo del progetto Selezione dei testi da annotare Definizione dello schema di annotazione Applicazione dello schema al corpus di testi (validità e consistenza)

Selezione di testi in TUT 45% testi da giornali quotidiani e riviste 45% testi dal codice civile 10% testi da un corpus multilingue della CE

ES: corpora balancing TEXTS from PRAGUE newspapers, scientific and economic journals NEGRA newspaper Frankfurter Rundschau PENN IBM manuals, nursing notes, newspapers (Wall Street Journal), telephone conversations

Definizione dello schema di annotazione Scelta del formalismo Scelta delle informazioni e strutture da rappresentare

Struttura sintattica: scelta tra 2 aspetti Lorganizzazione delle unitá della frase (sintagmi e constituent structure) La funzione degli elementi della frase (relazioni grammaticali e relational structure)

Relational structure Le parole della frase svolgono funzioni diverse Le funzioni sono espresse in termini di relazioni grammaticali

Giorgio ama Maria SUBJOBJ Relational structure

Constituent structure Le parole della frase sono organizzate in unità (costituenti) che a loro volta sono oggetto di una organizzazione (constituent structure) in unità più grandi

ES: constituents GiorgioamaMaria Nome-pr Verbo VP S NP

Constituent structure (S (NP ( NOME Giorgio)) (VP (VERBO ama) (NP (NOME Maria) )

Constituent structure Le relazioni tra le parole non sono tutte uguali: Maria leggeva un libro in biblioteca

ES: Penn annotation ( S ( NP - SBJ (PRP I) ) ( ADVP - TMP ( RB never) ) ( VP (VBD had) ( NP (JJ many) (NNS clients) ) ( NP - ADV (DT a) ( NN day) )) )) NP VP NP ADVP NP S SBJ TMP PRP RB VBD NNSDT NNDT ADV

ES: NEGRA annotation S VP HDSBNG MOHDOA OC ADV VVPP VAFIN NE NE ADV

Costituenti e relazioni La struttura relazionale include le informazioni relative all organizzazione della frase in unità La struttura a costituenti non include le informazioni relative alla funzione delle parole La struttura relazionale è più compatta

Sia le relazioni che i costituenti sono realizzati in modo diverso nelle diverse lingue La struttura relazionale include la struttura argomentale Costituenti e relazioni

La struttura argomentale relazioni grammaticali ruoli semantici uguali o distinti?

Le relazioni grammaticali Identificabili da varie proprietà Diverse nelle varie lingue

ES: annotation processes MORPHOSYNTSEM PRAGUE semi- automatic NEGRA automaticinteractive (probabilistic) PENN automaticautomatic (skeletal)

Processo di sviluppo del TUT Part Of Speech tagging automatico Correzione manuale del tagging Parsing interattivo Verifica e revisione

6.4. TUT application and future Study of the Italian word order Extraction of grammar Conversion in other treebank formats …

ES: word order in Italian (in 1200 sentences)

6.2.2 TUT relation components Morpho-syntactic: m orpho-syntactic features such as Verb, Noun … Functional-syntactic: syntactic relations such as Subject, Object Semantic: semantic relations such as Location, Time, Cause

ES: morpho-syntactic component La nazione sogna ricchezza I sogni di ricchezza della nazione Velocemente / in modo veloce VERB-SUBJ NOUN-OBJ NOUN-SUBJ VERB-OBJ VERB NOUN ADV-role

ES: morpho-syntactic component in TUT

Empirical evidence for the morpho- syntactic component in TUT Given 944 different Verbs = 4169 occurrences 30% of these Verbs (and associated predicative structure) are present in the nominal morpho-syntactic variant too

ES: functional-syntactic component Egli non è stato visto da nessuno Egli non è stato visto da ieri ARG MOD

ES: functional-syntactic component in TUT

ES: semantic component Da qui è partito lassalto Succedeva dallaltra parte del mondo I miliardi stanziati dal 1991 Era impazzito dal dolore Trarrà beneficio dalla bonifica LOC+FROM LOC+IN TIME REASONCAUSE SOURCE

ES: semantic component in TUT

Empirical evidence for the semantic component in TUT Given 600 prepositional phrases introduced by the Preposition DA and playing the functional-syntactic role RMOD They assume 7 different semantic values: LOC+FROM, LOC+IN, LOC+METAPH, TIME, THEME, REASONCAUSE, SOURCE

ES: Annotation in TUT 1 In (IN PREP MONO) [7;PREP-RMOD-TIME] 2 quei (QUELLO ADJ DEMONS M PL) [1;PREP-ARG] 3 giorni (GIORNO NOUN COMMON M PL) [2;DET+DEF-ARG] 4 Sudja (|Sudja| NOUN PROPER) [7;VERB-SUBJ] 5 la (IL ART DEF F SING) [4;APPOSITION] 6 zingara (ZINGARO NOUN COMMON F SING) [5;DET+DEF-ARG] 7 annunciava (ANNUNCIARE VERB MAIN IND IMPERF TRANS 3 SING) [0;TOP-VERB] 8 il (IL ART DEF F SING) [7;VERB-OBJ] 9 fallimento (FALLIMENTO NOUN COMMON M SING FALLIRE INTRANS) [8;DET+DEF-ARG]

END For further information: