Universal Dependencies e treebank

Slides:



Advertisements
Presentazioni simili
Il Parallel Turin University Treebank Cristina Bosco – Manuela Informatica applicata alla comunicazione multimediale
Advertisements

Lara Bolognesi Servizio Epidemiologia e Comunicazione Azienda USL di Modena Seminario PASSI: i risultati del Sistema di Sorveglianza nell’Azienda USL di.
"Play Ogg" multimedialità libera con GNU/Linux... presentato da Stefano Pardini al Linux Day 2008 per ACROS ACROS.
PROGETTO CODING FOR KIDS anno scolastico 2015/2016 I nsegnante responsabile del progetto.: Biasi Carla Giuseppa Tutor d’aula: Atanasi Monica.
1 Simulazione Numerica dei Fenomeni di Trasporto Necessità di introduzione dei tensori  11  12  13  23  21  22 Vogliamo descrivere in un modo che.
NUMERI ed ERRORI MANOLO VENTURIN UNIVERSITÀ DEGLI STUDI DI PADOVA DIP. DI MATEMATICA PURA ED APPLICATA A. A. 2007/2008.
Il Parallel Turin University Treebank
Vacanze in Marocco Per chi cerca una destinazione di vacanza che è al tempo stesso emozionante e rilassante, Marocco è una destinazione da sogno. Sede.
A scuola con il computer
Progettazione di una base di dati relazionale
Linguistica computazionale e approcci corpus-based
Pensiero Computazionale
Elezioni politiche 2008 I dati della città di Bergamo
Linguistica computazionale, treebank e altre risorse
Le norme editoriali Come si scrive e presenta la tesi?
LA MAPPA CONCETTUALE Istruzioni per l’uso
Universita’ di Milano Bicocca Corso di Basi di dati 1 in eLearning C
Uso di Unity per la Creazione di Giochi Educativi
Linguistica computazionale e treebank
Come cercare le fonti di informazione scientifica RISORSE
LA POLITICA DEI VOUCHER PER I NIDI D’INFANZIA I risultati della missione valutativa Bologna 24 ottobre 2012.
Valutazione del servizio scolastico Caratteristiche dell'informazione
EasyGraph Dynamic web-based dashboard
Branch and Bound Lezione n°14 Prof.ssa Rossella Petreschi
K. Marx, Il capitale La produzione capitalistica:
Terza Lezione → Navigare nel file System → parte 2
Progettazione di una base di dati relazionale
L'ABC della statistica LA MEDIA ARITMETICA
Algoritmi e soluzioni di problemi
DIRIGERE L’INNOVAZIONE
Dal problema al processo risolutivo
Basi di Dati: Introduzione
Condividere dati di Excel tramite l'esportazione in un sito di SharePoint
Universita’ di Milano Bicocca Corso di Basi di dati 1 in eLearning C
Studente/i Relatore Correlatore Committente Aris Piatti
SINTESI PROGETTO CON IMMAGINI
Didattica speciale : codici del linguaggio logico e matematico
Linguistica e treebank
Computer assisted translation e terminologia
COMUNICHIAMO E CONFRONTIAMOCI CON I MASS MEDIA
PROVA DI VALUTAZIONE INTEGRATIVA
Come si acquisiscono queste informazioni?
Parola di Vita Aprile 2013.
Situazione problematica con una tessera della Matematòca Aritmetica
Consultare un corpus con AntConc
Le norme editoriali Come si scrive e presenta la tesi?
Programmare.
Cosa abbiamo fatto e cosa faremo
La gestione delle Entrate ( Riscossione ed Inesigibilità )
Recupero I Quadrimestre
PILLOLE DI GENETICA parte 1
Sovrastima delle proprie abilità
Viale Morgagni 67/A Firenze
Collegio docenti 25 settembre 2018 ICCS “Aldo Moro” Maleo
Corsi di Laurea in Biotecnologie
IL BILANCIO DELLE COMPETENZE
Documentare la didattica
Tecniche di Animazione dello sguardo “idle”: Personaggi in Movimento
Macchine Parlanti A.A. 2018/19 Titolo progetto (es. orologio parlante senza display) template per il progetto finale del corso di Documentazione Linguistica.
Fogli di Calcolo Elettronici
Practical Methodology for Teachers working with CLIL
I.C. “ANTONIO UGO”.
Parola di Vita Aprile 2013.
Test per campioni indipendenti
Il protocollo informatico e il Manuale di Gestione
Come cercare le fonti di informazione scientifica RISORSE
Gli Indici di Produttività di Divisia
Algoritmi.
RELAZIONE SUI RISULTATI DELLE PROVE INVALSI DI LINGUA ITALIANA
14 dicembre 2016 Prof.ssa Silvana del Gaudio
Transcript della presentazione:

Universal Dependencies e treebank Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2016-2017

Treebank e valutazione L’esistenza di molte risorse diverse rende difficile confrontare i risultati ottenuti da diversi sistemi e la valutazione deve sempre essere fatta in relazione alle stesse risorse. Se il sistema X e il sistema Y utilizzano lo stesso corpus per apprendere, ottengono lo stesso output? L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Treebank e valutazione La comunità della LC opera pertanto nella direzione di rendere confrontabili i risultati dei sistemi che svolgono lo stesso task. Questo significa ad esempio che si cerca di costruire risorse in cui si utilizza lo stesso formato di rappresentazione (standard). L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Treebank e standard Per molti anni lo standard di riferimento per il formato dei treebank era il formato del Penn Treebank. Ben presto però sono emersi i limiti di questo formato soprattutto nella rappresentazione di lingue con ordine delle parole più libero dell’inglese. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Treebank e standard Soprattutto pensando alle lingue con ordine delle parole più libero dell’inglese si sono sviluppati i formati a dipendenze sulla base del formato del Prague Dependency Treebank. Il panorama dei treebank è molto variegato: per alcune lingue esistono più di un treebank in formati diversi, per altre nessuno. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Treebank e standard La nozione di standard è quindi particolarmente rilevante per i treebank e ha portato alla definizione di un formato universale detto Universal Dependency. Questo processo è durato vari anni e ha comportato vari passi all’interno delle varie comunità che operano sulle singole lingue. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Treebank e standard Per la lingua italiana ad esempio sono stati creati, intorno all’anno 2000, 2 treebank, entrambi con un formato a dipendenze, TUT e Italian Syntactic Semantic Treebank (presso l’Istituto di Linguistica Computazionale CNR di Pisa). La differenza tra i due formati ha creato problemi di compatibilità tra sistemi e risultati. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Universal Dependency L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Universal Dependency L’idea è di costruire risorse per tutte le lingue che utilizzano tutte lo stesso formato e sistemi che analizzano i dati di tutte le lingue. Tutta la rappresentazione si fonda sul principio che le teste delle relazioni sono le parole di contenuto, quelle che portano un maggiore contributo semantico. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Universal Dependency Nella LC la distinzione tra parole di contenuto (content word) e altre è cruciale in vari task. Le preposizioni e gli articoli sono considerati in UD come semplici accessori delle parole di contenuto attorno a cui tutte le strutture sintattiche si concretizzano. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Universal Dependency Rispetto ad altri formati, UD è meno dettagliato e le sue relazioni in numero inferiore. Questa “sottospecificazione” consente di convertire con maggiore facilità altri formati in UD e di semplificare il parsing, anche se provoca anche una perdita di informazioni. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Universal Dependency Questo formato soddisfa l’interesse per confronti multilingui e rende possibile sia campagne di valutazione multilingui sia l’apprendimento cross-linguistco a supporto della LC per lingue per cui non esistono risorse. http://universaldependencies.org/ L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Universal Dependency e TUT L’esistenza di UD ha creato le premesse per la fusione di un unico grande treebank per la lingua italiana. I due treebank precedentemente sviluppati sono stati prima convertiti in un formato comune e poi in formato UD. Più recentemente anche ParTUT è entrato a fare parte di UD. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Universal Dependency La release attuale, 2.0 , rilasciata il primo marzo 2017 contiene 70 treebank che rappresentano 50 diverse lingue. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Universal Dependency UDpipe è l’analizzatore morfo-sintattico che è stato costruito per il progetto. Nella versione demo online si può facilmente vedere quale output produce, addestrandolo sulla risorsa italiana o quella per altre lingue. https://ufal.mff.cuni.cz/udpipe#online_demo L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.