Che cos’è l’annotazione di un corpus?

Slides:



Advertisements
Presentazioni simili
Dizionari elettronici in glottodidattica: possibilità attuali e potenzialità future Isabella Chiari Dizionari elettronici in glottodidattica: possibilità.
Advertisements

Michele A. Cortelazzo Morfologia 1.
Istituzioni di linguistica a.a
Uno strumento per lannotazione e la modellizzazione prosodica di enunciati marcati per un sistema di sintesi vocale Andrea Panizza Francesca Tini Brunozzi.
LA RA RIO BO TO FO LO CO GI NO
Tecniche di processamento testuale Come classificare testi per argomento.
Elaborazione del linguaggio naturale part of speech
Computer, Lingue ed Applicazioni Perché comprendere tramite gli elaboratori i contenuti testuali? I testi sono i veicoli principali di significato per.
Sistemi basati su conoscenza Comunicazione basata sul linguaggio naturale Prof. M.T. PAZIENZA a.a
Apprendimento Automatico: Elaborazione del Linguaggio Naturale
Istituzioni di linguistica
Istituzioni di linguistica
Linguaggio FONETICA SEMANTICA SINTASSI PRAGMATICA.
C. GIBELLI (I.S.A. DON MILANI) SSIS – DDI 2008/09 Competenze di letto- scrittura 10/10/08 COMPRENSIONE DEL TESTO (ANALISI DEL PRODOTTO LINGUISTICO METODOLOGIE.
Digressione: il linguaggio di query CQP
Il lessico Lessico: insieme delle parole di una lingua (astratto)
La correzione degli errori
Chomsky La grammatica/sintassi è una proprietà della mente
MULTICULTURALITÁ E APPRENDIMENTO LINGUISTICO (M-Z)
MULTICULTURALITÁ E APPRENDIMENTO LINGUISTICO (M-Z)
Mentre lerrore grammaticale è generalmente attribuito a ignoranza della lingua e facilmente scusato, lerrore pragmatico non viene percepito.
Unità Didattica 2 I Linguaggi di Programmazione
Linguaggio: sistema di comunicazione che permette di trasmettere informazioni (significati) attraverso dei comportamenti (segnali) che devono essere interpretati.
Comprensione (percezione dei suoni) Riconoscimento di parole
Universita’ Cattolica del Sacro Cuore, Milano
Convegno di Studio Nazionale "L'autonomia scolastica che convince: buoni esempi in Italia" Venerdì 16 maggio 2008 Roma - Sala convegni dell'Ufficio Scolastico.
Punteggiatura.
Le nuove frontiere della Resocontazione
GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.
Italiano a cura della Prof. Pacitti Anna Italiano a cura della Prof. Pacitti Anna Progetto Lauree scientifiche a. sc. 2009/10.
Chomsky La grammatica/sintassi è una proprietà della mente Distinta dalla capacità di comunicare E una facoltà autonoma ed innata La comunicazione è solo.
Istituzioni di linguistica a.a Federica Da Milano
Strumenti per comunicare (S23) Corso di grammatica italiana 1
Capodistria, 19 aprile 2012 ACCADEMIA DELLA CRUSCA Oralità e scrittura: un quadro teorico.
_ ___ _ ______ _ _ _________.
Vaiano, 15 dicembre 2011 ACCADEMIA DELLA CRUSCA Dalloralità alla scrittura.
Espressione polirematica
La correzione degli errori
SINTASSI.
Che cos’è Il Quadro comune europeo di riferimento?
LE FASI E GLI STADI “ IL” ITALIANO L2
Istruzione, Tirocinio e Lavoro
LINGUISTICA GENERALE E COMPUTAZIONALE, PARTE 2
La correzione degli errori
1 Progetto di italiano per il polo pugliese ROSARIO COLUCCIA Bari, 6 maggio 2013.
Michele A. Cortelazzo Morfologia 1.
Sistemi basati su conoscenza Linguaggio naturale: grammatiche Prof. M.T. PAZIENZA a.a
Istituzioni di linguistica
Ambiguità Le lingue sono, per loro natura ambigue e sfumate:
Intelligenza Artificiale 1 Gestione della conoscenza lezione 19 Prof. M.T. PAZIENZA a.a
Come costruire sistemi di elaborazione del linguaggio naturale Fornire le conoscenze necessarie per elaborare dati linguistici –Acustico-fonetiche (input.
L’analisi del contenuto Doppia funzione dell’analisi del contenuto: -Può essere un tipo di ricerca specifico -Può essere una tecnica di ricerca Come TECNICA.
PENSIERO SIMBOLICO. PRODURRE Parlare automatico, spontaneo Scrivere solo in seguito all’istruzione Dagli errori e le pause (esitazioni) di produzione.
Linguistica computazionale: task sul linguaggio naturale Cristina Bosco 2015 Informatica applicata alla comunicazione multimediale.
Sistemi basati su conoscenza Linguaggio naturale: semantica Prof. M.T. PAZIENZA a.a
Come costruire sistemi di elaborazione del linguaggio naturale (NLP) Due paradigmi di riferimento –Basato sulla conoscenza (Knowledge Engineering, KE)
Linguaggio come processo cognitivo
Tecnologie della lingua Human Language Technology (HLT)
Filosofia del linguaggio
La grammatica del parlato
Istituzioni di linguistica a.a Federica Da Milano
Comprensione frasale Garden Path theory
La grammatica Possiamo distinguere tre tipi di grammatica:
COMPRENSIONE, ANALISI E INTERPRETAZIONE DI UN TESTO POETICO
Elementi di linguistica italiana. Le strutture dell italiano.
Le parti del discorso A cura della Prof.ssa Maria Isaura Piredda.
ITALIANO (classe 4^ Borsi) Ordine temporale PRIMA E DOPO.
Coesione E’ difficile dare una definizione cronologica della preistoria. Di solito la preistoria si fa terminare con l’inizio di forme organizzate di vita.
LA GRAMMATICA Grammatica è una parola che, nella sua etimologia, si riferisce alle lettere ovvero le unità minime che ci permettono di comunicare attraverso.
La pragmatica Studia quegli aspetti che riguardano il linguaggio come azione; studia il parlare come forma di agire linguistico che si svolge all’interno.
Transcript della presentazione:

Developing Linguistic Corpora: a Guide to Good Practice Adding Linguistic Annotation Leech G.

Che cos’è l’annotazione di un corpus? è la pratica di aggiungere a un corpus informazioni linguistiche interpretative utilizzo del Part Of Speech tagging (POS tagging)

Esempi (1) Present regalo (nome) present_NN1 presentare qlcu/regalare qlco (verbo) present_VVB caratteristica (aggettivo) present_JJ (2) Ancora oggetto (nome) ancora_NN1 continuità di un’azione (avverbio) ancora_ADV

È utile annotare i corpora? Preferenza per il pure corpus, che non corre il rischio di riflettere le posizioni o i possibili errori dell’annotatore (Sinclair) L’annotazione rende il corpus più utile: assegna un valore aggiunto al raw corpus (grande diffusione di Brown Corpus, LOB Corpus e BNC)

2. Che differenti tipi di annotazione esistono? Oltre al POS tagging esistono altri tipi di annotazione: Annotazione fonetica Annotazione semantica Annotazione pragmatica Annotazione del discorso Annotazione stilistica Annotazione lessicale

a. Annotazione fonetica come una parola viene pronunciata in un corpus parlato Annotazione prosodica: accenti, pause, intonazione Annotazione sintattica: come viene analizzata una frase (suddivisione in unità)

b. Annotazione semantica informazioni riguardanti la categoria semantica della parola Esempi Cricket (nome) sport grillo (2) Vite (nome) oggetto pianta

c. Annotazione pragmatica diversi tipi di atti che si verificano nel parlato Esempi (2) Allora istante momento temporale passato sollecitazione conseguenza Okay riconoscimento accettazione richiesta di opinione segno che inizia una nuova fase della discussione

d. Annotazione del discorso collegamenti anaforici Esempi (3) Le rose erano belle e le ho colte (4) Ho comprato un vestito e l’ho indossato la sera stessa I’ll saddle the horses and I bring them around I went out with a friend on Sunday and she looked beautiful

e. Annotazione stilistica modi di parlare e di pensare (discorso diretto, indiretto, indiretto libero …) f. Annotazione lessicale aggiunge l’identità del lemma a ogni forma di parola presente nel testo Esempi (1) Lying (LIE) (2) È stato bloccato (BLOCCARE)

Importanza anche di Annotazione di scarsa fluenza (linguaggio spontaneo: ripetizioni, esitazioni, false partenze, ecc.) Annotazione dei learner corpora (scritto e parlato degli apprendenti di L2)

3. Perché annotare? Controllo manuale di un corpus Analisi automatica di un corpus Il riutilizzo delle annotazioni La multifunzionalità

a. Controllo manuale di un corpus Uno dei maggiori utilizzi del POS tagging è quello di aumentare l’utilizzo di un corpus nella creazione di dizionari (1) separate (verbo) / separate (aggettivo) (2) diritto (nome) / diritto (aggettivo) Se la distinzione è già segnalata da tags nei corpus, allora la separazione diviene automatica

b. Analisi automatica di un corpus Liste o dizionari di frequenza con una classificazione grammaticale, a seconda dello scopo (1) leaves (verbo) / leaves (nome) (2) gioco (verbo) / gioco (nome) Primo stadio dell’analisi sintattica Speech synthesis

c. Il riutilizzo delle annotazioni Futuro utilizzo L’annotazione può essere fatta in modo automaticamente accurato tra il 95% e il 98% delle volte; infatti viene prima fatta manualmente Risorsa elettronica

d. La multifunzionalità Ha differenti scopi o applicazioni L’utilizzo dei corpora può cambiare nel futuro Argomento contrario: le annotazioni sono molto più utili se designate in modo specifico per particolari applicazioni