Developing Linguistic Corpora: a Guide to Good Practice Adding Linguistic Annotation Leech G.
Che cos’è l’annotazione di un corpus? è la pratica di aggiungere a un corpus informazioni linguistiche interpretative utilizzo del Part Of Speech tagging (POS tagging)
Esempi (1) Present regalo (nome) present_NN1 presentare qlcu/regalare qlco (verbo) present_VVB caratteristica (aggettivo) present_JJ (2) Ancora oggetto (nome) ancora_NN1 continuità di un’azione (avverbio) ancora_ADV
È utile annotare i corpora? Preferenza per il pure corpus, che non corre il rischio di riflettere le posizioni o i possibili errori dell’annotatore (Sinclair) L’annotazione rende il corpus più utile: assegna un valore aggiunto al raw corpus (grande diffusione di Brown Corpus, LOB Corpus e BNC)
2. Che differenti tipi di annotazione esistono? Oltre al POS tagging esistono altri tipi di annotazione: Annotazione fonetica Annotazione semantica Annotazione pragmatica Annotazione del discorso Annotazione stilistica Annotazione lessicale
a. Annotazione fonetica come una parola viene pronunciata in un corpus parlato Annotazione prosodica: accenti, pause, intonazione Annotazione sintattica: come viene analizzata una frase (suddivisione in unità)
b. Annotazione semantica informazioni riguardanti la categoria semantica della parola Esempi Cricket (nome) sport grillo (2) Vite (nome) oggetto pianta
c. Annotazione pragmatica diversi tipi di atti che si verificano nel parlato Esempi (2) Allora istante momento temporale passato sollecitazione conseguenza Okay riconoscimento accettazione richiesta di opinione segno che inizia una nuova fase della discussione
d. Annotazione del discorso collegamenti anaforici Esempi (3) Le rose erano belle e le ho colte (4) Ho comprato un vestito e l’ho indossato la sera stessa I’ll saddle the horses and I bring them around I went out with a friend on Sunday and she looked beautiful
e. Annotazione stilistica modi di parlare e di pensare (discorso diretto, indiretto, indiretto libero …) f. Annotazione lessicale aggiunge l’identità del lemma a ogni forma di parola presente nel testo Esempi (1) Lying (LIE) (2) È stato bloccato (BLOCCARE)
Importanza anche di Annotazione di scarsa fluenza (linguaggio spontaneo: ripetizioni, esitazioni, false partenze, ecc.) Annotazione dei learner corpora (scritto e parlato degli apprendenti di L2)
3. Perché annotare? Controllo manuale di un corpus Analisi automatica di un corpus Il riutilizzo delle annotazioni La multifunzionalità
a. Controllo manuale di un corpus Uno dei maggiori utilizzi del POS tagging è quello di aumentare l’utilizzo di un corpus nella creazione di dizionari (1) separate (verbo) / separate (aggettivo) (2) diritto (nome) / diritto (aggettivo) Se la distinzione è già segnalata da tags nei corpus, allora la separazione diviene automatica
b. Analisi automatica di un corpus Liste o dizionari di frequenza con una classificazione grammaticale, a seconda dello scopo (1) leaves (verbo) / leaves (nome) (2) gioco (verbo) / gioco (nome) Primo stadio dell’analisi sintattica Speech synthesis
c. Il riutilizzo delle annotazioni Futuro utilizzo L’annotazione può essere fatta in modo automaticamente accurato tra il 95% e il 98% delle volte; infatti viene prima fatta manualmente Risorsa elettronica
d. La multifunzionalità Ha differenti scopi o applicazioni L’utilizzo dei corpora può cambiare nel futuro Argomento contrario: le annotazioni sono molto più utili se designate in modo specifico per particolari applicazioni