La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Che cos’è l’annotazione di un corpus?

Presentazioni simili


Presentazione sul tema: "Che cos’è l’annotazione di un corpus?"— Transcript della presentazione:

1 Developing Linguistic Corpora: a Guide to Good Practice Adding Linguistic Annotation Leech G.

2 Che cos’è l’annotazione di un corpus?
è la pratica di aggiungere a un corpus informazioni linguistiche interpretative utilizzo del Part Of Speech tagging (POS tagging)

3 Esempi (1) Present regalo (nome) present_NN1
presentare qlcu/regalare qlco (verbo) present_VVB caratteristica (aggettivo) present_JJ (2) Ancora oggetto (nome) ancora_NN1 continuità di un’azione (avverbio) ancora_ADV

4 È utile annotare i corpora?
Preferenza per il pure corpus, che non corre il rischio di riflettere le posizioni o i possibili errori dell’annotatore (Sinclair) L’annotazione rende il corpus più utile: assegna un valore aggiunto al raw corpus (grande diffusione di Brown Corpus, LOB Corpus e BNC)

5 2. Che differenti tipi di annotazione esistono?
Oltre al POS tagging esistono altri tipi di annotazione: Annotazione fonetica Annotazione semantica Annotazione pragmatica Annotazione del discorso Annotazione stilistica Annotazione lessicale

6 a. Annotazione fonetica
come una parola viene pronunciata in un corpus parlato Annotazione prosodica: accenti, pause, intonazione Annotazione sintattica: come viene analizzata una frase (suddivisione in unità)

7 b. Annotazione semantica
informazioni riguardanti la categoria semantica della parola Esempi Cricket (nome) sport grillo (2) Vite (nome) oggetto pianta

8 c. Annotazione pragmatica diversi tipi di atti che si verificano nel parlato Esempi
(2) Allora istante momento temporale passato sollecitazione conseguenza Okay riconoscimento accettazione richiesta di opinione segno che inizia una nuova fase della discussione

9 d. Annotazione del discorso collegamenti anaforici Esempi
(3) Le rose erano belle e le ho colte (4) Ho comprato un vestito e l’ho indossato la sera stessa I’ll saddle the horses and I bring them around I went out with a friend on Sunday and she looked beautiful

10 e. Annotazione stilistica modi di parlare e di pensare (discorso diretto, indiretto, indiretto libero …) f. Annotazione lessicale aggiunge l’identità del lemma a ogni forma di parola presente nel testo Esempi (1) Lying (LIE) (2) È stato bloccato (BLOCCARE)

11 Importanza anche di Annotazione di scarsa fluenza (linguaggio spontaneo: ripetizioni, esitazioni, false partenze, ecc.) Annotazione dei learner corpora (scritto e parlato degli apprendenti di L2)

12 3. Perché annotare? Controllo manuale di un corpus
Analisi automatica di un corpus Il riutilizzo delle annotazioni La multifunzionalità

13 a. Controllo manuale di un corpus
Uno dei maggiori utilizzi del POS tagging è quello di aumentare l’utilizzo di un corpus nella creazione di dizionari (1) separate (verbo) / separate (aggettivo) (2) diritto (nome) / diritto (aggettivo) Se la distinzione è già segnalata da tags nei corpus, allora la separazione diviene automatica

14 b. Analisi automatica di un corpus
Liste o dizionari di frequenza con una classificazione grammaticale, a seconda dello scopo (1) leaves (verbo) / leaves (nome) (2) gioco (verbo) / gioco (nome) Primo stadio dell’analisi sintattica Speech synthesis

15 c. Il riutilizzo delle annotazioni
Futuro utilizzo L’annotazione può essere fatta in modo automaticamente accurato tra il 95% e il 98% delle volte; infatti viene prima fatta manualmente Risorsa elettronica

16 d. La multifunzionalità
Ha differenti scopi o applicazioni L’utilizzo dei corpora può cambiare nel futuro Argomento contrario: le annotazioni sono molto più utili se designate in modo specifico per particolari applicazioni


Scaricare ppt "Che cos’è l’annotazione di un corpus?"

Presentazioni simili


Annunci Google