La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Developing Linguistic Corpora: a Guide to Good Practice Adding Linguistic Annotation Leech G.

Presentazioni simili


Presentazione sul tema: "Developing Linguistic Corpora: a Guide to Good Practice Adding Linguistic Annotation Leech G."— Transcript della presentazione:

1 Developing Linguistic Corpora: a Guide to Good Practice Adding Linguistic Annotation Leech G.

2 1.Che cosè lannotazione di un corpus? è la pratica di aggiungere a un corpus informazioni linguistiche interpretative utilizzo del Part Of Speech tagging (POS tagging)

3 Esempi (1) Present regalo (nome) present_NN1 presentare qlcu/regalare qlco (verbo) present_VVB caratteristica (aggettivo) present_JJ (2) Ancora oggetto (nome) ancora_NN1 continuità di unazione (avverbio) ancora_ADV

4 È utile annotare i corpora? Preferenza per il pure corpus, che non corre il rischio di riflettere le posizioni o i possibili errori dellannotatore (Sinclair) Lannotazione rende il corpus più utile: assegna un valore aggiunto al raw corpus (grande diffusione di Brown Corpus, LOB Corpus e BNC)

5 2. Che differenti tipi di annotazione esistono? Oltre al POS tagging esistono altri tipi di annotazione: Annotazione fonetica Annotazione semantica Annotazione pragmatica Annotazione del discorso Annotazione stilistica Annotazione lessicale

6 a. Annotazione fonetica come una parola viene pronunciata in un corpus parlato Annotazione prosodica: accenti, pause, intonazione Annotazione sintattica: come viene analizzata una frase (suddivisione in unità)

7 (1)Cricket (nome) sport grillo (2) Vite (nome) oggetto pianta b. Annotazione semantica informazioni riguardanti la categoria semantica della parola Esempi

8 c. Annotazione pragmatica diversi tipi di atti che si verificano nel parlato Esempi (1)Okay riconoscimento accettazione richiesta di opinione segno che inizia una nuova fase della discussione (2) Allora istante momento temporale passato sollecitazione conseguenza

9 d. Annotazione del discorso collegamenti anaforici Esempi (1)Ill saddle the horses and I bring them around (2)I went out with a friend on Sunday and she looked beautiful (3) Le rose erano belle e le ho colte (4) Ho comprato un vestito e lho indossato la sera stessa

10 e. Annotazione stilistica modi di parlare e di pensare (discorso diretto, indiretto, indiretto libero …) f. Annotazione lessicale aggiunge lidentità del lemma a ogni forma di parola presente nel testo Esempi (1) Lying (LIE) (2) È stato bloccato (BLOCCARE)

11 Importanza anche di Annotazione di scarsa fluenza (linguaggio spontaneo: ripetizioni, esitazioni, false partenze, ecc.) Annotazione dei learner corpora (scritto e parlato degli apprendenti di L2)

12 3. Perché annotare? a.Controllo manuale di un corpus b.Analisi automatica di un corpus c.Il riutilizzo delle annotazioni d.La multifunzionalità

13 a. Controllo manuale di un corpus Uno dei maggiori utilizzi del POS tagging è quello di aumentare lutilizzo di un corpus nella creazione di dizionari (1) separate (verbo) / separate (aggettivo) (2) diritto (nome) / diritto (aggettivo) Se la distinzione è già segnalata da tags nei corpus, allora la separazione diviene automatica

14 b. Analisi automatica di un corpus Liste o dizionari di frequenza con una classificazione grammaticale, a seconda dello scopo (1) leaves (verbo) / leaves (nome) (2) gioco (verbo) / gioco (nome) Primo stadio dellanalisi sintattica Speech synthesis

15 c. Il riutilizzo delle annotazioni Futuro utilizzo Lannotazione può essere fatta in modo automaticamente accurato tra il 95% e il 98% delle volte; infatti viene prima fatta manualmente Risorsa elettronica

16 d. La multifunzionalità Ha differenti scopi o applicazioni Lutilizzo dei corpora può cambiare nel futuro Argomento contrario: le annotazioni sono molto più utili se designate in modo specifico per particolari applicazioni


Scaricare ppt "Developing Linguistic Corpora: a Guide to Good Practice Adding Linguistic Annotation Leech G."

Presentazioni simili


Annunci Google