Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoGiacinto Miceli Modificato 10 anni fa
1
GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici
2
INTRODUZIONE PROPONE UN INSIEME DI STANDARD PER UNA BUONA REALIZZAZIONE DELLE ANNOTAZIONI DA FAR OSSERVARE QUANTO POSSIBILE AGLI ANNOTATORI
3
L'ANNOTAZIONE SEPARABILE LE ANNOTAZIONI SONO OPTIONAL EXTRA L'ANNOTAZIONE DOVREBBE ESSERE SEPARABILE DAL TESTO GREZZO NON TUTTI GLI UTENTI POSSONO ESSERE INTERESSATI ALLE ANNOTAZIONI
4
LOU BURNARD SOTTOLINEA LA NECESSITA' DI FORNIRE UNA DOCUMENTAZIONE ADEGUATA CIRCA IL CORPUS E IL SUO INSIEME DI TESTI ALLO STESSO MODO GEOFFREY LEECH ENFATIZZA IL BISOGNO DI UNA DOCUMENTAZIONE ALTRETTANTO DETTAGLIATA DELLE ANNOTAZIONI E DEL CORPUS ANNOTATO
5
COSA SIGNIFICA FORNIRE UNA DOCUMENTAZIONE DETTAGLIATA SULLE ANNOTAZIONI? COME/DOVE/QUANDO/DA CHI SONO STATE APPLICATE LE ANNOTAZIONI? QUAL E' LO SCHEMA DI ANNOTAZIONE? QUAL E' IL SISTEMA DI CODIFICA? IN BREVE ORIENTARE GLI UTENTI FORNENDO LORO TUTTE LE INFORMAZIONI
6
PREMESSA L'OPERAZIONE DI ANNOTAZIONE DI UN CORPUS NON E' UNA PRATICA OGGETTIVA L'ANNOTAZIONE IMPLICA UN'INTERPRETAZIONE DELLA LINGUA DI UN CORPUS NON VI E' ACCORDO SULLE CATEGORIE CHE DEVONO ESSERE UTILIZZATE NON C'E' VERITA' ASSOLUTA NELLA VISIONE DEL LINGUAGGIO
7
PRATICHE DI ANNOTAZIONI LINGUISTICAMENTE CONSENSUALI POSSIAMO CERCARE UN ACCORDO SCHEMA DI ANNOTAZIONE PUÒ ESSERE BASATO SU UN INSIEME CONSENSUALE DI CATEGORIE SU CUI LE PERSONE TENDONO AD ESSERE D'ACCORDO UTILE PER PIU' UTENTI RAGGIUNGE OBIETTIVO DI RIUSABILITA' DEI CORPORA ANNOTATI APPROCCIO ANCHE DEI DIZIONARI
8
COSA PUO' ACCADERE SE NON C'E' CONSENSUALITA' LINGUISTICA? OSSIA SE UN ANNOTATORE PER ESEMPIO SI AFFIDA ESCLUSIVAMENTE A UNA TEORIA INTERPRETATIVA DELLA LINGUA? IL CORPUS RISENTIRA' DI QUESTA SCELTA RISULTERA' MENO UTILE E MENO CONDIVISIBILE OBIETTIVO DI RIUSABILITA' NON RAGGIUNTO
9
STANDARD DE FACTO & STANDARD DE JURE LE PRATICHE DI ANNOTAZIONE DOVREBBERO RISPETTARE GLI EMERGENTI STARDARD DE FACTO STANDARD DE FACTO: modelli di riferimento che per la loro elevata diffusione vengono considerati standard, ma non sono mai stati riconosciuti come tali attraverso un regolare processo di standardizzazione STANDARD DE JURE: formalizzato e descritto in uno specifico documento chiamato comunemente norma God's truth standard nella pratica di annotazione non esiste
10
CODIFICA DELLE ANNOTAZIONI EFFETTIVA RAPPRESENTAZIONE SIMBOLICA DELLE CATEGORIE SCELTE LISTA COME GLOSSARIO LISTA DI DIMENSIONE VARIABILE TAGSET=TAG+DEFINIZIONE+ESEMPIO (NP1)
11
CRITERI DI ANNOTAZIONE ESEMPIO BASATO SU POS TAG NON AMBIGUO: per esempio, A non può indicare sia Aggettivo sia Avverbio TAG BREVE: per esempio NP1=3 segnali concisi per 3 elementi grammaticali TAG TRASPARENTE: per esempio confronto tra NP1 e Q!@ (ingannevole e arbitrario)
12
LINGUAGGI DI MARK UP L'INFORMAZIONE STRUTTURALE È RAPPRESENTATA ATTRAVERSO L'AGGIUNTA DI ETICHETTE O TAG DI MARCATURA NON VI È LIMITE ALLA TIPOLOGIA DI INFORMAZIONI CODIFICABILI
13
MARK UP IN SGML/XML VANTAGGI SGML/HTML/XML HANNO SVILUPPATO UNO STANDARD MONDIALE CHE PUÒ ESSERE APPLICATO AD OGNI LINGUAGGIO, ORALE O SCRITTO, E A LINGUE DI DIFFERENTI PERIODI STORICI L'USO DEL LINGUAGGIO MARK UP PUÒ ESSERE EFFICIENTEMENTE ANALIZZATO DALL'ANNOTATORE COL TEMPO, STRUMENTI DI VARIO TIPO POSSONO ESSERE SVILUPPATI PER FACILITARE IL PROCESSO DI CODIFICA DI QUESTI LINGUAGGI ( per esempio Human Communication Research Centre di Edimburgo)
14
MARK UP IN SGML/XML INCONVENIENTI più prolissi dei primi simboli convenzionali usati per esempio dal LOB Corpus LOB corpus: Paula_NP1 SMGL in BNC Corpus: Paula XML : Paula SOLUZIONE: CONVERSIONE AUTOMATICA CHE PRODUCE ESITO PIU' SEMPLICE
15
MARK UP IN SGML/XML INCONVENIENTI Natura imprevedibilmente immensa di un Corpus del mondo reale (può contenere dati di parlata spontanea e al contempo manoscritti medievali) SOLUZIONE: SI CERCA DI ALLENTARE GLI STANDARD DI CONFORMITA' PSEUDO-SGML HA IN APPARENZA LE CARATTERISTICHE DI SGML, MA NON È SOGGETTO ALLO STESSO RIGOROSO PROCESSO DI CONVALIDA
16
MARK UP IN SGML/XML INCONVENIENTI assume di default che l'annotazione è analizzabile in una struttura gerarchica ad albero, dove non sono permessi tagli trasversali tra le parentesi come in......... In ogni corpus, in particolare in quelli di lingua orale, sono presenti tagli trasversali tra le parentesi, costruzioni che devono essere marcate per diversi livelli linguistici di informazione, come fenomeni di non scorrevolezza o interruzioni.
17
SOLUZIONE APPLICARE STAND-OFF ANNOTATION TIPO DI SISTEMA DI ANNOTAZIONE INVECE DI UNIRE IL CORPUS E IL MARK UP, MANTIENE IL TESTO GREZZO SEPARATO (in un server remoto) E CREA UN LIVELLO (layer) SEPARATO CON I MARK UP CHE RISULTANO COLLEGATI AL TESTO ORIGINALE TRAMITE PUNTATORI (pointers) OTTENIAMO COSI': SEPARAZIONE TRA TESTO E ANNOTAZIONI NESSUNA STRUTTURA GERARCHICA
18
MANUALE DI ANNOTAZIONE DOCUMENTO CHE HA ORIGINE DALLE LINEE GUIDA UTILIZZATE ED E' NECESSARIO PER SPIEGARE LO SCHEMA DI ANNOTAZIONE AGLI UTENTI DI UN CORPUS ANNOTATO GEOFFREY SAMPSON (1995) SUSANNE CORPUS ANALOGIA TRA ANNOTAZIONE E SISTEMA LEGALE DIVISIONE IN: -lista di sistemi di annotazione -specificazione delle pratiche di annotazione
19
ESPLICITAZIONE DELLE PRATICHE DI ANNOTAZIONE SEGMENTAZIONE: per esempio carta di credito o don't EMBEDDING (integrazione): per esempio New York-Los Angeles flight LINEE GUIDA PER AREE GRIGIE: per esempio il papa NP1?
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.