GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.

Slides:



Advertisements
Presentazioni simili
CENTRO RETE QUALITA' UMBRA
Advertisements

Rendere fruibile e valorizzare un archivio storico
La conoscenza del contesto territoriale
Introduzione ad XML Mario Arrigoni Neri.
Unità didattica di Anfossi Mariarosa
TIPI DI TEST ACHIEVEMENT TEST: MISURA CIO CHE E STATO EFFETTIVAMENTE INSEGNATO IN UN CORSO. ACHIEVEMENT TEST: MISURA CIO CHE E STATO EFFETTIVAMENTE INSEGNATO.
Introduzione al linguaggio VHDL per la descrizione di sistemi digitali
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, La rappresentazione dellinformazione testuale e i linguaggi di codifica.
Istituzioni di linguistica a.a Federica Da Milano
Introduzione ai Web Services. E' un nuovo meccanismo RPC ottimizzato per l'uso in Internet Un qualunque Client su una generica piattaforma deve poter.
I PRINCIPI DI TRASPARENZA E RESPONSABILITÁ NELLA RENDICONTAZIONE Gruppo Generali Marina Donati, Responsabile RSI e Bilancio di Sostenibilità di Gruppo.
INFORMATICA typedef.
Ospedale Pistoia ASL 3 Pistoia
Significati dell’esperienza lavorativa
Il metodo osservativo nei contesti formativi/1
ORDINE DEI DOTTORI COMMERCIALISTI E DEGLI ESPERTI CONTABILI di Ivrea Pinerolo Torino CORSO DI FORMAZIONE IN MATERIA DI ENTI LOCALI UNIVERSITA DI TORINO.
JavaScript Laboratorio di Applicazioni Informatiche II mod. A.
Metodologie per la gestione di conoscenza ontologica Prof. M.T. PAZIENZA a.a
Sistemi basati su conoscenza Conoscenza e ragionamento Prof. M.T. PAZIENZA a.a
Le lingue straniere e le indicazioni nazionali La trasversalità del curricolo linguistico Incontro di ricerca-azione
PRINCIPI CONSOLIDATI DEL PROCESSO DI VALUTAZOIONE i) Qualità. I progetti selezionati per l'erogazione di un finanziamento devono dimostrarsi di elevato.
L’organizzazione scientifica del lavoro:
Linguaggi di marcatura e fogli stile Presentazione del corso.
Comunicazione e significato
La valutazione di impatto netto: alcune riflessioni a margine Gruppo Nazionale Placement Roma, 27 Febbraio 2013.
Metodi di ricerca in Psicologia
Metodi della ricerca in Psicologia
Progettare una ricerca: approcci e metodologie
COMUNICAZIONE PUBBLICA La Carta dei Servizi 6° lezione 16 ottobre 2008 Anno Accademico 2008/2009.
Elio Gilberto Bettinelli Verbania, 26 maggio 2009
La collezione documentaria di una biblioteca I documenti possono entrare nelle biblioteche con modalità diverse: diritto di stampa acquisto dono cambio.
4^ - 5^ scuola primaria 1^-2^-3^scuola secondaria di primo grado
Unità Didattica 2 I Linguaggi di Programmazione
Linguaggi di markup1 LINGUAGGI DI MARKUP. Linguaggi di markup2 Documenti su Internet Internet permette (tra laltro) di accedere a documenti remoti In.
La banca dati Arianna: nuovi standard e nuove potenzialità Torino, 10 marzo 2003 Gli standard del rifacimento e il rapporto con Normeinrete Mauro Marzola.
IL KNOWLEDGE MANAGEMENT E LICT Gestione e Valorizzazione della Conoscenza (Firenze Novembre 2008)
Large linguistically-processed Web corpora for multiple languages Marco Baroni e Adam Kilgarrif in Proceedings of EACL 2006 presentazione Fantini - Inglese.
Che cos’è l’annotazione di un corpus?
Cai Lin Lin Michela & Guidetti Emanuela presentano:
Migliorare l'organizzazione per migliorare i servizi. Come mantenere vivo nel tempo il progetto di continuità assistenziale e di coordinamento tra le equipe.
Formati e software di gestione per i record bibliografici Integrazione dellinformazione e qualità degli OPAC Napoli, 1 marzo 2002 Rosa Maiello Università
A.N.C.E.I. - Formazione e Ricerca - La potenza dellinformatica viene a risiedere soprattutto in ciò che fa scoprire nelle relazioni tra gli.
ANALIZZARE E CORREGGERE GLI ERRORI
Il linguaggio delle biblioteche digitali Ravenna, 28–29 marzo 2003 INDICI e integrazione delle risorse Guido Badalamenti - Università di Siena
Il World Wide Web Lidea innovativa del WWW è che esso combina tre importanti e ben definite tecnologie informatiche: Documenti di tipo Ipertesto. Sono.
Quando la valutazione è ricerca a cura di Fabiana Fabiani.
Ingegneria dei Requisiti - e dei Sistemi - Giuseppe Berio DI-Unito 2007.
VALUTAZIONE QUALITÀ E STANDARD
LA DIMENSIONE IMMATERIALE DEL CONTROLLO
IL LINGUAGGIO VERBALE.
IO E LA MATEMATICA PROCEDURALE
Politecnico di Torino maggio DIDAMATICA 2011 Insegnare Futuro EXCEL4PS&SP – 6 Maggio 2011 Prof. Nicola Armenise, PhD I.T.E.S. “A. Olivetti” -
La potenza dell’informatica viene a risiedere soprattutto in ciò che fa scoprire nelle relazioni tra gli esseri umani, nel loro agire, nel loro parlarsi,
Ingegneria del software Modulo 1 -Introduzione al processo software Unità didattica 3 -Modelli di fase d’analisi Ernesto Damiani Università degli Studi.
Gli Algoritmi L’algoritmo è un insieme ordinato di operazioni non ambigue ed effettivamente computabili che, quando eseguito, produce un risultato e si.
ROVIGO 29 – 30 settembre 2014 Elaborazione di Simulazioni di Seconde Prove relative agli Esami di Stato a conclusione del primo quinquennio.
LA TEORIA DELL’ORGANIZZAZIONE
la traduzione dei programmi
Tecnologie di InternetDocument Type Definition Dott. Nicola Dragoni Document Type Definition  Document Type Definition (DTD)  Documento XML valido 
LA COMUNICAZIONE I parte
L’intervista in valutazione e ricerca sociale Parole di chi non ha voce Progettazione e valutazione nelle politiche sociali Università di Genova Scienze.
Qualità E’ un concetto multidimensionale Diversi approcci alla qualità (da Evers 1997) non vanno visti necessariamente come alternativi.
Intelligenza Artificiale Metodologie di ragionamento Prof. M.T. PAZIENZA a.a
Certificazione delle competenze disciplinari
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
Eprogram informatica V anno. Introduzione a PHP Introduzione La diffusione di PHP ha avuto un notevole incremento dalla fine degli anni Novanta a oggi,
D.S.A. Disturbi Specifici di Apprendimento
De Saussure e Jakobson.  Langue, è il sistema, socialmente accettato, dei segni linguistici e delle relative regole di combinazione e di esclusione che.
Elementi di linguistica italiana. Le strutture dell italiano.
JOURNAL CLUB PROMOZIONE DELLA SALUTE DoRS - Grugliasco, 5 novembre 2004 David Buchanan, DrPH Community Health Education, School of Pubblic Health and Health.
Transcript della presentazione:

GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici

INTRODUZIONE PROPONE UN INSIEME DI STANDARD PER UNA BUONA REALIZZAZIONE DELLE ANNOTAZIONI DA FAR OSSERVARE QUANTO POSSIBILE AGLI ANNOTATORI

L'ANNOTAZIONE SEPARABILE LE ANNOTAZIONI SONO OPTIONAL EXTRA L'ANNOTAZIONE DOVREBBE ESSERE SEPARABILE DAL TESTO GREZZO NON TUTTI GLI UTENTI POSSONO ESSERE INTERESSATI ALLE ANNOTAZIONI

LOU BURNARD SOTTOLINEA LA NECESSITA' DI FORNIRE UNA DOCUMENTAZIONE ADEGUATA CIRCA IL CORPUS E IL SUO INSIEME DI TESTI ALLO STESSO MODO GEOFFREY LEECH ENFATIZZA IL BISOGNO DI UNA DOCUMENTAZIONE ALTRETTANTO DETTAGLIATA DELLE ANNOTAZIONI E DEL CORPUS ANNOTATO

COSA SIGNIFICA FORNIRE UNA DOCUMENTAZIONE DETTAGLIATA SULLE ANNOTAZIONI? COME/DOVE/QUANDO/DA CHI SONO STATE APPLICATE LE ANNOTAZIONI? QUAL E' LO SCHEMA DI ANNOTAZIONE? QUAL E' IL SISTEMA DI CODIFICA? IN BREVE ORIENTARE GLI UTENTI FORNENDO LORO TUTTE LE INFORMAZIONI

PREMESSA L'OPERAZIONE DI ANNOTAZIONE DI UN CORPUS NON E' UNA PRATICA OGGETTIVA L'ANNOTAZIONE IMPLICA UN'INTERPRETAZIONE DELLA LINGUA DI UN CORPUS NON VI E' ACCORDO SULLE CATEGORIE CHE DEVONO ESSERE UTILIZZATE NON C'E' VERITA' ASSOLUTA NELLA VISIONE DEL LINGUAGGIO

PRATICHE DI ANNOTAZIONI LINGUISTICAMENTE CONSENSUALI POSSIAMO CERCARE UN ACCORDO SCHEMA DI ANNOTAZIONE PUÒ ESSERE BASATO SU UN INSIEME CONSENSUALE DI CATEGORIE SU CUI LE PERSONE TENDONO AD ESSERE D'ACCORDO UTILE PER PIU' UTENTI RAGGIUNGE OBIETTIVO DI RIUSABILITA' DEI CORPORA ANNOTATI APPROCCIO ANCHE DEI DIZIONARI

COSA PUO' ACCADERE SE NON C'E' CONSENSUALITA' LINGUISTICA? OSSIA SE UN ANNOTATORE PER ESEMPIO SI AFFIDA ESCLUSIVAMENTE A UNA TEORIA INTERPRETATIVA DELLA LINGUA? IL CORPUS RISENTIRA' DI QUESTA SCELTA RISULTERA' MENO UTILE E MENO CONDIVISIBILE OBIETTIVO DI RIUSABILITA' NON RAGGIUNTO

STANDARD DE FACTO & STANDARD DE JURE LE PRATICHE DI ANNOTAZIONE DOVREBBERO RISPETTARE GLI EMERGENTI STARDARD DE FACTO STANDARD DE FACTO: modelli di riferimento che per la loro elevata diffusione vengono considerati standard, ma non sono mai stati riconosciuti come tali attraverso un regolare processo di standardizzazione STANDARD DE JURE: formalizzato e descritto in uno specifico documento chiamato comunemente norma God's truth standard nella pratica di annotazione non esiste

CODIFICA DELLE ANNOTAZIONI EFFETTIVA RAPPRESENTAZIONE SIMBOLICA DELLE CATEGORIE SCELTE LISTA COME GLOSSARIO LISTA DI DIMENSIONE VARIABILE TAGSET=TAG+DEFINIZIONE+ESEMPIO (NP1)

CRITERI DI ANNOTAZIONE ESEMPIO BASATO SU POS TAG NON AMBIGUO: per esempio, A non può indicare sia Aggettivo sia Avverbio TAG BREVE: per esempio NP1=3 segnali concisi per 3 elementi grammaticali TAG TRASPARENTE: per esempio confronto tra NP1 e (ingannevole e arbitrario)

LINGUAGGI DI MARK UP L'INFORMAZIONE STRUTTURALE È RAPPRESENTATA ATTRAVERSO L'AGGIUNTA DI ETICHETTE O TAG DI MARCATURA NON VI È LIMITE ALLA TIPOLOGIA DI INFORMAZIONI CODIFICABILI

MARK UP IN SGML/XML VANTAGGI SGML/HTML/XML HANNO SVILUPPATO UNO STANDARD MONDIALE CHE PUÒ ESSERE APPLICATO AD OGNI LINGUAGGIO, ORALE O SCRITTO, E A LINGUE DI DIFFERENTI PERIODI STORICI L'USO DEL LINGUAGGIO MARK UP PUÒ ESSERE EFFICIENTEMENTE ANALIZZATO DALL'ANNOTATORE COL TEMPO, STRUMENTI DI VARIO TIPO POSSONO ESSERE SVILUPPATI PER FACILITARE IL PROCESSO DI CODIFICA DI QUESTI LINGUAGGI ( per esempio Human Communication Research Centre di Edimburgo)

MARK UP IN SGML/XML INCONVENIENTI più prolissi dei primi simboli convenzionali usati per esempio dal LOB Corpus LOB corpus: Paula_NP1 SMGL in BNC Corpus: Paula XML : Paula SOLUZIONE: CONVERSIONE AUTOMATICA CHE PRODUCE ESITO PIU' SEMPLICE

MARK UP IN SGML/XML INCONVENIENTI Natura imprevedibilmente immensa di un Corpus del mondo reale (può contenere dati di parlata spontanea e al contempo manoscritti medievali) SOLUZIONE: SI CERCA DI ALLENTARE GLI STANDARD DI CONFORMITA' PSEUDO-SGML HA IN APPARENZA LE CARATTERISTICHE DI SGML, MA NON È SOGGETTO ALLO STESSO RIGOROSO PROCESSO DI CONVALIDA

MARK UP IN SGML/XML INCONVENIENTI assume di default che l'annotazione è analizzabile in una struttura gerarchica ad albero, dove non sono permessi tagli trasversali tra le parentesi come in In ogni corpus, in particolare in quelli di lingua orale, sono presenti tagli trasversali tra le parentesi, costruzioni che devono essere marcate per diversi livelli linguistici di informazione, come fenomeni di non scorrevolezza o interruzioni.

SOLUZIONE APPLICARE STAND-OFF ANNOTATION TIPO DI SISTEMA DI ANNOTAZIONE INVECE DI UNIRE IL CORPUS E IL MARK UP, MANTIENE IL TESTO GREZZO SEPARATO (in un server remoto) E CREA UN LIVELLO (layer) SEPARATO CON I MARK UP CHE RISULTANO COLLEGATI AL TESTO ORIGINALE TRAMITE PUNTATORI (pointers) OTTENIAMO COSI': SEPARAZIONE TRA TESTO E ANNOTAZIONI NESSUNA STRUTTURA GERARCHICA

MANUALE DI ANNOTAZIONE DOCUMENTO CHE HA ORIGINE DALLE LINEE GUIDA UTILIZZATE ED E' NECESSARIO PER SPIEGARE LO SCHEMA DI ANNOTAZIONE AGLI UTENTI DI UN CORPUS ANNOTATO GEOFFREY SAMPSON (1995) SUSANNE CORPUS ANALOGIA TRA ANNOTAZIONE E SISTEMA LEGALE DIVISIONE IN: -lista di sistemi di annotazione -specificazione delle pratiche di annotazione

ESPLICITAZIONE DELLE PRATICHE DI ANNOTAZIONE SEGMENTAZIONE: per esempio carta di credito o don't EMBEDDING (integrazione): per esempio New York-Los Angeles flight LINEE GUIDA PER AREE GRIGIE: per esempio il papa NP1?