Dal corpus al treebank Alcune applicazioni ai Persiani di Eschilo Federico Boschetti Dal corpus al treebank Alcune applicazioni ai Persiani di Eschilo.

Slides:



Advertisements
Presentazioni simili
Michele A. Cortelazzo Morfologia 1.
Advertisements

LA LINGUA LATINA FONETICA : studia i suoni delle parole (pronuncia)
Inizio… Linguaggi Linguaggi di programmazione Linguaggi di programmazione Linguaggi di programmazione Linguaggi di programmazione Linguaggi Formali Linguaggi.
Gli elementi fondamentali Incominciamo il nostro viaggio …
A cura della prof. Maria Concetta Puglisi
Generalità Linguaggio e Macchina Astratta
Facoltà di Ingegneria di Modena ANALISI E SVILUPPO DI TECNICHE PER
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea in Ingegneria Informatica Integrazione di WordNet Domains.
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, La rappresentazione dellinformazione testuale e i linguaggi di codifica.
Istituzioni di linguistica
Istituzioni di linguistica
Sistemi computazionali per il linguaggio naturale
Interaction Models Group. Funzionalità Interaction Models Group Consente lestrazione della struttura grammaticale di una frase La struttura grammaticale.
Intelligenza Artificiale Linguaggio naturale
Maria Teresa PAZIENZA a.a
Sistemi basati su conoscenza Comunicazione basata sul linguaggio naturale Prof. M.T. PAZIENZA a.a
Apprendimento Automatico: Elaborazione del Linguaggio Naturale
Istituzioni di linguistica
Corso di Laurea in Biotecnologie Informatica (Programmazione)
Corso di Informatica (Programmazione)
Linguaggio FONETICA SEMANTICA SINTASSI PRAGMATICA.
Digressione: il linguaggio di query CQP
Il lessico Lessico: insieme delle parole di una lingua (astratto)
Elementi di morfologia nominale
Popovic e i 5 tipi di cambiamento
Unità Didattica 2 I Linguaggi di Programmazione
Fondamenti di Informatica1 Linguaggi Classificati rispetto alle caratteristiche principali: –potere espressivo che influenza lo stile di programmazione.
Informatica giuridica Informatica e lingua del diritto Nicola Palazzolo Anno Accademico 2006/2007.
ESAME DI STATO conclusivo del primo ciclo di istruzione La prova a carattere nazionale ITALIANO Quadro di riferimento.
LINGUAGGI DI PROGRAMMAZIONE
Strategie d’uso del computer nella didattica
GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.
Che cos’è l’annotazione di un corpus?
Istituzioni di linguistica a.a Federica Da Milano
…. mare c’è un golfo, dove ho assistito …. bellissimi tramonti.
Che cosa è un sintagma?.
CAP. 2 ANALISI LESSICALE 2.1 Il ruolo dell'analizzatore lessicale
Espressione polirematica
PROGETTO REGIONALE ELLE – EMERGENZA LINGUA- II SEMINARIO DISTRETTUALE DI RAVENNA – Ravenna, 22 novembre 2010 Pianificazione attività di Istituto Parte.
LA VALUTAZIONE DEL TESTO SCRITTO RIFLESSIONI E PROPOSTE DI LAVORO
MORFOLOGIA.
SINTASSI.
Maria Piscitelli Firenze, 3 dicembre 2010
Grammatiche, Linguaggio e Automi R. Basili TAL - a.a
Sistemi basati su conoscenza Comunicazione basata sul linguaggio naturale (grammatica, semantica) Prof. M.T. PAZIENZA a.a
La riflessione sulla lingua nelle Indicazioni nazionali
Michele A. Cortelazzo Morfologia 1.
Sistemi basati su conoscenza Linguaggio naturale: grammatiche Prof. M.T. PAZIENZA a.a
Frase grammaticale?logica?
Ambiguità Le lingue sono, per loro natura ambigue e sfumate:
Componenti formali del linguaggio
Intelligenza Artificiale 1 Gestione della conoscenza lezione 19 Prof. M.T. PAZIENZA a.a
Come costruire sistemi di elaborazione del linguaggio naturale Fornire le conoscenze necessarie per elaborare dati linguistici –Acustico-fonetiche (input.
L’analisi del contenuto Doppia funzione dell’analisi del contenuto: -Può essere un tipo di ricerca specifico -Può essere una tecnica di ricerca Come TECNICA.
Corpora e linguistica computazionale Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale
Linguistica computazionale: task sul linguaggio naturale Cristina Bosco 2015 Informatica applicata alla comunicazione multimediale.
Il progetto Turin University Treebank: corpora e NLP Cristina Bosco Dipartimento di Informatica Università di Torino Corso di informatica applicata alla.
Sistemi basati su conoscenza Comunicazione basata sul linguaggio naturale (grammatica, semantica) Prof. M.T. PAZIENZA a.a
Istituzioni di linguistica
Linguistica computazionale: come accedere all’informazione codificata nel linguaggio naturale (seconda parte) Cristina Bosco 2014 Informatica applicata.
Gli elementi costitutivi della parola
LA FRASE SEMPLICE M. Dardano – P. Trifone, Grammatica italiana con nozioni di linguistica, Zanichelli, Bologna, III ed.
Modelli di produzione della parola 1
La Comprensione frasale
____________________________ Stefano Scarcella Prandstraller Relazioni istituzionali e Gestione della responsabilità sociale d’impresa Il focus group E’
L’insegnamento della lingua latina dopo la riforma A ogni liceo il SUO latino? Nicola Flocchini Verona
Analisi sintattica della frase
COMPRENSIONE, ANALISI E INTERPRETAZIONE DI UN TESTO POETICO
  Il termine collocation fu coniato da J. R. Firth negli anni ‘50, e indicava una co-occorrenza abituale di lessemi individuali: il significato di una.
Parsing ricorsivo discendente Il parsing ricorsivo discendente (recursive descent parsing) è un metodo di tipo top-down che può essere facilmente codificato.
Transcript della presentazione:

Dal corpus al treebank Alcune applicazioni ai Persiani di Eschilo Federico Boschetti Dal corpus al treebank Alcune applicazioni ai Persiani di Eschilo Federico Boschetti 1/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni

Il corpus non lemmatizzato I corpora più completi a disposizione del filologo classico (TLG, PHI, PoetidItalia...) solitamente non sono lemmatizzati Le forme che cadono sotto lo stesso lemma possono essere cercate tramite caratteri jolly o regular expressions più complesse, formulate valutando il rapporto fra precision (solo ciò che è pertinente) e recall (tutto ciò che è pertinente) amor*( carattere jolly per interrogare Poeti d'Italia in Lingua latina) /e?lu.*/ (regular expression per interrogare il TLG con Diogenes) 2/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni

Lemmatizzazione e POS I corpora redatti dal Centre Informatique de Philosophie et Lettres (C.I.P.L.) di Liegi sono lemmatizzati: ad ogni forma del testo è associato il lemma corrispondente del LSJ A ciascuna forma è associata la parte del discorso (Part Of Speech) corrispondente Il lavoro sui Persiani di Eschilo è stato realizzato estendendo il corpus gentilmente concesso dal C.I.P.L. 3/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni

Composizione e derivazione La lemmatizzazione favorisce l'applicazione di algoritmi combinatori per la ricerca sistematica di cooccorrenze di due o più parole La lemmatizzazione unita all'analisi metrica permette ad esempio la ricerca semiautomatica di formule (omeriche) La lemmatizzazione non è efficace se si è interessati a unità lessicali inferiori alla parola Con l'aiuto del DELG si è proceduto ad integrare la lemmatizzazione con informazioni pertinenti alla composizione e alla derivazione βροβ τηςC: βρ ς+F: βα νω>C: -β της βρ γοοςC: βρ ς+F: γο ω~B: γ ος βροπενθ ςC: βρ ς+F: π σχω~B: π νθος>C: -πενθ ς βροχ τωνC: βρ ς+B: χιτ ν 4/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni

I tratti morfologici A ciascuna forma sono stati associati i tratti morfologici pertinenti alla sua categoria grammaticale: Nome e pronome: num., gen., caso Aggettivo: num., gen., caso, grado Verbo: tempo, modo, diatesi, pers., num. 5/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni

Sintassi: dal luogo notevole alla base di dati Gli studi specialistici sulla sintassi di un autore sono generalmente focalizzati su luoghi notevoli oggetto di discussione critica (per Eschilo si può fare riferimento all'ottimo lavoro di G. Matino) La redazione di corpora e la conseguente corpus analysis sono focalizzate invece sulla registrazione sistematica e (idealmente) esaustiva dei fenomeni (sintattici) presenti nel testo 6/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni

Codifica della sintassi Esistono numerosi modelli formali per codificare la sintassi 7/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni

La scelta di TigerSearch Implementazione in Java (garanzia di portabilità) e sviluppo di APIs open source Codifica Unicode e implementazione di Input methods per le lingue orientali e le lingue classiche Input/Output in formato XML (esportazione dei grafici in formato SVG) Associazione di ciascuna unità testuale (parola, sintagma, periodo) ad un identificatore univoco Possibilità di estendere i livelli di analisi previsti (lemmatizzazione, POS, t ratti morfologici) con nuovi livelli di analisi (struttura metrica, sottocategorizzazione semantica, etc.) Possibilità di creare proprie etichette dei costituenti e delle funzioni sintattiche Modello di rappresentazione che permette crossing edges e secondary edges, molto adegua to per la rappresentazione di figure sintattiche Linguaggio di interrogazione del treebank molto espressivo 8/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni

La struttura del treebank Un treebank è una collezione di grafi aciclici orientati che rappresentano la struttura di ciascun periodo sintattico In TigerSearch i nodi terminali sono costituiti dalle parole (associate a lemma, POS, etc.) I nodi non terminali rappresentano costituenti sintattici di livello superiore (ad es. NP [Noun Phrase], S [Sentence], etc.) Gli archi che uniscono i vari nodi possono essere etichettati per esprimere la funzione che il nodo subordinato assolve nei confronti del nodo sovraordinato (ad es. SB [Subject], etc.) 9/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni

Crossing edges Il modello di rappresentazione consente la sovrapposizione di archi nell'albero della struttura sintattica 10/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni Pers. 347

Secondary edges Il modello di rappresentazione consente la presenza di archi secondari in caso di componenti condivisi 11/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni Pers. 299

Dalla ricerca di parole alla ricerca di strutture Il Tiger Query Language consente non soltanto la ricerca di parole (o metaparole, quali lemmi, POS, etc.) e sequenze di parole Permette soprattutto la ricerca di strutture complesse, indipendentemente dalle parole (o metaparole) effettive presenti nella struttura E' possibile in questo modo raggiungere livelli di astrazione piuttosto elevati Ricerca di tutte le strutture SOV oppure SVO Ricerca di sintagmi preposizionali dove la preposizione si trova in seconda posizione 12/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni

Esempi di interrogazione [word="Ξέρξης"]cerca la parola Ξέρξης [pos="ptc"]cerca le particelle [lemma=/ζ.*/]cerca tutte le parole il cui lemma comincia per zeta [morph="N\.m\.sg"]cerca sostantivi, aggettivi, pronomi o participi al nominativo maschile singolare [cat="NP"] > [word="Ξέρξης"]cerca una Noun Phrase che contenga la parola Ξέρξης [cat="S"] >SB #xcerca i nodi che fungono da soggetto #s >SB #subj &cerca i periodi dove il complemento oggetto (#s >OA #obj | #s >OC #obj) & oppure una oggettiva precedano il soggetto #obj.* #subj 13/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni

Studio della metatassi Il Tiger Query Language si presta a formulare stringhe di interrogazione per la ricerca di figure sintattiche quali l'iperbato il chiasmo il parallelismo lasindeto il polisindeto, etc. 14/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni

Estendibilità delle features TigerSearch consente la creazione di nuove features, oltre al lemma e alla part of speech Ad ogni parola è stata associata la struttura metrica (nel contesto del verso) e una (molto blanda) categorizzazione semantica (ad es.: concreto<animato<umano, concreto<inanimato<arma, etc.) 15/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni

Negazione con quantificatore universale 16/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni Negazione con quantificatore esistenziale Filtro che agisce da quantificatore universale Per l'analisi stilistica è rilevante poter osservare l'assenza di un fenomeno (frasi senza verbo, etc.)

I limiti in ambito filologico I corpora redatti per studi linguistici usualmente presentano i seguenti limiti: Assenza di varianti testuali Preferenza per le interpretazioni univoche (metodo dell'accordo fra tre redattori) 17/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni

Varianti e interpretazioni 18/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni Pers. 168 ediz. modern e paradosi due interpretazio ni sintattiche

Proposta di codifica 19/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni Il sistema di annotazione può integrare varianti testuali ed interpretative con riferimenti bibliografici

Il modello 3-tier Il modello 3-tier promuove la separazione dei dati (e quindi la riusabilità) rispetto alle applicazioni Si è implementata una piccola estensione sperimentare di questo modello a TigerSearch, nell'ambito del progetto europeo HPC-Europa 20/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni

La parallelizzazione Grazie ad HPC-Europa e alla disponibilità dell'I.M.S. di Stoccarda è stato possibile implementare un'altra piccola estensione sperimentale di TigerSearch per aumentarne la scalabilità Agendo all'interno di un cluster di computer, un nodo riceve ed inoltra le queries relative a uno o più corpora, in modo che vengano eseguite in parallelo, unendo le capacità computazionali dei nodi per aumentare le prestazioni e quindi diminuire i tempi di risposta 21/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni

Conclusioni Ora che le collezioni di testi elettronici a disposizione del filologo classico sono sufficientemente ampi, è necessario che continuino ad estendersi in profondità, almeno secondo due direzioni: Varianti testuali e congetture (notizie d'apparato) Interpretazioni metriche, sintattiche, semantiche, retoriche... (notizie estratte da commentari e letteratura specialistica) 22/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni

23/24 Bibliografia A. Abeillé, Treebanks – Building and Using Parsed Corpora, Dordrecht 2003 G. Matino, La sintassi di Eschilo, Napoli 1998 R. Mordenti, Informatica e critica dei testi, Roma 2001 Sitografia (per ulteriori riferimenti bibliogr.)

Grazie per l'attenzione! 24/24