Dal corpus al treebank Alcune applicazioni ai Persiani di Eschilo Federico Boschetti Dal corpus al treebank Alcune applicazioni ai Persiani di Eschilo Federico Boschetti 1/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni
Il corpus non lemmatizzato I corpora più completi a disposizione del filologo classico (TLG, PHI, PoetidItalia...) solitamente non sono lemmatizzati Le forme che cadono sotto lo stesso lemma possono essere cercate tramite caratteri jolly o regular expressions più complesse, formulate valutando il rapporto fra precision (solo ciò che è pertinente) e recall (tutto ciò che è pertinente) amor*( carattere jolly per interrogare Poeti d'Italia in Lingua latina) /e?lu.*/ (regular expression per interrogare il TLG con Diogenes) 2/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni
Lemmatizzazione e POS I corpora redatti dal Centre Informatique de Philosophie et Lettres (C.I.P.L.) di Liegi sono lemmatizzati: ad ogni forma del testo è associato il lemma corrispondente del LSJ A ciascuna forma è associata la parte del discorso (Part Of Speech) corrispondente Il lavoro sui Persiani di Eschilo è stato realizzato estendendo il corpus gentilmente concesso dal C.I.P.L. 3/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni
Composizione e derivazione La lemmatizzazione favorisce l'applicazione di algoritmi combinatori per la ricerca sistematica di cooccorrenze di due o più parole La lemmatizzazione unita all'analisi metrica permette ad esempio la ricerca semiautomatica di formule (omeriche) La lemmatizzazione non è efficace se si è interessati a unità lessicali inferiori alla parola Con l'aiuto del DELG si è proceduto ad integrare la lemmatizzazione con informazioni pertinenti alla composizione e alla derivazione βροβ τηςC: βρ ς+F: βα νω>C: -β της βρ γοοςC: βρ ς+F: γο ω~B: γ ος βροπενθ ςC: βρ ς+F: π σχω~B: π νθος>C: -πενθ ς βροχ τωνC: βρ ς+B: χιτ ν 4/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni
I tratti morfologici A ciascuna forma sono stati associati i tratti morfologici pertinenti alla sua categoria grammaticale: Nome e pronome: num., gen., caso Aggettivo: num., gen., caso, grado Verbo: tempo, modo, diatesi, pers., num. 5/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni
Sintassi: dal luogo notevole alla base di dati Gli studi specialistici sulla sintassi di un autore sono generalmente focalizzati su luoghi notevoli oggetto di discussione critica (per Eschilo si può fare riferimento all'ottimo lavoro di G. Matino) La redazione di corpora e la conseguente corpus analysis sono focalizzate invece sulla registrazione sistematica e (idealmente) esaustiva dei fenomeni (sintattici) presenti nel testo 6/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni
Codifica della sintassi Esistono numerosi modelli formali per codificare la sintassi 7/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni
La scelta di TigerSearch Implementazione in Java (garanzia di portabilità) e sviluppo di APIs open source Codifica Unicode e implementazione di Input methods per le lingue orientali e le lingue classiche Input/Output in formato XML (esportazione dei grafici in formato SVG) Associazione di ciascuna unità testuale (parola, sintagma, periodo) ad un identificatore univoco Possibilità di estendere i livelli di analisi previsti (lemmatizzazione, POS, t ratti morfologici) con nuovi livelli di analisi (struttura metrica, sottocategorizzazione semantica, etc.) Possibilità di creare proprie etichette dei costituenti e delle funzioni sintattiche Modello di rappresentazione che permette crossing edges e secondary edges, molto adegua to per la rappresentazione di figure sintattiche Linguaggio di interrogazione del treebank molto espressivo 8/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni
La struttura del treebank Un treebank è una collezione di grafi aciclici orientati che rappresentano la struttura di ciascun periodo sintattico In TigerSearch i nodi terminali sono costituiti dalle parole (associate a lemma, POS, etc.) I nodi non terminali rappresentano costituenti sintattici di livello superiore (ad es. NP [Noun Phrase], S [Sentence], etc.) Gli archi che uniscono i vari nodi possono essere etichettati per esprimere la funzione che il nodo subordinato assolve nei confronti del nodo sovraordinato (ad es. SB [Subject], etc.) 9/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni
Crossing edges Il modello di rappresentazione consente la sovrapposizione di archi nell'albero della struttura sintattica 10/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni Pers. 347
Secondary edges Il modello di rappresentazione consente la presenza di archi secondari in caso di componenti condivisi 11/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni Pers. 299
Dalla ricerca di parole alla ricerca di strutture Il Tiger Query Language consente non soltanto la ricerca di parole (o metaparole, quali lemmi, POS, etc.) e sequenze di parole Permette soprattutto la ricerca di strutture complesse, indipendentemente dalle parole (o metaparole) effettive presenti nella struttura E' possibile in questo modo raggiungere livelli di astrazione piuttosto elevati Ricerca di tutte le strutture SOV oppure SVO Ricerca di sintagmi preposizionali dove la preposizione si trova in seconda posizione 12/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni
Esempi di interrogazione [word="Ξέρξης"]cerca la parola Ξέρξης [pos="ptc"]cerca le particelle [lemma=/ζ.*/]cerca tutte le parole il cui lemma comincia per zeta [morph="N\.m\.sg"]cerca sostantivi, aggettivi, pronomi o participi al nominativo maschile singolare [cat="NP"] > [word="Ξέρξης"]cerca una Noun Phrase che contenga la parola Ξέρξης [cat="S"] >SB #xcerca i nodi che fungono da soggetto #s >SB #subj &cerca i periodi dove il complemento oggetto (#s >OA #obj | #s >OC #obj) & oppure una oggettiva precedano il soggetto #obj.* #subj 13/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni
Studio della metatassi Il Tiger Query Language si presta a formulare stringhe di interrogazione per la ricerca di figure sintattiche quali l'iperbato il chiasmo il parallelismo lasindeto il polisindeto, etc. 14/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni
Estendibilità delle features TigerSearch consente la creazione di nuove features, oltre al lemma e alla part of speech Ad ogni parola è stata associata la struttura metrica (nel contesto del verso) e una (molto blanda) categorizzazione semantica (ad es.: concreto<animato<umano, concreto<inanimato<arma, etc.) 15/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni
Negazione con quantificatore universale 16/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni Negazione con quantificatore esistenziale Filtro che agisce da quantificatore universale Per l'analisi stilistica è rilevante poter osservare l'assenza di un fenomeno (frasi senza verbo, etc.)
I limiti in ambito filologico I corpora redatti per studi linguistici usualmente presentano i seguenti limiti: Assenza di varianti testuali Preferenza per le interpretazioni univoche (metodo dell'accordo fra tre redattori) 17/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni
Varianti e interpretazioni 18/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni Pers. 168 ediz. modern e paradosi due interpretazio ni sintattiche
Proposta di codifica 19/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni Il sistema di annotazione può integrare varianti testuali ed interpretative con riferimenti bibliografici
Il modello 3-tier Il modello 3-tier promuove la separazione dei dati (e quindi la riusabilità) rispetto alle applicazioni Si è implementata una piccola estensione sperimentare di questo modello a TigerSearch, nell'ambito del progetto europeo HPC-Europa 20/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni
La parallelizzazione Grazie ad HPC-Europa e alla disponibilità dell'I.M.S. di Stoccarda è stato possibile implementare un'altra piccola estensione sperimentale di TigerSearch per aumentarne la scalabilità Agendo all'interno di un cluster di computer, un nodo riceve ed inoltra le queries relative a uno o più corpora, in modo che vengano eseguite in parallelo, unendo le capacità computazionali dei nodi per aumentare le prestazioni e quindi diminuire i tempi di risposta 21/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni
Conclusioni Ora che le collezioni di testi elettronici a disposizione del filologo classico sono sufficientemente ampi, è necessario che continuino ad estendersi in profondità, almeno secondo due direzioni: Varianti testuali e congetture (notizie d'apparato) Interpretazioni metriche, sintattiche, semantiche, retoriche... (notizie estratte da commentari e letteratura specialistica) 22/24 Introduzione Lemmatizzazione e POS Treebanks - Crossing edges - Secondary edges Ricerca di strutture Estensioni Treebanks e filologia - Varianti e interpretazioni 3-tier Parallelizzazione Conclusioni
23/24 Bibliografia A. Abeillé, Treebanks – Building and Using Parsed Corpora, Dordrecht 2003 G. Matino, La sintassi di Eschilo, Napoli 1998 R. Mordenti, Informatica e critica dei testi, Roma 2001 Sitografia (per ulteriori riferimenti bibliogr.)
Grazie per l'attenzione! 24/24