Alcuni casi di studio DTD/Schema TEI P5

Slides:



Advertisements
Presentazioni simili
INFORMATICA UMANISTICA MODULI B, C E D
Advertisements

Rendere fruibile e valorizzare un archivio storico
Introduzione all’HTML
Informatica umanistica: Moduli B, C e D
INFORMATICA UMANISTICA MODULI B, C E D Massimo Poesio (B, D) Marco Baroni (Lab D) Roberto Zamparelli (C)
Introduzione ad XML Mario Arrigoni Neri.
Lezione 1 Primi passi in HtML SCRIVERE TESTI di Sergio Capone
Analisi e progettazione
A. FERRARI Alberto Ferrari. L'HyperText Markup Language (HTML) (traduzione letterale: linguaggio di marcatura per ipertesti) è un linguaggio usato per.
1 Introduzione ad XML. 2 Problemi con SGML Complesso da comprendere ed utilizzare Non è pensato per la rete: mancano link ipertestuali e specifiche grafiche.
WEB OF SCIENCE ISI Web of Knowledge
Query OQL e XQUERY a confronto
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, La rappresentazione dellinformazione testuale e i linguaggi di codifica.
Biblioteche elettroniche e archivi digitali
La conoscenza del diritto e le scienze dellinformazione Nicola Palazzolo.
TW Analisi dei documenti n Classificazione dei componenti n Selezione dei componenti, costruzione della gerarchia, dei blocchi informativi e degli elementi.
Rinasco Il recupero retrospettivo degli inventari degli archivi storici comunali nella Regione Lazio Arezzo, 7 settembre 2010
XML Prof. Barbara Pernici Politecnico di Milano. Introduzione a XML.
Linguaggi di marcatura e fogli stile Presentazione del corso.
EDITORIA TRADIZIONALE
Contenuti digitali Crearli, gestirli, farne degli oggetti editoriali.
Architettura del World Wide Web
SBN e le nuove regole di catalogazione
Introduzione e nozioni fondamentali di sintassi
Linguaggi di markup1 LINGUAGGI DI MARKUP. Linguaggi di markup2 Documenti su Internet Internet permette (tra laltro) di accedere a documenti remoti In.
Modello E-R Generalizzazioni
Dalla biblioteca-catalogo alla biblioteca-nodo di rete*
GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.
Linguaggi di codifica.
1 IsaPress. 2 Obiettivo Realizzare uno strumento di facile uso per estrarre il contenuto da documenti binari di vario tipo in un formato utile per l'impaginazione.
1 IsaPress. 2 Obiettivo Realizzare uno strumento di facile uso per estrarre il contenuto da documenti binari di vario tipo in un formato utile per l'impaginazione.
HyperText Markup Language 17-23/6/08 Informatica applicata B Cristina Bosco.
GLI STANDARD PER L’INFORMATICA MEDICA una necessità da condividere.
Descrizione Semantica ad Alto Livello di Ambienti Virtuali in X3D
Internet L’essenziale.
19/04/2006 Esperienza NewsML Lo standard di trasmissione internazionale NewsML: lesperienza AGI. INCONTRO AGENZIE DI STAMPA ROMA, 19 APRILE 2006.
Microsoft Word (oppure, OpenOffice Writer)‏
Creare pagine web Xhtlm. Struttura di una pagina.
Gianpaolo Cecere Introduzione
Dati e DBMS DBMS relazionali SQL Progettazione di una base di dati Programma del Corso.
Alla fine degli anni quaranta nasceva il mito del cervello elettronico, e tutte le attività connesse allutilizzo del computer venivano indicate tramite.
Il linguaggio HTML Antonella Schiavon – settembre 2008 rev. 1 – aprile 2011.
HTML HyperText Markup Language Linguaggio per marcare un’Ipertesto
Programma di Informatica Classi Prime
Hyper-Text Mark-Up Language
Informatica e Algoritmi
ITCG “V. De Franchis” - PON FSE Modulo G/1 l’informatica”
Corso Web CSV – Andiamo on-line 1 Andiamo on-line Corso di formazione Elementi base per la costruzione di un sito web.
XHTML Corso linguaggi per il web a.s. 2011/2012 ITIS A. Righi – Corsico Relatore – Aldo Guastafierro.
Creato da Riccardo Nuzzone
Creazione di pagine per Internet Brevi note a cura di Emanuele Lana
Internet e HTML Diffusione di informazioni mediante la rete Internet.
Analisi del documento bibliografico Sono possibili diversi tipi di analisi: Formale (la rappresentazione fisica dei dati bibliografici) Letteraria (l'opera.
Tecnologie di InternetDocument Type Definition Dott. Nicola Dragoni Document Type Definition  Document Type Definition (DTD)  Documento XML valido 
Catalogo: cosa è? Il catalogo è lo strumento principe di mediazione fra la biblioteca e il lettore; registra e comunica le.
HTML e CSS C. Gena, C. Picardi, J. Sproston HTML e CSS.
PROGETTO… Internet Providers, registrazione del dominio Costruire una home page … e renderla visibile sul Web.
Corso di Laurea in Informatica
Cenni Su SGML, HTML, XML SGML (Standard Generalized Markup Language) è il padre di tutti i linguaggi "Markup" – Lo svantaggio è la "pesantezza" dei suoi.
UML: Introduzione Corso IS I /03 Gianna Reggio Versione 0.0.
Servizi Internet Claudia Raibulet
1 La Text Encoding Initiative (TEI). 2 La TEI perchè  Proliferazione degli schemi di codifica  Difficoltà per il mondo umanistico ad avere visibilità.
Informatica Umanistica LM - Scienze del Testo Docente Alessia Scacchi.
Tecnologie della lingua Human Language Technology (HLT)
Università degli Studi di Firenze Facoltà di Ingegneria Dipartimento di Sistemi e Informatica Corso di Laurea in Ingegneria Informatica Modelli e strumenti.
PRIMO INCONTRO. Obiettivi per il docente in formazione acquisire la capacità di pianificare attività didattiche che prevedano l'integrazione della LIM.
STANDARD DI DESCRIZIONE DEGLI ARCHIVI COME STRUMENTI DI COMUNICAZIONE STEFANO VITALI.
2 Indice Un esempio Che cosa è A cosa serve Confronto con HTML Punti di forza La sua struttura.
Catalogazione La catalogazione si occupa
Il linguaggio XML per la rappresentazione dei dati Lo Extensible Markup Language o XML è stato concepito da un gruppo di lavoro del World Wide Web Consortium.
Transcript della presentazione:

Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI Alcuni casi di studio DTD/Schema TEI P5 <http://www.tei-c.org/release/doc/tei-p5-doc/en/html> TEI Consortium, eds. Guidelines for Electronic Text Encoding and Interchange. <http://www.tei-c.org/P5/> Linee guida per la codifica e l'interscambio del testo elettronico

Informatica e discipline umanistiche Scienze della rappresentazione e dell’elaborazione dell’informazione: discipline che si occupano dei processi e dei sistemi di reperimento, conservazione, trasformazione e trasmissione dei dati informativi. Ruolo della computer science: trasformare i dati umanistici, che identificano tutti gli oggetti portatori di informazione, in sistemi formali, cioè costruiti in base a precisi schemi e secondo specifiche regole. Quello che è formalizzato diventa computabile, quindi risolvibile sulla base di processi automatici. Ambiguità e indeterminatezza devono essere sostituiti da schemi e regole, strutture e modelli. IU: analisi dei sistemi di progettazione e creazione di oggetti computabili. Adeguata modellizzazione dei dati sulla base di strutture dati e loro rappresentazione formale.

Humanities Computer Science Ogni disciplina di area umanistica ha sviluppato differenti strategie computazionali, a seconda delle esigenze del settore di competenza (la linguistica, la storia, la biblioteconomia, la letteratura, la paleografia, la codicologia, etc.), ma quasi tutte le discipline condividono metodologie formali nella gestione automatica dei dati e concordano su di un uso non esclusivamente tecnico dello strumento informatico. Una serie di comuni metodologie informatiche percorre cioè trasversalmente le discipline umanistiche tradizionali e costituisce una base condivisa per le operazioni legate: alla rappresentazione e alla conservazione delle fonti, alle modalità della sua manipolazione, ai criteri del trattamento e alle forme della sua disseminazione e distribuzione.

Alle origini: la linguistica computazionale Prime sperimentazioni disciplinari: tentativo di automatizzare procedimenti manuali di estrazione di parole da corpora di dati. Siamo nel 1949 e Padre Roberto Busa inizia a produrre l’index verborum (o meglio le concordanze) degli opera omnia di Tommaso d’Aquino. http://www.corpusthomisticum.org

Alle origini: riviste e associazioni Rivista Computer and the Humanities (1966). Associazioni: ALLC (Association for Literary and Linguistic Computing <http://www.allc.org/>) fondata nel 1973 ACH (Association for Computer in the Humanities <http://www.ach.org/>) fondata nel 1978. I membri di ACH e ALLC sono editor anche di: Literary and Linguistic Computing <http://llc.oxfordjournals.org> (1986). ACH gestisce poi la lista di discussione Humanist, “an international electronic seminar on humanities computing and the digital humanities” <http://www.princeton.edu/~mccarty/humanist/> (il primo volume è del 1987-88). ACH e ALLC si sono ad oggi federate nella “Alliance of Digital Humanities Organizations” (ADHO) <http://www.digitalhumanities.org/>. Fra le varie attività del Commitee si registra la nascita, nel 2007, della rivista elettronica “Digital Humanities Quarterly” (DHG).

Alle origini: il markup SGML Fine degli anni ottanta: problematiche connesse con la rappresentazione digitale del testo tramite linguaggi specifici di codifica. Nel 1986 SGML (Standard Generalized Markup Language) diviene standard ISO. Nel 1987 si inizia a parlare della TEI (Text Encoding Initiative) come del vocabolario condiviso della comunità di studiosi che intendono realizzare testi elettronici di ambito umanistico. Fioriscono anche le prime edizioni elettroniche a cui si affiancano le prime raccolte di testi elettronici, i primi corpora testuali che rappresentano il fondamento per la nascita delle biblioteche digitali.

Alle origini: il Web e i linguaggi La discussione che ne segue non è solo di natura tecnica, ma investe i fondamenti teorici della rappresentazione digitale. Gli anni novanta del novecento sono segnati dall’avvento del Word Wide Web che consente la pubblicazione distribuita di materiali in formato digitale e porta ad un progressivo ampliamento dell’orizzonte di scambio nella comunità dell’IU. Oggi: XML (Extensible Markup Language) e TEI, nuove frontiere della multimedialità, i linguaggi controllati e biblioteche digitali.

Il ruolo dell’XML Metalinguaggio – norme SINTATTICHE (livello trasporto dati) e cioè Assenza di un vocabolario di elementi Concetto di Tipo di Documento (la classe = condivisione di proprietà). Non solo concetto tecnico: la DTD (livello vocabolario di rappresentazione) ma ora Gli Schemi. Esigenza di espressività Il concetto di testo: la struttura gerarchica ad albero Importanza del MODELLO: non solo lo schema

L’importanza del modello per i testi umanistici La definizione del modello deriva da due precise circostanze: specificità della risorsa, nei termini di tipologia documentaria, caratteristiche dell’analisi e del successivo trattamento automatico del testo o del corpus. Ogni modello del testo è dunque il risultato del punto di vista assunto sulla fonte.

I macrolivelli interpretativi Potremmo ipotizzare tre livelli, che corrispondono a tre macro aree di analisi e quindi a tre modelli o a tre punti di vista: STRUTTURA RAPPRESENTAZIONE/FORMATO FENOMENI INTERLINEARI/CONTENUTO Non è obbligatorio scegliere uno dei tre modelli; tutti e tre possono essere rappresentati in fase di markup o meglio il modello elaborato può contemplare elementi che provengono dai tre diversi livelli della modellizzazione.

Struttura Per codifica della struttura si intende l’individuazione delle partizioni principali e secondarie del testo. Ci si riferisce, ad esempio, alle suddivisioni formali in capitoli, sezioni, paragrafi per un testo in prosa; canti, stanze, versi per un componimento poetico; atti e scene per un testo teatrale, ecc.

Rappresentazione/formato Si intende l’aspetto fisico del documento, quindi la riproduzione in formato digitale delle caratteristiche della versione cartacea. grassetti, corsivi e sottolineati, caratteri speciali che richiedono una particolare resa per essere rappresentati (tutto ciò che esula quindi dal set ASCII base o dall’Unicode UTF 8), posizionamento di note e annotazioni, organizzazione di eventuali glosse marginali, indentazioni, a capo, caratteristiche materiali (come aggiunte e cancellazioni), alternanza maiuscole/minuscole, interpunzione. Gli aspetto di formato, in particolare, sono caratteristiche che possono avere un ruolo importante nell’interpretazione del significato del testo: un corsivo può qualificare una parola in lingua straniera, un titolo, un enfasi nel contenuto e non essere un mero accorgimento tipografico.

Fenomeni interlineari/Contenuto In questa fase il markup richiederà una scelta specifica dei fenomeni in relazione alle esigenze analitiche del lavoro di resa elettronica. Qualche esempio: nomi di persona e riferimenti di luogo, numeri e date, citazioni, figure retoriche, lessico tecnico/specifico, parole in lingua straniera, analisi stilistica, codifica delle varianti all’interno di una tradizione testuale, annotazioni morfo-sintattiche e semantiche di corpora.

Il ruolo della TEI Per agevolare la portabilità dei prodotti digitali e per consentire dunque la condivisione dei formati di scambio è stato realizzato un progetto denominato TEI (Text Encoding Initiative). La TEI è un modello di codifica che vuole contemplare tutta la serie dei fenomeni di interesse ‘umanistico’ e trovare, per ciascuno di essi, un vocabolario unico al fine di arrivare ad una formalizzazione utile a normalizzare i criteri, le modalità e il lessico del markup, di fronte alla polisemia del linguaggio naturale. La TEI è quindi una grammatica avente il compito di assegnare un vocabolario controllato all’XML. Termini e relazioni di dipendenza gerarchica.

Origini della TEI A partire dal 1987 le tre maggiori associazioni mondiali di studiosi di scienze umane attraverso metodologie informatiche, la Association for Computers and the Humanities (ACH) la Association for Computational Linguistics (ACL) e la Association for Literary and Linguistic Computing (ALLC) hanno avviato un progetto internazionale per sviluppare un modello di codifica normalizzato. Questo progetto è stato denominato Text Encoding Initiative (TEI), sito ufficiale http://www.tei-c.org/. Ad esso hanno attivamente collaborato un gruppo di studiosi provenienti da differenti paesi

Guidelines TEI Cfr. http://www.tei-c.org/Guidelines Il lavoro delle commissioni, iniziato nel 1989, ha condotto alla realizzazione di una vasta e complessa DTD (Document Type Definition), le cui caratteristiche sono state per la prima volta presentate nella pubblicazione, uscita nel 1994, col titolo Guidelines for Electronic Text Encoding and Interchange (TEI P3). Nel 2002 è stata rilasciata la TEI P4, per venire incontro all’esigenza di prevedere, anche nelle Guidelines, l’adeguamento della rinnovata DTD alla sintassi XML. È in fase di distribuzione la TEI P5, che ha comportato una sostanziale revisione delle TEI Guidelines (compresa la realizzazione di una versione della TEI basata su XML Schema che si affianca alla DTD). Cfr. http://www.tei-c.org/Guidelines

La funzione delle Guidelines Sono indirizzate a tutti coloro che intendono scambiare informazioni archiviate in formato elettronico. Sottolineano l'importanza dello scambio di informazioni testuali, ma trattano anche di altre forme di informazioni (quali immagini e suoni). Sono applicabili indifferentemente sia per la creazione di nuove risorse che per lo scambio di quelle già esistenti. Forniscono un mezzo per rendere esplicite certe caratteristiche di un testo in modo tale da facilitarne il trattamento mediante programmi basati su diverse piattaforme. Qualsiasi rappresentazione di un testo su un computer usa una qualche forma di codifica; la TEI è stata creata sia per ovviare alla eccessiva varietà di schemi di codifica tra loro incompatibili (interscambio), sia per il crescente numero di applicazioni utilizzate per i testi in formato elettronico.

Principi generali Le Guidelines dovrebbero: essere in grado di rappresentare le caratteristiche testuali necessarie per la ricerca; essere semplici, chiare e concrete; essere di semplice utilizzazione per i ricercatori senza il ricorso a software specializzati; permettere una definizione rigorosa e un'efficiente elaborazione dei testi; consentire estensioni definite dall'utente; essere conformi agli standard esistenti o in procinto di essere adottati.

Tre blocchi dello schema TEI Per agevolare l’apprendimento e l’impiego dello schema i progettisti della TEI hanno previsto una divisione dello schema di codifica in tre grandi blocchi, ognuno strutturato in frammenti: core tag set cioè gli elementi presenti in tutti i documenti TEI, compresi i metadati; base tag set, suddiviso in prosa, versi, testo drammatico, testi parlati, dizionari, ecc.; additional tag set in cui sono compresi vari frammenti: link, analisi stilistica, gestione di corpora linguistici, trascrizione di fonti primarie, codifica dell’apparato critico, nomi e date, immagini, grafici, diagrammi, alberi, ecc.

TEI Lite È stato elaborato anche un sottoinsieme della TEI, denominato TEI Lite, che dovrebbe consentire la diffusione del progetto di codifica, senza impegnare l’utenza ad apprendere lo schema nella sua interezza. Si tratta di una versione semplificata dell’intero schema di codifica che permette di facilitare la realizzazione di testi in formato elettronico tei-compliant. Elenco dei marcatori e degli attributi TEI-Lite (140 circa)

Struttura TEI: testo e metadati Ogni testo codificato conformemente alle specifiche della TEI è costituito da due parti: un TEI header (“testata”), contenente le informazioni editoriali concernenti, a diverso livello, il documento elettronico; un TEI text contenente la trascrizione codificata del testo in versione integrale. Template TEI

TEI header Diremo che nella “testata” della TEI sono raccolte tutte le informazioni utili per: descrizione bibliografica del testo elettronico e del suo esemplare originale di riferimento, modalità e caratteristiche della codifica, note non bibliografiche e revisioni. Queste notizie possono definirsi come i metadati della risorsa, cioè le meta-informazioni utili a descrivere il testo elettronico prodotto e il documento materiale utilizzato come esemplare per la trascrizione digitale.

Il Frontespizio elettronico Ogni testo TEI ha una testata che offre informazioni analoghe a quelle fornite dal frontespizio di un testo a stampa. La testata è introdotta dall'elemento <teiHeader> ed è composta da quattro parti principali: <fileDesc> contiene una descrizione bibliografica completa di un file digitale. <encodingDesc> documenta le relazioni tra un testo elettronico e la fonte, o le fonti, da cui è stato tratto. <profileDesc> contiene una descrizione dettagliata degli aspetti non bibliografici di un testo, specificamente le lingue e i dialetti usati, le circostanze in cui è stato prodotto, i partecipanti e il loro ambiente. <revisionDesc> riassume la storia delle revisioni di un documento elettronico. Un esempio da Biblioteca Italiana Es. offline: Dante, De vulgari eloquentia

TEI markup Take care of: Some cases of study: Use of referential canonical edition: text + paratextual elements Metadata: description of the digital text (<TeiHeader> - MAG/DC); description of data source (<SorceDesc> and especially <MsDesc>) Some cases of study: Transcription of primary sources Markup of critical apparatus Semantic annotations

Work in progress Each editor one level of annotation Diplomatic transcription (text and images): Quaderno di appunti di Paolo Bufalini Semantic Annotation: Sabadino degli Arienti, Novelle Porrettane Material phenomena and letters structure: Vespasiano da Bisticci, Lettere Association of diplomatic, interpretative and critical edition: Leonardo Bruni, Manoscritto de La prima guerra punica Critical apparatus: Erasmo, Carmina

Transcription of primary sources Levels (different @resp): Gliphs identification (entity references) Sic/corr Orig/reg Abbr/expan Del Add Edition: Diplomatic (conservative). It documents all the material aspects of the source. Interpretative (first level of normalizazion) Critical (editorial intervention) The best markup is one that provides most materials to any kind of editions 1 XML/TEI file ; 3 XSLT files

Transcription of primary sources to et <reg type="SC"> </reg> <choice> <orig>&dTonda;</orig> <reg type="SG">d</reg> </choice> ifficult <choice> <orig>a</orig> <reg type="modernizzazione">à</reg> </choice> <choice> <abbr type="contraction">&iSegnoSopra;</abbr> <expan>in</expan> </choice>

Critical apparatus markup 2 levels: Digital form of an existent edition How to show relation between established text and witness Creation of a new scholarly digital edition starting from witness Define the best-text All the witnesses at the same level

Apparatus markup: between layout conventions and different scholarly editing approaches (1) Parallel versions (i.e. for genetic edition). Same stemmatic authority of the witnesses. Possibility: Reconstruct the full-text of each witness of the textual tradition (i.e. click on the sigla). Parallel segmentation method Double-end-point-attached method = @xml:id (milestones = no overlapping)

Apparatus markup: between layout conventions and different scholarly editing approaches (2) Traditional: established text in the body (the lemma), variant readings in apparatus (link in-text). the location-referenced method = via canonical reference scheme

Critical apparatus markup Opera omnia Desiderii Erasmi Roterodami recognita et adnotatione critica instructa notisque illustrata. Ordinis primi tomus septimus (I/7). Carmina, ed. H. Vredeveld, Amsterdam-London-New York-Tokyo 1995, c. 2, vv. 10-14). [...] <l n="10">Effoeta anus facit patrem.</l> <l n="11">Est virgo foeta filia,</l> <l n="12">Nepos dei verbum ac <app> <lemm resp=”#EOO”>deus</lemm> <rdg wit=”#K #L”>deus</rdg> <rdg wit=”#Eg”>decus</rdg> </app> </l> <l n="13">Gener pudicus se negat</l>

Critical apparatus markup <xsl:template match="//app" mode="testo"> <xsl:variable name=“lezione"> <xsl:value-of select="lem/@resp"/> <xsl:text>(</xsl:text> <xsl:value-of select="rdg"/> <xsl:text>:</xsl:text> <xsl:value-of select="rdg/@wit"/> <xsl:text>) </xsl:text> </xsl:variable> <span title="{$lezione}" style="border-bottom: 1px dotted"> <xsl:value-of select="lem"/> </span> </xsl:template>

Semantic annotations Narratological analysis The role of semantic resources – thesauri, controlled vocabulary, authority files for: Normalization of variant forms regarding the same object Terms definitions Associate instances to classes (hyponim, hyperonim) Associate people (named in different ways but brought back to PT via unique key) to event, role, action, quality.