La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Alcuni casi di studio DTD/Schema TEI P5

Presentazioni simili


Presentazione sul tema: "Alcuni casi di studio DTD/Schema TEI P5"— Transcript della presentazione:

1 Il ruolo del modello nella rappresentazione del testo umanistico Il markup XML/TEI
Alcuni casi di studio DTD/Schema TEI P5 < TEI Consortium, eds. Guidelines for Electronic Text Encoding and Interchange. < Linee guida per la codifica e l'interscambio del testo elettronico

2 Informatica e discipline umanistiche
Scienze della rappresentazione e dell’elaborazione dell’informazione: discipline che si occupano dei processi e dei sistemi di reperimento, conservazione, trasformazione e trasmissione dei dati informativi. Ruolo della computer science: trasformare i dati umanistici, che identificano tutti gli oggetti portatori di informazione, in sistemi formali, cioè costruiti in base a precisi schemi e secondo specifiche regole. Quello che è formalizzato diventa computabile, quindi risolvibile sulla base di processi automatici. Ambiguità e indeterminatezza devono essere sostituiti da schemi e regole, strutture e modelli. IU: analisi dei sistemi di progettazione e creazione di oggetti computabili. Adeguata modellizzazione dei dati sulla base di strutture dati e loro rappresentazione formale.

3 Humanities Computer Science
Ogni disciplina di area umanistica ha sviluppato differenti strategie computazionali, a seconda delle esigenze del settore di competenza (la linguistica, la storia, la biblioteconomia, la letteratura, la paleografia, la codicologia, etc.), ma quasi tutte le discipline condividono metodologie formali nella gestione automatica dei dati e concordano su di un uso non esclusivamente tecnico dello strumento informatico. Una serie di comuni metodologie informatiche percorre cioè trasversalmente le discipline umanistiche tradizionali e costituisce una base condivisa per le operazioni legate: alla rappresentazione e alla conservazione delle fonti, alle modalità della sua manipolazione, ai criteri del trattamento e alle forme della sua disseminazione e distribuzione.

4 Alle origini: la linguistica computazionale
Prime sperimentazioni disciplinari: tentativo di automatizzare procedimenti manuali di estrazione di parole da corpora di dati. Siamo nel 1949 e Padre Roberto Busa inizia a produrre l’index verborum (o meglio le concordanze) degli opera omnia di Tommaso d’Aquino.

5 Alle origini: riviste e associazioni
Rivista Computer and the Humanities (1966). Associazioni: ALLC (Association for Literary and Linguistic Computing < fondata nel 1973 ACH (Association for Computer in the Humanities < fondata nel 1978. I membri di ACH e ALLC sono editor anche di: Literary and Linguistic Computing < (1986). ACH gestisce poi la lista di discussione Humanist, “an international electronic seminar on humanities computing and the digital humanities” < (il primo volume è del ). ACH e ALLC si sono ad oggi federate nella “Alliance of Digital Humanities Organizations” (ADHO) < Fra le varie attività del Commitee si registra la nascita, nel 2007, della rivista elettronica “Digital Humanities Quarterly” (DHG).

6 Alle origini: il markup SGML
Fine degli anni ottanta: problematiche connesse con la rappresentazione digitale del testo tramite linguaggi specifici di codifica. Nel 1986 SGML (Standard Generalized Markup Language) diviene standard ISO. Nel 1987 si inizia a parlare della TEI (Text Encoding Initiative) come del vocabolario condiviso della comunità di studiosi che intendono realizzare testi elettronici di ambito umanistico. Fioriscono anche le prime edizioni elettroniche a cui si affiancano le prime raccolte di testi elettronici, i primi corpora testuali che rappresentano il fondamento per la nascita delle biblioteche digitali.

7 Alle origini: il Web e i linguaggi
La discussione che ne segue non è solo di natura tecnica, ma investe i fondamenti teorici della rappresentazione digitale. Gli anni novanta del novecento sono segnati dall’avvento del Word Wide Web che consente la pubblicazione distribuita di materiali in formato digitale e porta ad un progressivo ampliamento dell’orizzonte di scambio nella comunità dell’IU. Oggi: XML (Extensible Markup Language) e TEI, nuove frontiere della multimedialità, i linguaggi controllati e biblioteche digitali.

8 Il ruolo dell’XML Metalinguaggio – norme SINTATTICHE (livello trasporto dati) e cioè Assenza di un vocabolario di elementi Concetto di Tipo di Documento (la classe = condivisione di proprietà). Non solo concetto tecnico: la DTD (livello vocabolario di rappresentazione) ma ora Gli Schemi. Esigenza di espressività Il concetto di testo: la struttura gerarchica ad albero Importanza del MODELLO: non solo lo schema

9 L’importanza del modello per i testi umanistici
La definizione del modello deriva da due precise circostanze: specificità della risorsa, nei termini di tipologia documentaria, caratteristiche dell’analisi e del successivo trattamento automatico del testo o del corpus. Ogni modello del testo è dunque il risultato del punto di vista assunto sulla fonte.

10 I macrolivelli interpretativi
Potremmo ipotizzare tre livelli, che corrispondono a tre macro aree di analisi e quindi a tre modelli o a tre punti di vista: STRUTTURA RAPPRESENTAZIONE/FORMATO FENOMENI INTERLINEARI/CONTENUTO Non è obbligatorio scegliere uno dei tre modelli; tutti e tre possono essere rappresentati in fase di markup o meglio il modello elaborato può contemplare elementi che provengono dai tre diversi livelli della modellizzazione.

11 Struttura Per codifica della struttura si intende l’individuazione delle partizioni principali e secondarie del testo. Ci si riferisce, ad esempio, alle suddivisioni formali in capitoli, sezioni, paragrafi per un testo in prosa; canti, stanze, versi per un componimento poetico; atti e scene per un testo teatrale, ecc.

12 Rappresentazione/formato
Si intende l’aspetto fisico del documento, quindi la riproduzione in formato digitale delle caratteristiche della versione cartacea. grassetti, corsivi e sottolineati, caratteri speciali che richiedono una particolare resa per essere rappresentati (tutto ciò che esula quindi dal set ASCII base o dall’Unicode UTF 8), posizionamento di note e annotazioni, organizzazione di eventuali glosse marginali, indentazioni, a capo, caratteristiche materiali (come aggiunte e cancellazioni), alternanza maiuscole/minuscole, interpunzione. Gli aspetto di formato, in particolare, sono caratteristiche che possono avere un ruolo importante nell’interpretazione del significato del testo: un corsivo può qualificare una parola in lingua straniera, un titolo, un enfasi nel contenuto e non essere un mero accorgimento tipografico.

13 Fenomeni interlineari/Contenuto
In questa fase il markup richiederà una scelta specifica dei fenomeni in relazione alle esigenze analitiche del lavoro di resa elettronica. Qualche esempio: nomi di persona e riferimenti di luogo, numeri e date, citazioni, figure retoriche, lessico tecnico/specifico, parole in lingua straniera, analisi stilistica, codifica delle varianti all’interno di una tradizione testuale, annotazioni morfo-sintattiche e semantiche di corpora.

14 Il ruolo della TEI Per agevolare la portabilità dei prodotti digitali e per consentire dunque la condivisione dei formati di scambio è stato realizzato un progetto denominato TEI (Text Encoding Initiative). La TEI è un modello di codifica che vuole contemplare tutta la serie dei fenomeni di interesse ‘umanistico’ e trovare, per ciascuno di essi, un vocabolario unico al fine di arrivare ad una formalizzazione utile a normalizzare i criteri, le modalità e il lessico del markup, di fronte alla polisemia del linguaggio naturale. La TEI è quindi una grammatica avente il compito di assegnare un vocabolario controllato all’XML. Termini e relazioni di dipendenza gerarchica.

15 Origini della TEI A partire dal 1987 le tre maggiori associazioni mondiali di studiosi di scienze umane attraverso metodologie informatiche, la Association for Computers and the Humanities (ACH) la Association for Computational Linguistics (ACL) e la Association for Literary and Linguistic Computing (ALLC) hanno avviato un progetto internazionale per sviluppare un modello di codifica normalizzato. Questo progetto è stato denominato Text Encoding Initiative (TEI), sito ufficiale Ad esso hanno attivamente collaborato un gruppo di studiosi provenienti da differenti paesi

16 Guidelines TEI Cfr. http://www.tei-c.org/Guidelines
Il lavoro delle commissioni, iniziato nel 1989, ha condotto alla realizzazione di una vasta e complessa DTD (Document Type Definition), le cui caratteristiche sono state per la prima volta presentate nella pubblicazione, uscita nel 1994, col titolo Guidelines for Electronic Text Encoding and Interchange (TEI P3). Nel 2002 è stata rilasciata la TEI P4, per venire incontro all’esigenza di prevedere, anche nelle Guidelines, l’adeguamento della rinnovata DTD alla sintassi XML. È in fase di distribuzione la TEI P5, che ha comportato una sostanziale revisione delle TEI Guidelines (compresa la realizzazione di una versione della TEI basata su XML Schema che si affianca alla DTD). Cfr.

17 La funzione delle Guidelines
Sono indirizzate a tutti coloro che intendono scambiare informazioni archiviate in formato elettronico. Sottolineano l'importanza dello scambio di informazioni testuali, ma trattano anche di altre forme di informazioni (quali immagini e suoni). Sono applicabili indifferentemente sia per la creazione di nuove risorse che per lo scambio di quelle già esistenti. Forniscono un mezzo per rendere esplicite certe caratteristiche di un testo in modo tale da facilitarne il trattamento mediante programmi basati su diverse piattaforme. Qualsiasi rappresentazione di un testo su un computer usa una qualche forma di codifica; la TEI è stata creata sia per ovviare alla eccessiva varietà di schemi di codifica tra loro incompatibili (interscambio), sia per il crescente numero di applicazioni utilizzate per i testi in formato elettronico.

18 Principi generali Le Guidelines dovrebbero:
essere in grado di rappresentare le caratteristiche testuali necessarie per la ricerca; essere semplici, chiare e concrete; essere di semplice utilizzazione per i ricercatori senza il ricorso a software specializzati; permettere una definizione rigorosa e un'efficiente elaborazione dei testi; consentire estensioni definite dall'utente; essere conformi agli standard esistenti o in procinto di essere adottati.

19 Tre blocchi dello schema TEI
Per agevolare l’apprendimento e l’impiego dello schema i progettisti della TEI hanno previsto una divisione dello schema di codifica in tre grandi blocchi, ognuno strutturato in frammenti: core tag set cioè gli elementi presenti in tutti i documenti TEI, compresi i metadati; base tag set, suddiviso in prosa, versi, testo drammatico, testi parlati, dizionari, ecc.; additional tag set in cui sono compresi vari frammenti: link, analisi stilistica, gestione di corpora linguistici, trascrizione di fonti primarie, codifica dell’apparato critico, nomi e date, immagini, grafici, diagrammi, alberi, ecc.

20 TEI Lite È stato elaborato anche un sottoinsieme della TEI, denominato TEI Lite, che dovrebbe consentire la diffusione del progetto di codifica, senza impegnare l’utenza ad apprendere lo schema nella sua interezza. Si tratta di una versione semplificata dell’intero schema di codifica che permette di facilitare la realizzazione di testi in formato elettronico tei-compliant. Elenco dei marcatori e degli attributi TEI-Lite (140 circa)

21 Struttura TEI: testo e metadati
Ogni testo codificato conformemente alle specifiche della TEI è costituito da due parti: un TEI header (“testata”), contenente le informazioni editoriali concernenti, a diverso livello, il documento elettronico; un TEI text contenente la trascrizione codificata del testo in versione integrale. Template TEI

22 TEI header Diremo che nella “testata” della TEI sono raccolte tutte le informazioni utili per: descrizione bibliografica del testo elettronico e del suo esemplare originale di riferimento, modalità e caratteristiche della codifica, note non bibliografiche e revisioni. Queste notizie possono definirsi come i metadati della risorsa, cioè le meta-informazioni utili a descrivere il testo elettronico prodotto e il documento materiale utilizzato come esemplare per la trascrizione digitale.

23 Il Frontespizio elettronico
Ogni testo TEI ha una testata che offre informazioni analoghe a quelle fornite dal frontespizio di un testo a stampa. La testata è introdotta dall'elemento <teiHeader> ed è composta da quattro parti principali: <fileDesc> contiene una descrizione bibliografica completa di un file digitale. <encodingDesc> documenta le relazioni tra un testo elettronico e la fonte, o le fonti, da cui è stato tratto. <profileDesc> contiene una descrizione dettagliata degli aspetti non bibliografici di un testo, specificamente le lingue e i dialetti usati, le circostanze in cui è stato prodotto, i partecipanti e il loro ambiente. <revisionDesc> riassume la storia delle revisioni di un documento elettronico. Un esempio da Biblioteca Italiana Es. offline: Dante, De vulgari eloquentia

24 TEI markup Take care of: Some cases of study:
Use of referential canonical edition: text + paratextual elements Metadata: description of the digital text (<TeiHeader> - MAG/DC); description of data source (<SorceDesc> and especially <MsDesc>) Some cases of study: Transcription of primary sources Markup of critical apparatus Semantic annotations

25 Work in progress Each editor one level of annotation Diplomatic transcription (text and images): Quaderno di appunti di Paolo Bufalini Semantic Annotation: Sabadino degli Arienti, Novelle Porrettane Material phenomena and letters structure: Vespasiano da Bisticci, Lettere Association of diplomatic, interpretative and critical edition: Leonardo Bruni, Manoscritto de La prima guerra punica Critical apparatus: Erasmo, Carmina

26 Transcription of primary sources
Levels Gliphs identification (entity references) Sic/corr Orig/reg Abbr/expan Del Add Edition: Diplomatic (conservative). It documents all the material aspects of the source. Interpretative (first level of normalizazion) Critical (editorial intervention) The best markup is one that provides most materials to any kind of editions 1 XML/TEI file ; 3 XSLT files

27 Transcription of primary sources
to et <reg type="SC"> </reg> <choice> <orig>&dTonda;</orig> <reg type="SG">d</reg> </choice> ifficult <choice> <orig>a</orig> <reg type="modernizzazione">à</reg> </choice> <choice> <abbr type="contraction">&iSegnoSopra;</abbr> <expan>in</expan> </choice>

28 Critical apparatus markup
2 levels: Digital form of an existent edition How to show relation between established text and witness Creation of a new scholarly digital edition starting from witness Define the best-text All the witnesses at the same level

29 Apparatus markup: between layout conventions and different scholarly editing approaches (1)
Parallel versions (i.e. for genetic edition). Same stemmatic authority of the witnesses. Possibility: Reconstruct the full-text of each witness of the textual tradition (i.e. click on the sigla). Parallel segmentation method Double-end-point-attached method (milestones = no overlapping)

30 Apparatus markup: between layout conventions and different scholarly editing approaches (2)
Traditional: established text in the body (the lemma), variant readings in apparatus (link in-text). the location-referenced method = via canonical reference scheme

31 Critical apparatus markup
Opera omnia Desiderii Erasmi Roterodami recognita et adnotatione critica instructa notisque illustrata. Ordinis primi tomus septimus (I/7). Carmina, ed. H. Vredeveld, Amsterdam-London-New York-Tokyo 1995, c. 2, vv ). [...] <l n="10">Effoeta anus facit patrem.</l> <l n="11">Est virgo foeta filia,</l> <l n="12">Nepos dei verbum ac <app> <lemm resp=”#EOO”>deus</lemm> <rdg wit=”#K #L”>deus</rdg> <rdg wit=”#Eg”>decus</rdg> </app> </l> <l n="13">Gener pudicus se negat</l>

32 Critical apparatus markup
<xsl:template match="//app" mode="testo"> <xsl:variable name=“lezione"> <xsl:value-of <xsl:text>(</xsl:text> <xsl:value-of select="rdg"/> <xsl:text>:</xsl:text> <xsl:value-of <xsl:text>) </xsl:text> </xsl:variable> <span title="{$lezione}" style="border-bottom: 1px dotted"> <xsl:value-of select="lem"/> </span> </xsl:template>

33 Semantic annotations Narratological analysis
The role of semantic resources – thesauri, controlled vocabulary, authority files for: Normalization of variant forms regarding the same object Terms definitions Associate instances to classes (hyponim, hyperonim) Associate people (named in different ways but brought back to PT via unique key) to event, role, action, quality.


Scaricare ppt "Alcuni casi di studio DTD/Schema TEI P5"

Presentazioni simili


Annunci Google