1 La Text Encoding Initiative (TEI). 2 La TEI perchè  Proliferazione degli schemi di codifica  Difficoltà per il mondo umanistico ad avere visibilità.

Slides:



Advertisements
Presentazioni simili
INFORMATICA UMANISTICA MODULI B, C E D
Advertisements

Alcuni casi di studio DTD/Schema TEI P5
Introduzione al DTD Mario Arrigoni Neri.
Introduzione ad XML Mario Arrigoni Neri.
Corso FSE II – html a.a Lezione 5. corso fse dinformatica – a.a html html (hypertext markup language) è un linguaggio di markup.
HTML+XML= XHTML Il ritorno al futuro del WEB A cura di Barbara Lotti.
A. FERRARI Alberto Ferrari. L'HyperText Markup Language (HTML) (traduzione letterale: linguaggio di marcatura per ipertesti) è un linguaggio usato per.
Le nuove funzioni della piattaforma Puntoedu lingue.
1 Introduzione ad XML. 2 Problemi con SGML Complesso da comprendere ed utilizzare Non è pensato per la rete: mancano link ipertestuali e specifiche grafiche.
Document Type Definition per XML Presentazione 8.1 Informatica Generale (Prof. Luca A. Ludovico)
DTD Laurea Magistrale in Informatica Chapter 03 Modulo del corso Thecnologies for Innovation.
WEB OF SCIENCE ISI Web of Knowledge
Gli schema W3C Estensione di tipi semplici, scelte fra più elementi, application profiles.
Query OQL e XQUERY a confronto
G. Mecca – – Università della Basilicata Tecnologie di Sviluppo per il Web XML: Dettagli e Approfondimenti versione 2.0 Questo lavoro è
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, La rappresentazione dellinformazione testuale e i linguaggi di codifica.
Biblioteche elettroniche e archivi digitali
4 – Progettazione – Introduzione e Modello E-R
XML Prof. Alfredo Pulvirenti. XML XML (eXtensible Markup Language) è un meta linguaggio. Può essere definito come un insieme di regole e convenzioni che.
TW Analisi dei documenti n Classificazione dei componenti n Selezione dei componenti, costruzione della gerarchia, dei blocchi informativi e degli elementi.
Laboratorio di Applicazioni Informatiche II mod. A
XML Prof. Barbara Pernici Politecnico di Milano. Introduzione a XML.
XML Prof. Barbara Pernici Politecnico di Milano aggiornato 10/12/2002.
Linguaggi di marcatura e fogli stile Presentazione del corso.
E-learning e tecnologia dei learning object:
XML e DTD. –il "PROLOG contiene: dichiarazione della versione di XML; commenti (facoltativi); dichiarazione del DOCUMENT TYPE. –il "DOCUMENT INSTANCE.
Lezione 7 Esempi DTD, TEI Lite
Lezione 5 Attributi, Entità, Parametri e Namespaces.
DTD, Entità, Parametri, Namespace
Open Archives Initiative e Metadata harvesting ICCU Seminario nazionale sui Metadati Roma 3 aprile 2001 Dr. Valdo Pasqui Università di Firenze.
SBN e le nuove regole di catalogazione
g.contardi1 EVOLUZIONE INDICE SBN Uninfrastruttura per i servizi catalografici.
Codifica dei testi in prosa
Introduzione e nozioni fondamentali di sintassi
Modello Relazionale Definisce tipi attraverso il costruttore relazione, che organizza i dati secondo record a struttura fissa, rappresentabili attraverso.
MANUALE DI PEDAGOGIA GENERALE
Esercizio 1 Convertire il seguente DTD (esercizio 1 sui DTD) in XML Schema:
Informatica Umanistica A.A. 2009/2010 eXtensible Markup Language (XML)
Importanza DTD La DTD (Document Type Definition) consente di dichiarare in maniera univoca la struttura di markup mediante la definizione dello schema.
Linguaggi di codifica.
1 Documenti XML validi La Document Type Definition Dichiarazione di elementi.
DTD Schema W3C. Dichiarazione di elementi Dichiarazioni globali Dichiarazioni globali Dichiarazioni locali (figli di altri elementi)
1 IsaPress. 2 Obiettivo Realizzare uno strumento di facile uso per estrarre il contenuto da documenti binari di vario tipo in un formato utile per l'impaginazione.
1 IsaPress. 2 Obiettivo Realizzare uno strumento di facile uso per estrarre il contenuto da documenti binari di vario tipo in un formato utile per l'impaginazione.
Linguaggi di schema per XML e modelli astratti di documenti Tesi di Laurea di Daniele Gubellini Relatore: Chiar.mo Prof. Fabio Vitali Bologna, 23 marzo.
HyperText Markup Language 17-23/6/08 Informatica applicata B Cristina Bosco.
La bibliografia costituita da tutte le fonti (cartacee, multimediali, elettroniche) che si sono usate direttamente e indirettamente consente al lettore.
Andrea Spinelli Linguaggio HTML Lezione 1: Ipertesti Precursori Linguaggi di marcatura Ted Nelson Tim Berners-Lee Strutture di base.
Informatica Umanistica
OBIETTIVI: Introduzione ai driver ODBC Creazione di alcune tabelle del database Creazione query Creazione report Lezione del 13/11/2009 Bray Francesco.
Il linguaggio HTML Antonella Schiavon – settembre 2008 rev. 1 – aprile 2011.
Tecniche di accessibilità web Tabelle e form accessibili Le tabelle di dati WCAG 1.0, linea guida 5 Garantire che le tabelle abbiano.
Introduzione a XML applicazioni in open archives Azalea III Incontro di Formazione, Roma 2-3 febbraio 2004.
Roma, 16 giugno 2005 AZALEA Un sistema di conoscenza in oncologia a disposizione di pazienti e cittadini Gli aspetti informatici.
Creazione di pagine per Internet Brevi note a cura di Emanuele Lana
HTML 4.01 Apogeo. I tag di base Capitolo 1 I tag SintassiEsempi:
Tecnologie di InternetDocument Type Definition Dott. Nicola Dragoni Document Type Definition  Document Type Definition (DTD)  Documento XML valido 
Catalogo: cosa è? Il catalogo è lo strumento principe di mediazione fra la biblioteca e il lettore; registra e comunica le.
HTML HTML e il web.
WWW La sintassi di SGML  XML Fabio Vitali. WWW Fabio Vitali2 Introduzione Qui esaminiamo in breve tutti gli aspetti di SGML che sono in comune con XML:
XSL – 3 –. : crea un nuovo elemento nell’output : crea un nuovo attributo per un elemento dichiarato.
Documenti XML ben formati Altre componenti di un documento XML – Struttura dei documenti XML.
Documenti XML ben formati Entità– Sezioni condizionali.
La conservazione dei documenti informatici delle pubbliche amministrazioni Agenzia per l’Italia Digitale Roma, 27 maggio 2015.
Creazione di pagine per Internet Brevi note a cura di Emanuele Lana
La conservazione dei documenti informatici delle pubbliche amministrazioni Enrica Massella Ducci Teri Roma, 27 maggio 2015.
2 Indice Un esempio Che cosa è A cosa serve Confronto con HTML Punti di forza La sua struttura.
Catalogazione La catalogazione si occupa
Dal problema al programma – ciclo di sviluppo del software La scrittura del programma è solo una delle fasi del processo di sviluppo di un'applicazione.
DEPOSITO BILANCI IN FORMATO XBRL AL REGISTRO IMPRESE Introduzione al corso del 7 aprile 2010 Aspetti normativi.
Transcript della presentazione:

1 La Text Encoding Initiative (TEI)

2 La TEI perchè  Proliferazione degli schemi di codifica  Difficoltà per il mondo umanistico ad avere visibilità informatica  Confrontabilità dei dati

3 La TEI quando  nata nel 1986  2000 trasformazione in consorzio

4 La TEI chi  Un gruppo internazionale di studiosi  Association for Computing and the Humanities (ACH)  Association for Computational Linguistic (ACL)  Association for Literary and Linguistic Computing (ALLC)

5 La TEI oggi  sede legale presso l’CNRS di Nancy in Francia  Università di Oxford  Brown University  Università della Virginia.

6 La TEI cosa  maggio 1994 pubblicazione della prima versione completa e stabile delle Guidelines for Text Encoding and Interchange (TEI P3).  SGML  2000 TEI P4  SGML/XML  2006? TEI P5  XML (schema)  Il sito:

7 La codifica TEI  predilezione per un markup di tipo dichiarativo-strutturale  anche dei marcatori più specifici o procedurali, utilizzabili quando la scelta del markup descrittivo non è praticabile senza introdurre problemi

8 Le Guidelines   fornire un formato standard per l’interscambio di informazioni  fornire una guida per la codifica in questo formato  supportare la codifica di tutti i tipi di caratteristiche di ogni genere di testo  essere indipendente dalle applicazioni Ergo 

9  la scelta di SGML, XML e ISO 646 (P5: UTF-8)  la preparazione di un ampio set di tag predefiniti  la distinzione fra codifica richiesta, raccomandata e opzionale  la codifica per diverse interpretazioni del testo  la presenza di codifiche alternative per la stessa caratteristica testuale  la creazione di un sistema per estensioni dello schema definite dall’utente

10 le Guidelines non danno suggerimenti o restrizioni quanto all’importanza relativa delle caratteristiche del testo. La filosofia delle Guidelines è “se vuoi codificare questa caratteristica, fallo in questo modo”. Poche delle indicazioni sono vincolanti a priori.

11 Struttura della DTD TEI  insiemi di elementi generici che possono comparire in ogni tipo di testo (core tag sets)  insiemi di elementi specifici per vari tipi fondamentali di documenti: testo in prosa, testo in versi, testo drammatico, dizionari o trascrizione di registrazioni verbali (base tag sets)  insiemi di elementi per la rappresentazioni di caratteristiche evidenziate da particolari prospettive analitiche ed applicazioni specializzate: codifica di fonti primarie (manoscritti) e di apparati di varianti, codifica di strutture morfosintattiche, rappresentazione di strutture interpretative profonde, rappresentazione di strutture ipertestuali (additional tag sets)  insiemi di elementi per esigenze di codifica ausiliarie e specializzate, come la documentazione dello schema di codifica, o la dichiarazione di particolari sistemi di scrittura (auxiliary DTD).

12 Le “viste”  Un utente può costruire la propria “vista” (view) della DTD combinando l’insieme degli elementi che ritiene di dover utilizzare nel proprio lavoro  La DTD TEI è modulare e parametrizzata, vale a dire che raggruppa gli elementi, gli attributi e persino i content models (o porzioni degli stessi), in classi

13 Parametrizzata ≠ compilata 1. Di più facile manutenzione 2. Di più difficile lettura 3. Di più facile implementazione 4. Di più difficile comprensione

14 L’elemento <![ %p; [ <!ATTLIST %n.p; %a.global; TEIform CDATA 'p' > ]]>

15 L’elemento, ancora... <!ELEMENT p (#PCDATA | ident | code | kw | abbr | address | date | name | num | rs | time | add | corr | del | orig | reg | sic | unclear | formula | emph | foreign | gloss | hi | mentioned | soCalled | term | title | ptr | ref | xptr | xref | s | seg | gi | eg | bibl | biblFull | figure | cit | q | label | list | listBibl | note | stage | table | text | anchor | gap | index | interp | interpGrp | lb | milestone | pb)* > <!ATTLIST p corresp IDREFS #IMPLIED next IDREF #IMPLIED prev IDREF #IMPLIED ana IDREFS #IMPLIED id ID #IMPLIED n CDATA #IMPLIED lang IDREF #IMPLIED rend CDATA #IMPLIED TEIform CDATA "p" >

16 Compilare le DTD  Cosa mettiamo nella pizza?

17 Progetti che usano TEI  Elenco TEI Elenco TEI  Biblioteca Italiana Biblioteca Italiana  Laboratori Linguistica Laboratori Linguistica  Bivio Bivio

18 TEI Lite   In italiano:  Una “vista” adatta a tutti i gusti (più o meno…)  Un sottoinsieme ragionato della DTD estesa  Adatta per le esigenze poste da progetti di codifica di corpus testuali e dalle creazioni di vasti archivi documentali  È meno adeguata per la codifica di testi a fini di ricerca specifica

19 I metadati: il teiHeader  il tipo di testo codificato  la fonte  il tipo di codifica adottato  il responsabile della codifica  le successive revisioni del testo.

20 4 parti  una descrizione del file, marcata  OBBLIGATORIO  una descrizione della codifica, marcata  un profilo del testo, marcato  una cronologia delle revisioni, marcata

21 Il minimo… Il Canzoniere di Petrarca: versione elettronica Università degli Studi di Pisa Testo esemplato sull'edizione critica curata da G. Contini

22 Il teiHeader Un esempio complesso: Edizione critica del primo atto della ToscaEdizione critica del primo atto della Tosca

23 Il teiHeader: elementi fondamentali (per l’esame)  Titolo del documento, autore, responsabile della codifica:  Responsabile della distribuzione del documento  Descrizione della fonte  Descrizione delle lingue del testo:  Storia del documento

24 Testi unitari e testi compositi  Testo unitario: Promessi Sposi  Testo composito: Opere complete di Giordano Bruno  Testo ???: antologia

25 Struttura testi TEI  contiene un singolo testo di qualsiasi tipo, unitario o composito, per esempio una poesia, un testo drammatico, una raccolta di saggi, un romanzo, un dizionario, un corpus.  contiene qualsiasi materiale prefatorio (intestazione, frontespizio, prefazioni, dedicatorie, ecc.) che si incontra prima dell’inizio del testo vero e proprio.  contiene il corpo di un singolo testo unitario, escluso qualsiasi materiale preliminare o finale.  contiene qualsiasi tipo di appendici, indici, ecc. che seguono la parte principale del testo.  contiene il corpo di un testo composito, raggruppando sequenze di testi distinti, che sono considerabili in ogni caso come legati fra di loro (ad esempio la raccolta delle opere di un autore, una sequenza di saggi, ecc). L’elemento deve contenere almeno un elemento, a sua volta contenente almeno l’elemento ed eventualmente gli elementi e.

26 Struttura testo unitario

27 Struttura testo composito

28 Modello di codifica 1. Testo in prosa 2. Possibilità di collegare parti diverse 3. Inserimento di immagini 4. Marcatura di nomi di persona, di luogo, date 5. Analisi linguistica

29 Modello di codifica: vista TEI Es: <!DOCTYPE TEI.2 PUBLIC "-//TEI Consortium//DTD TEI P4//EN" " tei2.dtd" [ ]>