Lezione 8 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università

Slides:



Advertisements
Presentazioni simili
I Namespace Mario Arrigoni Neri.
Advertisements

Introduzione all’HTML
WWW XML-Namespace Fabio Vitali. WWW Fabio Vitali2 Introduzione Qui esaminiamo: u Lesigenza e il funzionamento dei Namespace in XML.
DTD Document Type Definition per XML
Introduzione al DTD Mario Arrigoni Neri.
Introduzione ad XML Mario Arrigoni Neri.
Lezione 1 Primi passi in HtML SCRIVERE TESTI di Sergio Capone
A. FERRARI Alberto Ferrari. L'HyperText Markup Language (HTML) (traduzione letterale: linguaggio di marcatura per ipertesti) è un linguaggio usato per.
Introduzione alla programmazione A. Ferrari. Il linguaggio C Nel 1972 Dennis Ritchie nei Bell Laboratories progettò il linguaggio C Il linguaggio possiede.
1 Introduzione ad XML. 2 Problemi con SGML Complesso da comprendere ed utilizzare Non è pensato per la rete: mancano link ipertestuali e specifiche grafiche.
Lezione 18 MIDI e XML Programmazione MIDI (Prof. Luca A. Ludovico)
Document Type Definition per XML Presentazione 8.1 Informatica Generale (Prof. Luca A. Ludovico)
DTD Laurea Magistrale in Informatica Chapter 03 Modulo del corso Thecnologies for Innovation.
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, La rappresentazione dellinformazione testuale e i linguaggi di codifica.
XML Prof. Alfredo Pulvirenti. XML XML (eXtensible Markup Language) è un meta linguaggio. Può essere definito come un insieme di regole e convenzioni che.
TW Analisi dei documenti n Classificazione dei componenti n Selezione dei componenti, costruzione della gerarchia, dei blocchi informativi e degli elementi.
I file l I File sono l unità base di informazione nellinterazione tra utente e sistema operativo l Un file e costituito da un insieme di byte attinenti.
Laboratorio di Applicazioni Informatiche II mod. A
XML Prof. Barbara Pernici Politecnico di Milano. Introduzione a XML.
XML Prof. Barbara Pernici Politecnico di Milano aggiornato 10/12/2002.
XHTML Danilo Deana. XHTML2 XHTML (eXtensible HyperText Markup Language) XHTML è una riformulazione di HTML come applicazione XML. Utilizzando XHTML è
XML e DTD. –il "PROLOG contiene: dichiarazione della versione di XML; commenti (facoltativi); dichiarazione del DOCUMENT TYPE. –il "DOCUMENT INSTANCE.
Lezione 5 Attributi, Entità, Parametri e Namespaces.
DTD, Entità, Parametri, Namespace
Introduzione e nozioni fondamentali di sintassi
Linguaggi di markup1 LINGUAGGI DI MARKUP. Linguaggi di markup2 Documenti su Internet Internet permette (tra laltro) di accedere a documenti remoti In.
Lezione 6 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università
Lezione 5 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università
informatica di base per le discipline umanistiche
informatica di base per le discipline umanistiche
Lezione 8 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università
informatica di base per le discipline umanistiche
Lezione 7 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università
Espressioni condizionali
INSIEMI NUMERABILI L’analisi matematica introduce il concetto di insieme numerabile come insieme i cui elementi possono essere “contati” ossia che possiede.
Esercizio 1 Convertire il seguente DTD (esercizio 1 sui DTD) in XML Schema:
Corso di PHP.
XSLT Trasformazioni XSL Ing. Luca Sabatucci. XSLT Uno dei vantaggi principali nell'utilizzo dell'Extensible Markup Language è la facilità con cui si possono.
Informatica Umanistica A.A. 2009/2010 eXtensible Markup Language (XML)
Importanza DTD La DTD (Document Type Definition) consente di dichiarare in maniera univoca la struttura di markup mediante la definizione dello schema.
1 Documenti XML validi La Document Type Definition Dichiarazione di elementi.
1 IsaPress. 2 Obiettivo Realizzare uno strumento di facile uso per estrarre il contenuto da documenti binari di vario tipo in un formato utile per l'impaginazione.
1 IsaPress. 2 Obiettivo Realizzare uno strumento di facile uso per estrarre il contenuto da documenti binari di vario tipo in un formato utile per l'impaginazione.
HyperText Markup Language 17-23/6/08 Informatica applicata B Cristina Bosco.
CAP. 2 ANALISI LESSICALE 2.1 Il ruolo dell'analizzatore lessicale
HTML Lezione 5 Immagini. URL Un Uniform Resource Locator o URL (Localizzatore di risorsa uniforme) è una sequenza di caratteri che identifica univocamente.
Lo sviluppo del software e i linguaggi di programmazione
Creare pagine web Xhtlm. Struttura di una pagina.
Fopndamenti di programmazione. 2 La classe String Una stringa è una sequenza di caratteri La classe String è utilizzata per memorizzare caratteri La classe.
Il linguaggio HTML Antonella Schiavon – settembre 2008 rev. 1 – aprile 2011.
HTML HyperText Markup Language Linguaggio per marcare un’Ipertesto
Introduzione a XML applicazioni in open archives Azalea III Incontro di Formazione, Roma 2-3 febbraio 2004.
Programma delle lezioni LABORATORIO B  Lezione 01: 27/02martedi  Lezione 02: 06/03martedi  Lezione 03: 13/03martedi  Lezione 04:
Informatica Umanistica A.A. 2007/2008 LEZIONE 4 eXtensible Markup Language (XML) INTRODUZIONE.
XHTML Corso linguaggi per il web a.s. 2011/2012 ITIS A. Righi – Corsico Relatore – Aldo Guastafierro.
Lezione 3 Struttura lessicale del linguaggio
CORSO Di WEB DESIGN prof. Leonardo Moriello
Creazione di pagine per Internet Brevi note a cura di Emanuele Lana
Internet e HTML Diffusione di informazioni mediante la rete Internet.
Introduzione a Javascript
Tecnologie di InternetDocument Type Definition Dott. Nicola Dragoni Document Type Definition  Document Type Definition (DTD)  Documento XML valido 
IV D Mercurio DB Lezione 2
PROGETTO… Internet Providers, registrazione del dominio Costruire una home page … e renderla visibile sul Web.
Fondamenti di Markup Languages: Richiami di HTML © 2005 Stefano Clemente Stefano Clemente
Cenni Su SGML, HTML, XML SGML (Standard Generalized Markup Language) è il padre di tutti i linguaggi "Markup" – Lo svantaggio è la "pesantezza" dei suoi.
WWW La sintassi di SGML  XML Fabio Vitali. WWW Fabio Vitali2 Introduzione Qui esaminiamo in breve tutti gli aspetti di SGML che sono in comune con XML:
Creazione di pagine per Internet Brevi note a cura di Emanuele Lana
2 Indice Un esempio Che cosa è A cosa serve Confronto con HTML Punti di forza La sua struttura.
DIPARTIMENTO DI ELETTRONICA E INFORMAZIONE Algoritmi e basi del C Marco D. Santambrogio – Ver. aggiornata al 24 Agosto 2015.
HTML. Pagina HTML Struttura Titolo Hello World! Paragrafo apre il documento html contiene informazioni come il titolo della pagina, i meta tags, la codifica.
Transcript della presentazione:

lezione 8 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia

lezione 8 ottava lezione testo e struttura: unintroduzione all XML vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università di Pavia

lezione 8 dal punto di vista del calcolatore il testo è una sequenza di caratteri alfabetici intervallati da separatori, come ad esempio lo spazio bianco o un segno di interpunzione, e caratteri di scorrimento (o controllo) del testo, come ad esempio il ritorno carrello (carriage return, per tornare accapo) e il comando nuova riga (line feed, per spostarsi sulla riga successiva) per noi, invece, il testo è molto di più di una semplice sequenza di caratteri alfabetici, separatori e caratteri di controllo (dati) dati e struttura

lezione 8 il testo è innanzitutto struttura (informazione) ciascun elemento costitutivo dei dati testuali entra a far parte di un elemento più grande: i caratteri formano sillabe, le sillabe parole, le parole frasi, le frasi paragrafi, i paragrafi capitoli ecc. i capitoli si compongono a loro volta di numero, titolo e corpo del testo le frasi si compongono di sequenze di parole semanticamente coese dette sintagmi le stesse parole presentano al loro interno costituenti più piccoli solitamente chiamati morfemi dati e struttura (II)

lezione 8 nel testo (come nel linguaggio) questa struttura è quasi sempre implicita ad esempio, ogni parola del testo non mostra la sua struttura morfemica interna; analogamente, una frase del testo non presenta esplicitamente la sua segmentazione in costituenti sintagmatici il calcolatore è in grado di cogliere questa struttura implicita del testo solo se: conosce le regole che la governano (o il codice sottostante), oppure questa struttura è rappresentata esplicitamente nel testo dati e struttura (III)

lezione 8 è possibile, ad esempio, fornire al calcolatore una serie di regole formali che definiscono classi possibili di parole, di sintagmi, di frasi, di capitoli ecc. espressioni regolari formate da sequenze di categorie grammaticali (del tipo art agg n) possono essere usate per definire i sintagmi grammaticalmente corretti della lingua italiana sn -> (predet) (art) (avv)* (agg) nome !(art predet agg nome) linsieme di queste regole definisce quella che viene chiamata grammatica del testo ogni livello di analisi linguistica del testo ha la sua grammatica: esiste una grammatica morfologica per la struttura interna delle parole, una grammatica sintattica per la struttura delle frasi in costituenti, e così via dati e grammatiche

lezione 8 in alternativa, è possibile codificare linformazione relativa alla struttura dei dati testuali direttamente nel testo, mediante luso di un linguaggio di annotazione o linguaggio di mark-up lXML (eXtensible Markup Language) è il più famoso tra questi linguaggi lXML è nato per rispondere allesigenza di accompagnare i dati testuali con una serie di glosse o commenti che servono a rendere esplicite le relazioni che intercorrono tra i dati stessi dal momento che le glosse hanno la funzione di convogliare informazione riguardo ai dati testuali in senso stretto, questa informazione viene anche definita come meta-dati (dati sui dati) i meta-dati coprono unampia gamma di informazioni, anche estremamente eterogenee, che vanno dalla data di creazione del testo, al suo formato e al suo autore, ad una rappresentazione esplicita del suo contenuto dati e glosse

lezione 8 un semplice esempio Rachele Vito pro memoria ricorda di portare il cd! elemento semplice elemento complesso dati etichetta

lezione 8 ricorda, non cè niente di automatico che XML possa fare aldilà di strutturare linformazione implicitamente presente nel testo è necessario scrivere dei programmi che utilizzino queste informazioni in modo coerente e conforme ad uno scopo la forza di XML sta proprio in questa sua indipendenza da una particolare applicazione o piattaforma software XML è solo informazione

lezione 8 non esiste un repertorio pre-definito di etichette XML ciascuno è libero di definire il suo insieme di etichette in modo del tutto autonomo, così come può inventare la propria struttura di dati etichettati da questo punto di vista, XML è un meta-linguaggio di annotazione, nel senso che può essere usato per definire un linguaggio di annotazione vero e proprio inoltre dei documenti in XML sono espandibili, dal momento che uno può aggiungere nuovi metadati senza alterare né i dati originari, né i metadati pre-esistenti XML è informazione aperta

lezione 8 supponiamo che il nostro messaggio codificato in XML possa essere interpretato da unapplicazione di interfaccia, che lo legge come segue: XML è informazione espandibile MESSAGE To: Vito From: Rachele heading: pro-memoria ricorda di portare il cd!

lezione 8 supponiamo inoltre di aver arricchito il nostro messaggio codificato in XML, in modo tale che possa essere indicata anche la data: XML è espandibile (II) Rachele Vito pro memoria ricorda di portare il cd!

lezione 8 lapplicazione originaria continuerà ad interpretare correttamente il nostro nuovo messaggio, ignorando tuttavia il dato annotato, di cui non conosce la traduzione attraverso linterfaccia: XML è espandibile (III) MESSAGE To: Vito From: Rachele heading: pro-memoria ricorda di portare il cd!

lezione 8 lobiettivo primario di XML è quello di convogliare informazione in un modo che sia indipendente da una particolare applicazione o piattaforma software il suo uso principale è come formato di interscambio dei dati, o per la creazione di dati condivisi, o per la loro memorizzazione in una base di dati a cosa serve?

lezione 8 un tipico documento in XML si compone di unintestazione o dichiarazione, cui segue una serie di elementi XML semplici o complessi documenti XML Rachele Vito pro memoria ricorda di portare il cd! dichiarazione elementi

lezione 8 un elemento di XML incomincia con unetichetta di XML aperta e finisce con letichetta chiusa corrispondente: dati dove X sta per una qualsiasi stringa di caratteri ricorda: in unetichetta XML, un carattere minuscolo e il suo corrispondente maiuscolo sono due lettere diverse: elemento sbagliato non rappresenta un elemento XML corretto, in quanto le etichette di apertura e quella di chiusura non sono identiche sintassi XML di base

lezione 8 due elementi XML possono essere annidati luno nellaltro: questo è il testo del messaggio … lelemento testo è contenuto nellelemento messaggio per indicare che il testo questo è il testo del messaggio … è proprio il testo di quel messaggio lelemento più esterno è detto elemento genitore, quello interno elemento figlio nota: tutto questo può sembrare ovvio e un po barocco, ma ci consente, tra le altre cose, di scrivere nello stesso documento più messaggi senza confonderli tra loro relazione tra elementi XML

lezione 8 genitori con più figli: vito questo è il testo del messaggio … diremo che lelemento e lelemento sono fratelli, in quanto figli dello stesso genitore relazione tra elementi XML (II)

lezione 8 più generazioni di elementi: 15 maggio 2003 vito questo è il testo del messaggio … relazione tra elementi XML (III) figli di figli

lezione 8 un elemento XML può essere introdotto per specificare il formato di un testo vito questo è il testo del messaggio … ruolo di un elemento XML vito è in grassetto il testo è in corsivo

lezione 8 la relazione di inclusione tra due elementi annidati deve essere sempre propria: esempio di annidamento improprio vito relazione tra due elementi annidati … ma si chiude prima si apre prima di

lezione 8 ogni documento XML ben formato deve contenere un elemento che contiene tutti gli altri elementi (elemento radice): esempio di documento senza radice vito questo è il testo del messaggio … in altre parole, un documento XML non può contenere più di un orfano (lelemento radice è per definizione un orfano, ma è isolato) elemento radice

lezione 8 ogni documento XML può contenere una o più note a margine dette anche, in gergo tecnico, commenti questo tipo di note non riguardano direttamente i dati da annotare, e come tali sono ignorate da eventuali applicazioni possono fornire tuttavia informazioni preziose riguardo alle intenzioni dellannotatore, a suoi eventuali dubbi, pro-memoria ecc. Il loro destinatario è tipicamente un lettore umano esempio di nota a margine vito questo è il testo del messaggio … nota a margine

lezione 8 ogni elemento XML può essere definito da una o più coppieattributo/valore: esempio vito questo è il testo del messaggio … anatomia di un elemento XML nome attributo valore attributo (CDATA) etichetta dato (PCDATA)

lezione 8 etichetta di un elemento e nome di un attributo sono soggetti alle stesse restrizioni, sono cioè dello stesso tipo nome XML: un nome XML valido contiene soltanto: cifre caratteri alfabetici latini e non latini _ (sottolineatura). - (punto e trattino) ma non come primo carattere! i dati sono di TIPO PCDATA (parsed character data), così chiamati perché sono i dati orginari che un programma elabora (il resto sono glosse XML sui dati) i valori di un attributo rientrano in una tipologia molto precisatipologia anatomia di un elemento XML (II) (per saperne di più clicca sulle parole sottolineate!)

lezione 8 ad ogni attributo deve essere assegnato al massimo un valore (in genere, un attributo non può ricevere una lista di valori) ogni valore deve essere scritto tra virgolette (doppie o semplici) nel caso in cui un valore contenga al suo interno delle virgolette, allora diventa obbligatorio differenziarle da quelle più esterne esempio Oscar Wilde testo del documento … valori di un attributo

lezione 8 un attributo può essere qualsiasi cosa in teoria, sarebbe possibile codificare qualsiasi elemento come un attributo o un insieme di attributi esempio cosè un attributo?

lezione 8 in pratica, un attributo non è un contenitore di dati (giacché questa funzione è assolta da un elemento XML), ma una glossa dei dati più tecnicamente, luso indiscriminato di attributi presenta alcuni svantaggi: un attributo non può contenere dati multipli un attributo non può descrivere strutture complesse è consigliabile che un attributo assuma un numero finito o sufficientemente piccolo di valori; pertanto non è espandibile ad libitum eccezione apparente: è buona pratica usare un attributo come identificatore univoco di un elemento; in questo caso lattributo non è altro che un contatore cosè un attributo? (II)

lezione 8 non sempre la flessibilità assoluta nella codifica degli elementi XML è una pratica consigliabile a volte può essere causa di errori involontari, quando ad esempio attribuiamo ad un elemento XML una struttura interna diversa da quella inizialmente prevista, generando in questo modo dati annotati che sono tra loro incoerenti supponiamo, ad esempio, di voler costruire una lista di persone dotate di un nome e cognome e di una o più professioni: Pablo Picasso pittore la flessibilità ha un limite

lezione 8 è consigliabile, in questo caso, descrivere la struttura dellelemento una volta per tutte, attraverso una apposita Dichiarazione di Tipo di Dati (DTD), introducendo dei vincoli sul modo in cui linformazione relativa a una persona specifica deve essere annotata esempio <!DOCTYPE persona [ ]> Data Type Declaration (DTD)

lezione 8 Data Type Declaration (DTD) identità anagrafica nomecognome persona professione* parsed character data

lezione 8 nella definizione di un elemento XML è consentito usare con certe restrizioni la sintassi delle espressioni regolari per definire strutture di annidamento anche complesse esempio DTD ed espressioni regolari

lezione 8 allinterno di documenti di tipo narrativo un singolo elemento XML spesso contiene sia elementi figli sia dati di tipo carattere. esempio allinterno di documenti di tipo narrativo un singolo elemento XML spesso contiene sia elementi figli sia dati di tipo carattere elementi con contenuto misto

lezione 8 è possibile dichiarare il contenuto dellelemento come misto nel seguente modo esempio allinterno di documenti di tipo narrativo un singolo elemento XML spesso contiene sia elementi figli sia dati di tipo carattere elementi con contenuto misto (II)

lezione 8 questa DTD può essere salvata in un documento indipendente (con estensione dtd) e richiamata dallinterno della lista di persone attraverso un identificatore univoco (o URI Uniform Resource Identifier), rappresentato dal nome del documento.dtd e dal suo path: esempio Pablo Picasso pittore Dichiarazione tipo dati (DTD)

lezione 8 oltre a dichiarare la struttura di un elemento XML se ne possono dichiarare anche gli attributi, specificando il loro nome, il tipo di valori e il loro status (obbligatori o opzionali) esempio <!ATTLIST destinatariosesso (maschile|femminile) #REQUIRED stato (coniugato|coniugata|celibe|nubile) #IMPLIED infoCDATAno info> Dichiarazione di attributi nome attributo nome elemento tipo generico enumerazione valori ammissibili obbligatorio valore di default opzionale

lezione 8 principali tipi di valori di un attributo CDATA dati di tipo carattere* (en1|en2|..)il valore è un elemento di una lista disgiuntiva IDil valore è un identificatore univoco IDREFil valore è un riferimento a un ID IDREFS il valore è una lista di riferimenti a ID° NMTOKEN il valore è un nome XML valido** NMTOKENSil valore è una lista di NMTOKEN° ENTITYil valore è labbreviazione di un testo ENTITIESil valore è una lista di ENTITY° *è il tipo di valori meno restrittivo (non può tuttavia includere i caratteri < e &) °idrefs, nmtokens ed entities sono le sole liste possibili come valori di un attributo ** a differenza di un nome XML, tuttavia, NMTOKEN può iniziare con un punto o un trattino

lezione 8 XML su internet

lezione 8 fine ottava e ultima lezione ringraziamenti (fonti e link utili) "Introduzione ai sistemi informatici, 2/ed (D. Sciuto, G. Buonanno, W. Fornaciari, L. Mari) Informatica di base (Curtin D.P., Foley K., Sen K., Morin C.) Basi di Dati(Paolo Atzeni, Stefano Ceri, Stefano Paraboschi, Riccardo Torlone) ottava lezione testo e commenti: unintroduzione all XML