TW Analisi dei documenti n Classificazione dei componenti n Selezione dei componenti, costruzione della gerarchia, dei blocchi informativi e degli elementi.

Slides:



Advertisements
Presentazioni simili
WWW XML-Namespace Fabio Vitali. WWW Fabio Vitali2 Introduzione Qui esaminiamo: u Lesigenza e il funzionamento dei Namespace in XML.
Advertisements

Introduzione ad XML Mario Arrigoni Neri.
DBMS (DataBase Management System)
1 Introduzione ad XML. 2 Problemi con SGML Complesso da comprendere ed utilizzare Non è pensato per la rete: mancano link ipertestuali e specifiche grafiche.
Introduzione ai CSS. Cosa è successo allHTML Perché usare i CSS Introduzione ai CSS Fondamenti.
HTML LE PAGINE WEB COME SI SA, INTERNET E UN SISTEMA MONDIALE DI RETI DI COMPUTER CHE PERMETTE DI UTILIZZARE UN SISTEMA DI CONNESSIONE TRA COMPUTER.
PRESENTARE CONSIGLI E IDEE.
Che cosè? Che cosè? Che cosè? Che cosè? Come creare una pagina… Come creare una pagina… Come creare una pagina… Come creare una pagina… inserire testi,immagini,tabelle…
XSLT (eXtensible Stylesheet Language Transformation) Laurea Magistrale in Informatica Reti 2 (2005/06) dott. Francesco De Angelis
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, La rappresentazione dellinformazione testuale e i linguaggi di codifica.
XML Prof. Alfredo Pulvirenti. XML XML (eXtensible Markup Language) è un meta linguaggio. Può essere definito come un insieme di regole e convenzioni che.
5 – Progettazione Concettuale
Atzeni, Ceri, Paraboschi, Torlone Basi di dati McGraw-Hill,
I file l I File sono l unità base di informazione nellinterazione tra utente e sistema operativo l Un file e costituito da un insieme di byte attinenti.
Laboratorio di Applicazioni Informatiche II mod. A
PROVINCIA DI LECCE – AGENZIA DI
Come scrivere una relazione di fisica.
Basi di dati. Vantaggi degli archivi digitali Risparmio di spazio: sono facilmente trasferibili e duplicabili Risparmio di tempo: si può accedere ai dati.
Prof. Giovanni Raho A.A Usabilità Informatica Applicata CDL Scienze della Comunicazione scritta ed ipertestuale.
Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo.
Un’introduzione a HTML (I)
Linguaggi di markup1 LINGUAGGI DI MARKUP. Linguaggi di markup2 Documenti su Internet Internet permette (tra laltro) di accedere a documenti remoti In.
Modello E-R Generalizzazioni
Modello E-R Generalizzazioni
Cos’è un CMS? Content Management System
MACROSCOPI DELLA LETTURA NELLA SCUOLA PRIMARIA
DBMS ( Database Management System)
Namespace Spazio dei nomi Ing. Luca Sabatucci. Scopo I Namespace servono a: I Namespace servono a: distinguere tra elementi e attributi con lo stesso.
1 IsaPress. 2 Obiettivo Realizzare uno strumento di facile uso per estrarre il contenuto da documenti binari di vario tipo in un formato utile per l'impaginazione.
1 IsaPress. 2 Obiettivo Realizzare uno strumento di facile uso per estrarre il contenuto da documenti binari di vario tipo in un formato utile per l'impaginazione.
Linguaggi di schema per XML e modelli astratti di documenti Tesi di Laurea di Daniele Gubellini Relatore: Chiar.mo Prof. Fabio Vitali Bologna, 23 marzo.
Informatica di Base – A.A
HyperText Markup Language 17-23/6/08 Informatica applicata B Cristina Bosco.
CORSO AVANZATO INFORMATICA
HTML Lezione 5 Immagini. URL Un Uniform Resource Locator o URL (Localizzatore di risorsa uniforme) è una sequenza di caratteri che identifica univocamente.
TESSERAMENTO E BREVETTAZIONE ON LINE DA PARTE DELLE SOCIETA’
Paragrafi e allineamenti
Creare pagine web Xhtlm. Struttura di una pagina.
Documenti ben formati La costruzione di pdf accessibili
Il Linguaggio HTML “Profe, ma io a casa l’HTML non ce l’ho!“
Tecniche di accessibilità web Tabelle e form accessibili Le tabelle di dati WCAG 1.0, linea guida 5 Garantire che le tabelle abbiano.
HTML HyperText Markup Language Linguaggio per marcare un’Ipertesto
NIR Presentazione del DTD di NormeInRete Fabio Vitali Università di Bologna & IAT-CNR 31 ottobre 2000.
Esercitazioni di Ingegneria del Software con UML
Writer: Stili Modelli Lezione 03. Modelli di formato e modelli di documento Modelli di formato: Sono gli stili attribuiti al carattere, al paragrafo alle.
Ufficio coordinamento Polo regionale SBN VIA Catalogazione di monografie in Polo e in Indice SBN Treviso, 26 maggio 2010.
HTML Gli elementi principali di una pagina Web. Titolo: 2  Attribuisce un titolo alla pagina  Il titolo è visibile nella “barra del titolo” del browser.
Corso Web CSV – Andiamo on-line 1 Andiamo on-line Corso di formazione Elementi base per la costruzione di un sito web.
HTML I tag HTML (parte 1). I tag HTML  I comandi che il browser interpreta  Etichette per marcare l’inizio e la fine di un elemento HTML  Formato e.
1 Sharpdesk Descrizione generale Editoria ComposerRicerca Elaborazione immagini.
CORSO Di WEB DESIGN prof. Leonardo Moriello
I DBMS BASI DI DATI (DATABASE) Insieme organizzato di dati utilizzati
Word: gli strumenti di formattazione
Le mailing list Giugno Le mailing list Cos’e una mailing list La mailing list corrispondono a un indirizzo di posta elettronica al quale fanno riferimento.
Tecnologie di InternetDocument Type Definition Dott. Nicola Dragoni Document Type Definition  Document Type Definition (DTD)  Documento XML valido 
HTML e CSS C. Gena, C. Picardi, J. Sproston HTML e CSS.
TW Asp - Active Server Pages Nicola Gessa. TW Nicola Gessa Introduzione n Con l’acronimo ASP (Active Server Pages) si identifica NON un linguaggio di.
Basi di dati - Modelli e linguaggi di interrogazione- Paolo Atzeni, Stefano Ceri, Stefano Paraboschi, Riccardo Torlone Copyright © The McGraw-Hill.
Fondamenti di Markup Languages: Richiami di HTML © 2005 Stefano Clemente Stefano Clemente
LTW Annotazioni sul progetto Fabio Vitali. LTW Scopo del progetto Realizzare un sito Web per la lettura e la ricerca di testi e dati su un argomento specifico.
WWW Domande Fabio Vitali. WWW Fabio Vitali2 Domanda 1 Vorrei sapere se quando definiamo un tag a livello di working group, cioè per definire i tag comuni.
Esercitazione no. 4 EXCEL II Laboratorio di Informatica AA 2009/2010.
Ragionare per paradigmi
JoomlaDay Italia Roma Novembre 2009 Alessandro Zaffi
Il riassunto e la parafrasi
IAS 11 Construction Contracts (Commesse su ordinazione) materiale ad uso interno Andaf Il trattamento contabile delle rimanenze è regolamentato dallo.
Il linguaggio HTML Introduzione Formattazione Multimedialità.
1 “ Le Basi di Dati ”. 2 Parte 5: Tabelle –Creazione di una tabella –Indici e chiavi primarie –Relazioni e integrità referenziale Basi di Dati Struttura.
Access Breve introduzione. Componenti E’ possibile utilizzare Access per gestire tutte le informazioni in un unico file. In un file di database di Access.
HTML. Pagina HTML Struttura Titolo Hello World! Paragrafo apre il documento html contiene informazioni come il titolo della pagina, i meta tags, la codifica.
Transcript della presentazione:

TW Analisi dei documenti n Classificazione dei componenti n Selezione dei componenti, costruzione della gerarchia, dei blocchi informativi e degli elementi di dati n Identificazione delle connessioni n Verifica e miglioramento iterativo delle specifiche

TW Perché convengono i linguaggi di markup? La conversione è difficile La conversione è facile Energia / Informazione

TW Classificazione dei componenti n La parte più importante del lavoro di progettazione di unapplicazione SGML è lidentificazione delle strutture e del significato delle parti dei documenti e delle loro relazioni. n Lidentificazione semantica dei componenti avviene quando si evidenzia lesigenza di distinguere tra un tipo di dati ed un altro. n Se due pezzi diversi di un documento contengono lo stesso tipo di informazione, li si deve considerare appartenenti alla stesso componente semantico, anche se sono separati tra loro. n Viceversa, se due pezzi contengono due tipi diversi di informazione, o è necessario distinguerli in qualche maniera per i fini dellapplicazione, allora debbono essere distinti in due componenti semantici separati. n Possiamo distinguere tra tre tipi di classificazione dei componenti di un documento: contenuto, struttura e presentazione.

TW Classificazione basata sul contenuto Si identificano i componenti per il significato che essi hanno, indipendentemente dalla loro posizione nel documento o dal loro aspetto grafico. Ad esempio: u indirizzi, città, codici postali; u ricette, ingredienti, tempi di preparazione; u termini, sviluppo grammaticale, significato.

TW Classificazione basata sulla struttura Si identificano i componenti per il loro ruolo allinterno del documento, per il senso che hanno in quella posizione e in quella forma Ad esempio: u sezioni, capitoli, liste, paragrafi, titoli

TW Classificazione basata sulla presentazione Si identificano i componenti per le variazioni nel modo in cui debbono apparire graficamente, senza implicazioni sul loro vero significato. Ad esempio: u Frasi con un determinato font o dimensione u Blocchi da mantenere sulla stessa pagina u Posti dove spezzare una pagina

TW Caratteristiche delle classificazioni Questi tre modi di classificare i componenti di un documento sono presenti contemporaneamente bellanalisi di un documento. Persone diverse, sugli stessi documenti, possono identificare questa o quella classe a seconda di professione, forma mentis, esigenze. I tre tipi di classificazione hanno anche caratteristiche diverse di identificabilità, flessibilità e durata.

TW Classificazione basata sul contenuto È la classificazione più complessa da realizzare, ma la più flessibile, identificabile, flessibile e duratura. Poiché identifico i componenti basati sul loro significato, è immediato identificare il senso di un componente. La classificazione è indipendente dalla struttura del documento e dallaspetto grafico, così posso cambiare idea su queste decisioni in qualunque momento, e anche fornire soluzioni diverse sugli stessi componenti. Poiché un componente avrà sempre quel significato in qualunque contesto, anche cambiamenti di stile, organizzazione del documento ecc. non impediranno a questa classificazione di sopravvivere.

TW Classificazione basata sulla struttura La classificazione strutturale identifica lorganizzazione di un documento in maniera sufficientemente generale, ma rozza per quel che riguarda il senso del documento. È possibile in qualunque momento modificare la resa grafica degli elementi, ma non il loro ruolo nella struttura globale del documento. Cambiamenti stilistici non preoccupano (il font, la larghezza di un paragrafo, lesistenza o meno di un bordo in una tabella), cambiamenti strutturali importanti invece sì (ad esempio, passare da una forma a lista ad una a tabella, ecc.).

TW Classificazione basata sulla presentazione In generale, ci sono più classi di contenuto che classi di presentazione. Per uniformità grafica e facilità di lettura molti componenti aventi significato diverso vengono resi graficamente nello stesso modo. Lidentificazione delle sole classi grafiche fa sparire immediatamente lidentificabilità di elementi di significato diverso ma resa grafica uguale. Decisione successive di cambiamenti grafici di solo alcuni componenti, e non altri, saranno impossibili. Utilizzi del documento per scopi diversi dalla presentazione (ad esempio, la creazione di un indice, linserimento in un motore di ricerca, ecc.), saranno impossibili.

TW Regole guida per la classificazione Identificare il più possibile i componenti per il loro significato e contenuto. Richiede più lavoro ma ne vale la pena. È necessario, ovviamente, fermarsi ad un livello ragionevole di specificità. Attribuire a questi componenti significati strutturali (tabelle, liste, paragrafi, organizzazioni gerarchiche tipo sezioni, sotto-sezioni, ecc.). Specificare la resa grafica dei componenti. Questultima specificazione tipicamente avviene al di fuori del contesto di SGML, con appositi strumenti e linguaggi di stylesheet.

TW Altri suggerimenti (1) Scartare elementi puramente presentazionali: numero di pagina, elementi che si ripetono pagina dopo pagina (un logo, una decorazione, il nome di un capitolo) possono tipicamente essere aggiunti automaticamente dal formattatore e non è necessario considerarli come componenti del documento. Identificare classi generali di informazioni. Anche se presenti in varie parti del documento, alcune informazioni possono avere lo stesso significato e lo stesso ruolo, e quindi debbono essere identificati nella stessa maniera.

TW Altri suggerimenti (2) Identificare informazioni ripetute in varie parti del documento. Alcune informazioni (nomi propri o di organizzazioni, riferimenti ad immagini, date importanti, elementi ripetuti di una struttura, ecc.) debbono essere presenti in varie parti del testo in maniera identica, e debbono cambiare in maniera coerente. È utile avere un componente unico che registri una sola volta linformazione da stampare, e venga usato ovunque necessario. Identificare i componenti che provengono da sistemi informativi esistenti. Tipicamente un database ha già distinzioni di elementi basate sul contenuto. Se alcune informazioni provengono da un database è comodo e si risparmia tempo usare o basarsi sulla strutturazione dei dati già esistenti nel sistema informativo.

TW Tre grandi dubbi Attributi o elementi? u Nei documenti di testo, la distinzione è spesso chiara: elementi per contenuto, attributi per meta-informazioni. Nell'interscambio di dati è meno chiara: la destinazione di un URL è informazione o metainformazione? Vincoli stretti o laschi? u La tentazione esiste sempre di imporre tutto quello che si può imporre. Tuttavia in XML due possono essere gli obiettivi: F Identificare semanticamente gli elementi (tutti i titoli si chiamano TITOLO) F Uniformare la struttura (tutti gli INDIRIZZO hanno una VIA, un CAP, una CITTA, una PROV). Più è restrittiva la regola, più uniforme è il risultato. u Qual è il vero obiettivo? Descrivere o regolare? Content model misti: sì o no? u I content model misti sono più difficili da trattare, descrivere, regolare. Tuttavia rappresentano una libertà di movimento che è importante lasciare agli autori. u Un elemento fatto per essere letto (ad es. DESCRIZIONE) deve aver content model misto: enfasi, link ipertestuali, elementi semantici individuali, ecc.