1 IsaPress. 2 Obiettivo Realizzare uno strumento di facile uso per estrarre il contenuto da documenti binari di vario tipo in un formato utile per l'impaginazione.

Slides:



Advertisements
Presentazioni simili
Introduzione al DTD Mario Arrigoni Neri.
Advertisements

Introduzione ad XML Mario Arrigoni Neri.
Corso FSE II – html a.a Lezione 5. corso fse dinformatica – a.a html html (hypertext markup language) è un linguaggio di markup.
Lezione 1 Primi passi in HtML SCRIVERE TESTI di Sergio Capone
DBMS (DataBase Management System)
Introduzione ai CSS. Cosa è successo allHTML Perché usare i CSS Introduzione ai CSS Fondamenti.
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, La rappresentazione dellinformazione testuale e i linguaggi di codifica.
Esercitazioni Anno Accademico
Progettazione di un sito web
Storia dei fogli di stile
TW Analisi dei documenti n Classificazione dei componenti n Selezione dei componenti, costruzione della gerarchia, dei blocchi informativi e degli elementi.
Microsoft Word (oppure, OpenOffice Writer)‏
Videoscrittura - 3. Informatica 1 SCICOM- a.a. 2010/11 2 Stili Insieme di comandi per la resa tipografica – esempio: Times New Roman 14pt, grassetto,
I file l I File sono l unità base di informazione nellinterazione tra utente e sistema operativo l Un file e costituito da un insieme di byte attinenti.
Laboratorio di Applicazioni Informatiche II mod. A
Linguaggi di marcatura e fogli stile Presentazione del corso.
LHTML è un linguaggio per computer comprensibile da parte dei browser Web Le pagine Web sono scritte in HTML LHTML è necessario sul Web per formattare.
1 Anatomia di una pagina Un insieme di pagine web hanno generalmente una parte invariante (o poco): header, navigazione, footer una parte variabile: contenuti.
IL FORMATO DEI FILE E IL FILETYPE (ESTENSIONE) Formato dei file 10 marzo 2012 Informatica prof. Giovanni Raho anno
Misure di bontà della struttura di un QS La struttura di un qs è definibile in termini di: DIMENSIONE COMPLESSITA EQUILIBRIO 1. Dimensione Si misura con.
Laboratorio di Informatica
Un’introduzione a HTML (I)
Linguaggi di markup1 LINGUAGGI DI MARKUP. Linguaggi di markup2 Documenti su Internet Internet permette (tra laltro) di accedere a documenti remoti In.
Usare Word di Antonio BERNARDO.
Importanza DTD La DTD (Document Type Definition) consente di dichiarare in maniera univoca la struttura di markup mediante la definizione dello schema.
Linguaggi di codifica.
1 IsaPress. 2 Obiettivo Realizzare uno strumento di facile uso per estrarre il contenuto da documenti binari di vario tipo in un formato utile per l'impaginazione.
1 IsaPress. 2 Situazione attuale IsaPress converte documenti htm prodotti da Word in documenti pdf destinati alla stampa, xml e html. Usiamo htm come.
HyperText Markup Language 17-23/6/08 Informatica applicata B Cristina Bosco.
Obiettivi dellinterfaccia Web Una buona interfaccia web deve assolvere a diverse funzioni: far percepire i contenuti permettere di individuare.
Basi di Dati Microsoft Office: Access OpenOffice: Base Informatica 1 (SAM) - a.a. 2010/11.
Videoscrittura - 3 Informatica 1 (SAM) - a.a. 2010/11.
Test Reti Informatiche A cura di Gaetano Vergara Se clicchi sulla risposta GIUSTA passi alla domanda successiva Se clicchi sulla risposta ERRATA passi.
CORSO avanzato INFORMATICA
CORSO AVANZATO INFORMATICA
Microsoft Word (oppure, OpenOffice Writer)‏
V.1 Progettazione Multimediale – 1 Progettazione multimediale HTML e i tag di base.
Progettare un database
Il Sistema Operativo: il File System
HTML per iniziare Gianpaolo Cecere. 29 aprile Sintassi HTML I tag HTML sono direttive per i browser I tag sono contenitori per porzioni di documento.
Corso Informatica di Base Primi passi con MS Word:
QUIZ – PATENTE EUROPEA – ESAME WORD
AA 2009/10 Informatica Introduzione 1 Informatica e Laboratorio di Informatica Il word processor cumenti/biotecnologie.htm.
Strumenti di Presentazione (Microsoft PowerPoint 2000)
Esercitazione Word Scaricare il file lettera_semplice.doc
Il Linguaggio HTML “Profe, ma io a casa l’HTML non ce l’ho!“
Il linguaggio HTML Antonella Schiavon – settembre 2008 rev. 1 – aprile 2011.
HTML HyperText Markup Language Linguaggio per marcare un’Ipertesto
Modulo 6 Test di verifica
Introduzione a Windows Lezione 2 Riccardo Sama' Copyright  Riccardo Sama'
HTML Gli elementi principali di una pagina Web. Titolo: 2  Attribuisce un titolo alla pagina  Il titolo è visibile nella “barra del titolo” del browser.
ITCG “V. De Franchis” - PON FSE Modulo G/1 l’informatica”
Corso Web CSV – Andiamo on-line 1 Andiamo on-line Corso di formazione Elementi base per la costruzione di un sito web.
HTML I tag HTML (parte 1). I tag HTML  I comandi che il browser interpreta  Etichette per marcare l’inizio e la fine di un elemento HTML  Formato e.
Microsoft Word Interfaccia grafica
CORSO Di WEB DESIGN prof. Leonardo Moriello
Creazione di pagine per Internet Brevi note a cura di Emanuele Lana
Corso di Introduzione all’Informatica
Internet e HTML Diffusione di informazioni mediante la rete Internet.
HTML HTML e il web.
HTML e CSS C. Gena, C. Picardi, J. Sproston HTML e CSS.
I FILE I File sono l’ unità base di informazione nell’interazione tra utente e sistema operativo I File sono l’ unità base di informazione nell’interazione.
Fondamenti di Markup Languages: Richiami di HTML © 2005 Stefano Clemente Stefano Clemente
Qualità comunicativa e presentazioni efficaci
ELABORAZIONE TESTI MICROSOFT WORD EM 09.
Informatica Umanistica LM - Scienze del Testo Docente Alessia Scacchi.
Master in Telemedicina HTML per iniziare Maria Simi, dicembre 2004 [da un tutorial di Rigget]
Creazione di pagine per Internet Brevi note a cura di Emanuele Lana
Microsoft Word A cura di Roffo Giorgio. Anteprima di Word Word è un editor di Testo avanzato. Ha moltissime funzioni: –Formato: Carattere, Paragrafo.
HTML. Pagina HTML Struttura Titolo Hello World! Paragrafo apre il documento html contiene informazioni come il titolo della pagina, i meta tags, la codifica.
Transcript della presentazione:

1 IsaPress

2 Obiettivo Realizzare uno strumento di facile uso per estrarre il contenuto da documenti binari di vario tipo in un formato utile per l'impaginazione automatica. Identificare strutture ricorrenti (pattern) di documenti che permettano il passaggio facilitato da un formato all'altro e l'impaginazione omogenea ed indipendentemente dalla fonte del documento.

3 Contenuto - struttura - presentazione Le tre componenti dei documenti testuali: Contenuto: le parole e le immagini che contengono significato in un testo Struttura: le regole di disposizione dei frammenti di contenuto (non disposizione grafica/spaziale ma concettuale, cioè relazione tra gli elementi), e il significato applicato all'esistenza e alle caratteristiche dei frammenti stessi Presentazione: il modo in cui il documento viene presentato (e.g., stampato) per la fruizione definitiva Assunto forte: la struttura influenza fortemente la presentazione (frammenti dello stesso tipo vengono visualizzati nella stessa maniera).

4 Formati interni, HTML, XML Le applicazioni di impaginazione utilizzano spesso formati interni per organizzare le caratteristiche di presentazione e struttura dei documenti. HTML mescola spesso e volentieri presentazione e struttura (eccezione: div e span con l'attributo class). XML ha come filosofia la separazione tra presentazione e contenuto attraverso l'esplicitazione della struttura.

5 Il formato generico Esistono delle strutture ricorrenti (pattern) nei documenti di testo che sono più limitate di quelle possibili con XML, ma più descrittive e chiare che con HTML. Il formato generico cattura tutte e sole le strutture ricorrenti nei documenti veri, senza perdita di generalità ma imponendo limiti ed ordine ai tipi di frammento possibile.

6 Esempi di strutture ricorrenti Contenitori (e.g., sezioni) dotati di titoli e che contengono altri contenitori o blocchi ma non testo. Blocchi (e.g., paragrafi) che non contengono altri blocchi o contenitori, ma testo o elementi inline che non spezzano l'organizzazione orizzontale. Inline (e.g., stili come grassetti e corsivi): sequenze di caratteri senza spezzatura verticale che contengono testo o altri elementi inline, ma non blocchi o contenitori.

7 Dal formato generico a IML IML è un sottoinsieme del formato generico, e che attribuisce alcuni significati agli elementi (titoli, liste, tabelle, link ipertestuali, grassetti e corsivi) mantenendo però la genericità di definire i contenitori, i blocchi e gli inline in maniera libera (markup generalizzato o descrittivo).

8 Gli stili Molti programmi di impaginazione permettono di automatizzare i criteri di presentazione attraverso la creazione di stili. Uno stile è una collezione di regole di presentazione dotato di nome. Scegliendo nomi che rappresentano elementi della struttura possiamo utilizzare uno strumento di presentazione per mantenere informazioni sulle strutture. Gli stili permettono di descrivere la struttura!

9 IsaPress IsaPress ha come scopo identificare nei formati delle applicazioni più comuni quei pattern che permettono di ricondurre i documenti al formato generico. IsaPress utilizza IML, come formato intermedio.

10 IsaPress x Word IsaPress converte documenti htm prodotti da Word in documenti pdf destinati alla stampa, xml e html. Usiamo htm (la versione MS, scorretta e non standard, di HTML) come input a causa della passata incapacità di word di produrre xml.

11 Modello IsaPress effettua questi passaggi: trasforma lhtm in un html ben formato (xhtml); pulisce il codice tenendo solo ciò che è importante;

12 Situazione attuale Word.doc Word.htm Buona forma ISAPRESS Pulizia codice xhtml html pdf xml FORMATO INTERMEDIO

13 HTM di Word Sebbene sia grammaticalmente scorretto, HTM di Microsoft è comunque immediatamente riconducibile al formato generico (e anzi ad IML), e quindi immediatamente utilizzabile per IsaPress: Utilizza contenitori (sezioni), blocchi generalizzati (paragrafi con stile), inline specifici (stili come corsivo e grassetto) e generalizzati (stili di carattere) Mantiene le informazioni di stile (cioe' di struttura) nell'HTM generato ( … )

14 Cosa ci aspettiamo Avere come input documenti xml, o anche, ma è più lungo e difficile, htm e html da mettere in buona forma. Abbiamo pero' bisogno che rimangano informazioni di struttura (e.g., stili), che ci permettano di convertire i documenti in formato generico o addirittura IML. Ampliare il numero di tipologie di documenti supportati da IsaPress.

15 Evoluzione di IsaPress Word.xml ISAPRESS Pulizia codice xhtml Html pdf xml FORMATO INTERMEDIO XPress.xml InDesign.xml OpenOffice.xml ….xml

16 Domande da porsi Per ogni formato di dato considerato: Esiste un formato completo XML specifico? Esiste un tool che lo genera? Esiste la distinzione tra classe, contenuto, presentazione? O almeno esistono le classi di presentazione (stili) definibili dall'utente? Quali vincoli sono imposti sulla struttura? Sono compatibili con il formato generico? Se non esiste, esiste una versione HTML? È ben formata? Contiene informazioni di struttura (classi)? Esiste qualche meccanismo di gestione delle meta informazioni?

17 Conclusioni Bisogna capire come i programmi di impaginazione creano effettivamente la loro versione XML.