1 IsaPress. 2 Obiettivo Realizzare uno strumento di facile uso per estrarre il contenuto da documenti binari di vario tipo in un formato utile per l'impaginazione.

Slides:



Advertisements
Presentazioni simili
Introduzione al DTD Mario Arrigoni Neri.
Advertisements

Introduzione ad XML Mario Arrigoni Neri.
Corso FSE II – html a.a Lezione 5. corso fse dinformatica – a.a html html (hypertext markup language) è un linguaggio di markup.
Lezione 1 Primi passi in HtML SCRIVERE TESTI di Sergio Capone
DBMS (DataBase Management System)
Introduzione ai CSS. Cosa è successo allHTML Perché usare i CSS Introduzione ai CSS Fondamenti.
HTML LE PAGINE WEB COME SI SA, INTERNET E UN SISTEMA MONDIALE DI RETI DI COMPUTER CHE PERMETTE DI UTILIZZARE UN SISTEMA DI CONNESSIONE TRA COMPUTER.
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, La rappresentazione dellinformazione testuale e i linguaggi di codifica.
Esercitazioni Anno Accademico
Progettazione di un sito web
Storia dei fogli di stile
TW Analisi dei documenti n Classificazione dei componenti n Selezione dei componenti, costruzione della gerarchia, dei blocchi informativi e degli elementi.
Microsoft Word (oppure, OpenOffice Writer)‏
Videoscrittura - 3. Informatica 1 SCICOM- a.a. 2010/11 2 Stili Insieme di comandi per la resa tipografica – esempio: Times New Roman 14pt, grassetto,
I file l I File sono l unità base di informazione nellinterazione tra utente e sistema operativo l Un file e costituito da un insieme di byte attinenti.
Laboratorio di Applicazioni Informatiche II mod. A
Linguaggi di marcatura e fogli stile Presentazione del corso.
LHTML è un linguaggio per computer comprensibile da parte dei browser Web Le pagine Web sono scritte in HTML LHTML è necessario sul Web per formattare.
1 Anatomia di una pagina Un insieme di pagine web hanno generalmente una parte invariante (o poco): header, navigazione, footer una parte variabile: contenuti.
IL FORMATO DEI FILE E IL FILETYPE (ESTENSIONE) Formato dei file 10 marzo 2012 Informatica prof. Giovanni Raho anno
Laboratorio di Informatica
Un’introduzione a HTML (I)
Linguaggi di markup1 LINGUAGGI DI MARKUP. Linguaggi di markup2 Documenti su Internet Internet permette (tra laltro) di accedere a documenti remoti In.
Usare Word di Antonio BERNARDO.
Importanza DTD La DTD (Document Type Definition) consente di dichiarare in maniera univoca la struttura di markup mediante la definizione dello schema.
Linguaggi di codifica.
1 IsaPress. 2 Obiettivo Realizzare uno strumento di facile uso per estrarre il contenuto da documenti binari di vario tipo in un formato utile per l'impaginazione.
1 IsaPress. 2 Situazione attuale IsaPress converte documenti htm prodotti da Word in documenti pdf destinati alla stampa, xml e html. Usiamo htm come.
HyperText Markup Language 17-23/6/08 Informatica applicata B Cristina Bosco.
Obiettivi dellinterfaccia Web Una buona interfaccia web deve assolvere a diverse funzioni: far percepire i contenuti permettere di individuare.
Videoscrittura - 3 Informatica 1 (SAM) - a.a. 2010/11.
Test Reti Informatiche A cura di Gaetano Vergara Se clicchi sulla risposta GIUSTA passi alla domanda successiva Se clicchi sulla risposta ERRATA passi.
CORSO avanzato INFORMATICA
CORSO AVANZATO INFORMATICA
Microsoft Word (oppure, OpenOffice Writer)‏
V.1 Progettazione Multimediale – 1 Progettazione multimediale HTML e i tag di base.
Progettare un database
Il Sistema Operativo: il File System
HTML per iniziare Gianpaolo Cecere. 29 aprile Sintassi HTML I tag HTML sono direttive per i browser I tag sono contenitori per porzioni di documento.
Internet Explorer I preferiti Stampa di pagine web Salvataggio di pagine web Copia di elementi di pagine web in altri applicativi.
Corso Informatica di Base Primi passi con MS Word:
AA 2009/10 Informatica Introduzione 1 Informatica e Laboratorio di Informatica Il word processor cumenti/biotecnologie.htm.
Strumenti di Presentazione (Microsoft PowerPoint 2000)
Esercitazione Word Scaricare il file lettera_semplice.doc
Il Linguaggio HTML “Profe, ma io a casa l’HTML non ce l’ho!“
Il linguaggio HTML Antonella Schiavon – settembre 2008 rev. 1 – aprile 2011.
HTML HyperText Markup Language Linguaggio per marcare un’Ipertesto
Introduzione a Windows Lezione 2 Riccardo Sama' Copyright  Riccardo Sama'
HTML Gli elementi principali di una pagina Web. Titolo: 2  Attribuisce un titolo alla pagina  Il titolo è visibile nella “barra del titolo” del browser.
ITCG “V. De Franchis” - PON FSE Modulo G/1 l’informatica”
Corso Web CSV – Andiamo on-line 1 Andiamo on-line Corso di formazione Elementi base per la costruzione di un sito web.
HTML I tag HTML (parte 1). I tag HTML  I comandi che il browser interpreta  Etichette per marcare l’inizio e la fine di un elemento HTML  Formato e.
Microsoft Word Interfaccia grafica
CORSO Di WEB DESIGN prof. Leonardo Moriello
Creazione di pagine per Internet Brevi note a cura di Emanuele Lana
Corso di Introduzione all’Informatica
Internet e HTML Diffusione di informazioni mediante la rete Internet.
HTML HTML e il web.
HTML e CSS C. Gena, C. Picardi, J. Sproston HTML e CSS.
PROGETTO… Internet Providers, registrazione del dominio Costruire una home page … e renderla visibile sul Web.
I FILE I File sono l’ unità base di informazione nell’interazione tra utente e sistema operativo I File sono l’ unità base di informazione nell’interazione.
Fondamenti di Markup Languages: Richiami di HTML © 2005 Stefano Clemente Stefano Clemente
Qualità comunicativa e presentazioni efficaci
ELABORAZIONE TESTI MICROSOFT WORD EM 09.
Master in Telemedicina HTML per iniziare Maria Simi, dicembre 2004 [da un tutorial di Rigget]
Creazione di pagine per Internet Brevi note a cura di Emanuele Lana
JoomlaDay Italia Roma Novembre 2009 Alessandro Zaffi
Microsoft Word A cura di Roffo Giorgio. Anteprima di Word Word è un editor di Testo avanzato. Ha moltissime funzioni: –Formato: Carattere, Paragrafo.
Il linguaggio HTML Introduzione Formattazione Multimedialità.
HTML. Pagina HTML Struttura Titolo Hello World! Paragrafo apre il documento html contiene informazioni come il titolo della pagina, i meta tags, la codifica.
Transcript della presentazione:

1 IsaPress

2 Obiettivo Realizzare uno strumento di facile uso per estrarre il contenuto da documenti binari di vario tipo in un formato utile per l'impaginazione automatica. Identificare strutture ricorrenti (pattern) di documenti che permettano il passaggio facilitato da un formato all'altro e l'impaginazione omogenee indipendentemente dalla fonte del documento.

3 Contenuto - struttura - presentazione Le tre componenti dei documenti testuali: Contenuto: le parole e le immagini che contengono significato in un testo Struttura: le regole di disposizione dei frammenti di contenuto, e il significato applicato all'esistenza e alle caratteristiche dei frammenti stessi Presentazione: il modo in cui il documento viene presentato (e.g., stampato) per la fruizione definitiva Assunto forte: la struttura influenza fortemente la presentazione (frammenti dello stesso tipo vengono visualizzati nella stessa maniera).

4 Formati interni, HTML, XML Le applicazioni di impaginazione utilizzano spesso formati interni per organizzare le caratteristiche di presentazione e struttura dei documenti. HTML mescola spesso e volentieri presentazione e struttura (eccezione: div e span con l'attributo class). XML ha come filosofia la separazione tra presentazione e contenuto attraverso l'esplicitazione della struttura.

5 Il formato generico Esistono delle strutture ricorrenti (pattern) nei documenti di testo che sono più limitate di quelle possibili con XML, ma più descrittive e chiare che con HTML. Il formato generico cattura tutte e sole le strutture ricorrenti nei documenti veri, senza perdita di generalità ma imponendo limiti ed ordine ai tipi di frammento possibile.

6 Esempi di strutture ricorrenti Contenitori (e.g., sezioni) dotati di titoli e che contengono altri contenitori o blocchi ma non testo. Blocchi (e.g., paragrafi) che non contengono altri blocchi o contenitori, ma testo o elementi inline che non spezzano l'organizzazione orizzontale. Inline (e.g., stili come grassetti e corsivi): sequenze di caratteri senza spezzatura verticale che contengono testo o altri elementi inline, ma non blocchi o contenitori.

7 Gli stili Molti programmi di impaginazione permettono di automatizzare i criteri di presentazione attraverso la creazione di stili. Uno stile è una collezione di regole di presentazione dotato di nome. Scegliendo nomi che rappresentano elementi della struttura possiamo utilizzare uno strumento di presentazione per mantenere informazioni sulle strutture. Gli stili permettono di descrivere la struttura!

8 IsaPress IsaPress ha come scopo identificare nei formati delle applicazioni più comuni quei pattern che permettono di ricondurre i documenti al formato generico. IsaPress definisce un formato, IML, che è un sottoinsieme del formato generico, e che attribuisce alcuni significati agli elementi (titoli, liste, tabelle, link ipertestuali, grassetti e corsivi) mantenendo però la genericità di definire i contenitori, i blocchi e gli inline in maniera libera (markup generalizzato o descrittivo)

9 IsaPress x Word IsaPress converte documenti htm prodotti da Word in documenti pdf destinati alla stampa, xml e html. Usiamo htm (la versione MS, scorretta e non standard, di HTML) come input a causa della passata incapacità di word di produrre xml.

10 Modello IsaPress effettua questi passaggi: trasforma lhtm in un html ben formato (xhtml); pulisce il codice tenendo solo ciò che è importante;

11 Situazione attuale Word.doc Word.htm Buona forma ISAPRESS Pulizia codice html pdf xml FORMATO INTERMEDIO

12 HTM di Word Sebbene sia grammaticalmente scorretto, HTM di Microsoft è comunque immediatamente riconducibile al formato generico (e anzi ad IML), e quindi immediatamente utilizzabile per IsaPress: Utilizza contenitori (sezioni), blocchi generalizzati (paragrafi con stile), inline specifici (stili come corsivo e grassetto) e generalizzati (stili di carattere) Mantiene le informazioni di stile (cioe' di struttura) nell'HTM generato ( …

13 Cosa ci aspettiamo Avere come input documenti xml, o anche, ma è più lungo e difficile, htm e html da mettere in buona forma. Abbiamo pero' bisogno che rimangano informazioni di struttura (e.g., stili), che ci permettano di convertire i documenti in formato generico o addirittura IML. Ampliare il numero di tipologie di documenti supportati da IsaPress.

14 Evoluzione di IsaPress Word.xml ISAPRESS Pulizia codice html Html pdf xml FORMATO INTERMEDIO XPress.xml InDesign.xml OpenOffice.xml ….xml

15 Domande da porsi Per ogni formato di dato considerato: Esiste un formato completo XML specifico? Esiste un tool che lo genera? Esiste la distinzione tra classe, contenuto, presentazione? O almeno esistono le classi di presentazione (stili) definibili dall'utente? Quali vincoli sono imposti sulla struttura? Sono compatibili con il formato generico? Se non esiste, esiste una versione HTML? È ben formata? Contiene informazioni di struttura (classi)? Esiste qualche meccanismo di gestione delle meta informazioni?

16 Conclusioni Bisogna capire come i programmi di impaginazione creano effettivamente la loro versione XML.