La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo.

Presentazioni simili


Presentazione sul tema: "Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo."— Transcript della presentazione:

1 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo

2 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 La codifica digitale del testo I computer memorizzano ed elaborano dati sotto forma di sequenze di due soli simboli 0 e 1 (cifre binarie) Ogni tipo di informazione deve essere codificata in cifre binarie codificare informazione = associare a ciascuna unità di informazione un codice (sequenza di cifre binarie) che la identifica in maniera univoca I testi per essere elaborati o trasmessi da un programma devono avere una rappresentazione (codifica) binaria Rappresentazione del testo su supporto digitale in un formato leggibile da un computer Machine Readable Form (MRF)

3 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 La codifica digitale del testo che tipo di rappresentazione digitale del testo?

4 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 La codifica digitale del testo Il testo e la sua organizzazione titolo capitolo testo intestazione

5 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 La codifica digitale del testo Il testo e la sua struttura linguistica frase relativa tutti = soggetto sintagma nominale articolo indefinito femminile singolare stanza come luogo V andare pass. rem. 3 sing. stanze = oggetto di riscaldare

6 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 La codifica digitale del testo Le avventure di Pinocchio Capitolo I Come andò che Maestro Ciliegia, falegname, trovò un pezzo di legno, che piangeva e rideva come un bambino. C'era una volta... - Un re! - diranno subito i miei piccoli lettori. - No, ragazzi, avete sbagliato. C'era una volta un pezzo di legno. Non era un legno di lusso, ma un semplice pezzo da catasta, di quelli che d'inverno si mettono nelle stufe e nei caminetti per accendere il fuoco e per riscaldare le stanze. Non so come andasse, ma il fatto gli è che un bel giorno questo pezzo di legno capitò nella bottega di un vecchio falegname, il quale aveva nome mastr'Antonio, se non che tutti lo chiamavano maestro Ciliegia, per via della punta del suo naso, che era sempre lustra e paonazza, come una ciliegia matura. Il testo come sequenza di caratteri Ciascun carattere alfanumerico, di punteggiatura o di controllo che compone il testo deve essere rappresentato nei termini di un codice binario

7 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 La codifica digitale del testo Il testo come sequenza di caratteri Surrogato parziale del testo originario completa equivalenza solo dal punto di vista dei caratteri che lo compongono perdita di informazione linformazione implicitamente veicolata dalla formattazione del testo relativa a: le coordinate meta-testuali il nome dellautore, il titolo, ecc. la struttura e organizzazione testuale la suddivisione logica in sezioni, capitoli, paragrafi, ecc. nessun guadagno di informazione linformazione sulla struttura linguistica rimane implicita e nascosta (come nel testo originale)

8 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 La codifica digitale del testo Due livelli di codifica del testo digitale codifica di basso livello (codifica di livello 0) riguarda la rappresentazione binaria della sequenza ordinata dei caratteri codifica di alto livello arricchisce il testo codificato al livello zero con informazione relativa a dimensioni strutturali organizzazione del testo in strutture macrotestuali articolazione del testo in strutture linguistiche La codifica di alto livello permette di rendere esplicita qualsiasi interpretazione, anche di tipo linguistico, si voglia associare al testo

9 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 La codifica di livello 0 Il testo come sequenza di caratteri dietro le quinte…

10 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 La codifica di livello 0 caratteri e numeri A carattere 65 codice (decimale) del carattere codifica binaria del codice del carattere I computer elaborano internamente solo sequenze di bits (0,1) MAESTRO CILIEGIA

11 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Numeri e numeri Sistema binario vengono usate due cifre (0 e 1) per rappresentare un numero problema: i numeri binari sono estremamente lunghi e difficili da ricordare Sistema esadecimale ogni numero è rappresentato con 16 cifre (0-9, A-F) i numeri sono più corti di quelli binari estrema facilità di conversione tra binario ed esadecimale in una sequenza binaria, ogni stringa di 4 bits corrisponde ad una cifra esadecimale numero binario (6) (15) (6) 6 F 6 numero esadecimale numero X 10 A 1010 rappresentazione di un numero

12 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Come sono rappresentati i caratteri nel computer? Repertorio di caratteri un insieme di caratteri (es. A, a, !, à, P, ecc.) i caratteri sono entità astratte, da non confondersi con il modo in cui sono realizzati graficamente (gliphs) a, a, a, a sono tutti lo stesso carattere a la stessa realizzazione grafica può corrispondere a caratteri diversi (es. A latino e A cirillico e A greco) Set di carattere (codice) una tabella che definisce una corrispondenza biunivoca (1-a-1) tra un repertorio di caratteri e un insieme di numeri interi non negativi a ogni carattere è assegnato un codice numerico (punto di codice o code position) Codifica di carattere algoritmo che determina come i codici dei caratteri sono rappresentati in sequenze di bits (bytes)

13 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Il codice ASCII Primo standard per lassegnazione di codici a caratteri (dal 1963) set di caratteri riconosciuto da tutti i computer conosciuto come ASCII Standard o ISO-646 Codifica 7 bits ciascun punto di codice è rappresentato con il numero binario corrispondente di 7 bits in realtà 1 byte = 8 bits di cui un bit non è usato per la codifica (bit di parità) 7 bits = 2 7 punti di codice = 128 caratteri rappresentati Sufficiente per rappresentare linglese mancano i caratteri accentati, umlauts, ecc. per rappresentare altri alfabeti occidentali

14 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 ASCII Standard decimale ed esadecimale

15 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Il set di caratteri ISO-Latin-1 ASCII Standard Caratteri di controllo ISO-Latin-1 (ISO o ASCII esteso) unica estensione standard di ASCII 1 byte = 8 bits = 2 8 punti di codice = 256 caratteri rappresentati sufficiente per lingue europee occidentali (italiano, francese, ecc.)

16 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 La famiglia di caratteri ISO set di caratteri standardizzati da ISO (International Standard Organization) Codifica 1 byte = 256 caratteri rappresentati da ciascun set Soprainsiemi dei caratteri ASCII Standard punti di codice (parte comune) ASCII punti di codice codici di controllo (non corrispondono a caratteri grafici) punti di codice (parte variabile) caratteri aggiuntivi per greco, cirillico, lingue slave, arabo, ebraico, ecc. I set di ISO-8859 sono tutti reciprocamente incompatibili Punto di codice 232 ISO (Latin-1) = è ISO (Cyrillic) = ш ISO-8859 non copre lingue come giapponese, cinese, ecc.

17 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 La famiglia di caratteri ISO-8859 ISO-Latin-1

18 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 The Universal Character Set UNICODE (ISO-10646) Standard internazionale che permette di rappresentare qualsiasi tipo di carattere appartenente ai sistemi grafici esistenti lingue europee, asiatiche, arabo, ebraico, cirillico, ugaritico, ecc. basato su principi di composizione dinamica dei caratteri ç = c + ¸ Assegna un numero di codice univoco ad ogni carattere è = 232 ш = 1096 Risolve i problemi di incompatibilità dei sistemi ISO-8859 estende linsieme dei caratteri supportati permette la realizzazione di documenti multilingui Unicode è un soprainsieme di ASCII

19 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 The Universal Character Set UNICODE (ISO-10646) Circa caratteri grafici rappresentati (Unicode v. 4.0) … ma i punti di codice disponibili sono più di 1 milione !! Molteplici tipi di codifica: UCS-2, UCS-4, UTF-8, UTF-16, ecc. Codifica comune UTF-8

20 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 The Universal Character Set UNICODE (ISO-10646)

21 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Caratteri e computer Ab bkйd من٦و ds kjdks kdsk sybco oθδjpjp Unicode ISO-Latin Ab bk ƛ d ƛƛƛƛ ds kjdks kdsk sybco o ƛƛ jpjp

22 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Caratteri e computer Risoluzione dei problemi Analisi dei caratteri nel testo individuare il set di caratteri con cui è scritto il documento: ASCII Standard, Unicode, ISO-8859, ecc. individuare il set di caratteri accettati dal programma con cui si deve elaborare il testo verificare leventuale esistenza di caratteri non-standard editor esadecimale Eventuale sostituzione dei caratteri sostituzione dei caratteri non appartenenti al set accettato dal programma buona parte del sw. accetta solo ASCII attenzione alla perdita di informazione!! è = e š s

23 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 La codifica di alto livello: il punto di partenza Il testo codificato al livello zero si presenta come un manoscritto in scriptio continua

24 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Trascrizione di un testo a partire da un manoscritto in scriptio continua Codifica digitale di alto livello del testo entrambe rendono esplicito ciò che è congetturale e implicito con lo scopo di guidare il lettore (umano vs computer) nellinterpretazione del testo Dietro allanalogia …

25 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 La codifica di alto livello compito della codifica di alto livello: dare forma alla sequenza dei caratteri del testo rendendo esplicita linformazione che è veicolata attraverso convenzioni tipografiche, testuali e linguistiche: informazioni sullorganizzazione del testo (parti, titoli, paragrafi) la conoscenza linguistica necessaria per la comprensione del testo (per es. la categoria grammaticale di ciascuna parola, o i costituenti sintattici in cui si articolano le frasi del testo) più in generale ogni interpretazione che si voglia affiancare al dato testuale tracciare sentieri di lettura allinterno del testo rendere machine readable informazioni sul testo e tratti del testo che altrimenti non sarebbero elaborabili dal computer

26 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Perché codificare? I motivi della codifica di alto livello Un testo come flusso di caratteri e parole è una fonte di dati linguistici Il testo è unentità altamente strutturata, nella quale i dati linguistici sono correlati secondo piani di organizzazione multipli struttura del testo l articolazione in sezioni, capitoli, titoli, ecc. struttura del contesto lautore, la data di produzione, la finalità del testo, ecc. struttura linguistica (implicita nel testo!!) informazioni morfologiche, sintattiche, semantiche

27 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Perché codificare dato vs informazione La codifica di alto livello trasforma il dato testuale grezzo in fonte esplicita di informazione (definizioni da un vocabolario della lingua italiana) informazione: notizia, dato o elemento che consente di avere conoscenza più o meno esatta di fatti, situazioni, modi di essere. dato: ciò che è immediatamente presente alla conoscenza, prima di ogni elaborazione; (in informatica) elementi di informazione costituiti da simboli che debbono essere elaborati

28 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Uninformazione è un dato strutturato... un esempio: su un foglio di carta è un dato e non significa molto ma se il foglio di carta viene fornito in risposta alla domanda qual è il cap di Pisa? oppure qual è il numero del conto bancario del sig. X?, allora il dato può essere interpretato come fonte di informazione

29 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Esempio prototipico di dato strutturato

30 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Perché dati strutturati? le informazioni sono più volatili, i dati più stabili I dati costituiscono una risorsa strategica, perché più stabili nel tempo di altre componenti (processi, tecnologie, ruoli umani): ad esempio, i dati delle banche o delle anagrafi la storia della scienza è caratterizzata dal continuo cambiamento di informazioni relative a dati relativamente stabili la rappresentazione precisa di forme più complesse di informazione (concetti evoluti) non può prescindere dai dati

31 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Cosa codificare? I contenuti della codifica di alto livello Individuare il livello di informazione da codificare strutturale, linguistica, ecc. la codifica esplicita di informazione linguistica viene detta annotazione del testo morfologica, semantica, sintattica, ecc. Definire il repertorio dei tratti giudicati rilevanti per la codifica un esempio: la codifica morfo-sintattica oggetto: codificare esplicitamente la categoria grammaticale e le proprietà morfologiche delle parole di un testo da definire: quali attributi codificare (cat. grammaticale, persona, genere, numero, caso, ecc.) quali valori possono avere i diversi attributi (numero = SING, PLUR; caso = NOM, GEN, ecc.)

32 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Cosa codificare? I contenuti della codifica di alto livello Schema di codifica un repertorio di categorie per la codifica, corrispondenti alla tipologia dei tratti da rappresentare nel testo generalmente espresso nella forma di attributi e dei loro possibili valori la definizione delle regole di compatibilità tra categorie es. laggettivo non possiede un attributo di persona, o un nome quello di tempo la specifica accurata dei criteri di applicazione al testo delle categorie selezionate Schema di annotazione linguistica schema di codifica di informazione linguistica Uno schema di codifica (annotazione) definisce il contenuto linguistico dellannotazione, non il modo in cui la codifica (annotazione) è proiettata sul testo

33 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Come codificare? I formati digitali del testo Formato solo testo (plain text o txt) un file solo testo è costituito da una sequenza di bytes dove ciascun byte rappresenta un carattere secondo un particolare codice gli editori di testo sono programmi in grado di creare e leggere files di tipo solo testo Emacs, Blocco Note, ecc. quando un editore di testo legge un file cerca di associare ogni sequenza di bits a un carattere secondo un particolare codice Vantaggi formato aperto, indipendente dal sistema operativo e dal programma che lo ha creato massima portabilità e interscambiabilità dei testi Svantaggi non può rappresentare aspetti relativi alla codifica di alto livello minima espressività

34 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Come codificare? I formati digitali del testo Formati proprietari (doc, pdf, ecc.) possono essere creati, letti e interpretati solo da uno specifico programma (es. Word, Adobe) oltre a sequenze di bits codificano caratteri, il file contiene sequenze binarie che corrispondono a istruzioni di formattazione, codificate secondo le convenzioni di un certo programma Vantaggi massima capacità espressiva e fruibilità per lutente umano rappresenta aspetti relativi alla codifica di alto livello ma solo per quanto riguarda la struttura testuale!! Svantaggi formato chiuso, con minima portabilità e interscambiabilità codifica non per categorie testuali astratte, ma per modalità di visualizzazione le informazioni linguistiche rimangono comunque implicite nel testo

35 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Formati dati proprietari Word Processor MS Word, Word Perfect, Wordstar, XY Write, etc. Tutti differenti, rapida obsolescenza, decente compatibilità verso il passato Desktop Publishing PageMaker, FrameMaker, Quark XPress, Ventura Publisher, etc. Tutti differenti, tutti estremamente specializzati, rapidissima obsolescenza, nessuna compatibilità col passato DBMS Oracle, MS Access, MS SQLserver, IBM DB2, etc. Estremamente orientati all'efficienza, opacissimi, decente obsolescenza, buona compatibilità col passato Presentazione Postscript, PDF, ma anche Flash, Shockwave Opachi, specializzati, complessi. Compatibilità col passato?

36 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Formati binari del testo Un formato binario è la memorizzazione esatta delle strutture in memoria dell'applicazione, che niente hanno a che vedere con le esigenze di comprensione di esseri umani. Il testo non è visibile o è visibile per caso.

37 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Formati binari del testo Un formato binario è la memorizzazione esatta delle strutture in memoria dell'applicazione, che niente hanno a che vedere con le esigenze di comprensione di esseri umani. Il testo non è visibile o è visibile per caso.

38 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Formati binari del testo Un formato binario è la memorizzazione esatta delle strutture in memoria dell'applicazione, che niente hanno a che vedere con le esigenze di comprensione di esseri umani. Il testo non è visibile o è visibile per caso.

39 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Come codificare? Una possibile alternativa: i linguaggi di marcatura Codifica di alto livello con linguaggi di mark-up (linguaggi di marcatura) dal punto di vista del formato digitale un testo codificato con un linguaggio di marcatura è in formato solo testo linformazione strutturale è rappresentata attraverso laggiunta al testo di etichette (o tag) di marcatura sequenze di caratteri visibili secondo una convenzione standard, intercalati nel testo seguendo precise regole di combinazione marcano blocchi di testo a cui viene assegnata una determinata interpretazione Vantaggi portabilità e interscambiabilità dei testi codificati massimo grado di espressività è possibile esprimere tuttti gli aspetti della codifica di alto livello, compresa linformazione linguistica

40 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Come codificare? I linguaggi di marcatura Le avventure di Pinocchio Storia di un burattino Carlo Collodi Parte prima Come andò che maestro Ciliegia, falegname, trovò un pezzo di legno, che piangeva e rideva come un bambino. C'era una volta... - Un re! - diranno subito i miei piccoli lettori. No, ragazzi, avete sbagliato. C'era una volta un pezzo di legno. Non era un legno di lusso, ma un semplice pezzo da catasta, di quelli che d'inverno si mettono nelle stufe e nei caminetti per accendere il fuoco e per riscaldare le stanze. mark-up per la codifica di informazione strutturale

41 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Come codificare? I linguaggi di marcatura … Come andò che maestro Ciliegia, falegname, trovò un pezzo di legno, che piangeva e rideva come un bambino. mark-up per la codifica di informazione strutturale mark-up per la codifica di informazione linguistica +

42 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Tipi di marcatura del testo marcatura procedurale (detta anche marcatura tipografica) che consiste in una serie di istruzioni operative che forniscono le specifiche di formattazione e impaginazione del testo per la visualizzazione e la stampa (es. RTF, TeX)RTF marcatura dichiarativa (detta anche marcatura logica o descrittiva) dove i codici di marcatura indicano la funzione assolta dal blocco di testo a cui si riferiscono, ad esempio titolo, paragrafo, nota, citazione ecc. senza fornire indicazione di come tali elementi del testo dovranno apparire fisicamente sulla pagina o sul video (es. SGML, XML)XML

43 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Un linguaggio di marcatura procedurale: RTF

44 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Un linguaggio di marcatura dichiarativa: XML

45 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Marcatura procedurale basata sullaspetto ad ogni elemento del documento viene associata la procedura per visualizzarlo in maniera voluta: font, dimensione, corsivi, grassetti, margini, interlinea, ecc. dipendente dal sistema ogni sistema di visualizzazione impone le proprie regole e la propria sintassi associata agli individui ogni elemento possiede le proprie procedure per la visualizzazione, che possono anche essere tutte diverse anche per elementi dello stesso tipo. non contestuale le regole di visualizzazione non dipendono dal contesto in cui vengono fatte, ma ognuna fa specie a sé non è possibile porre vincoli sulla "correttezza" di un documento.

46 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Marcatura dichiarativa basata sul ruolo di ogni elemento viene descritto il ruolo allinterno del testo, più che le regole per la sua visualizzazione indipendente dal sistema poiché il markup descrittivo assegna ruoli (e non regole di visualizzazione) agli elementi del testo, questi sono intrinseci agli elementi stessi, e non alle funzionalità disponibili nel sistema di visualizzazione contestuale con il markup descrittivo è possibile definire delle regole che permettano o impediscano lassegnazione di un ruolo ad un elemento del testo a seconda del contesto è possibile specificare regole di correttezza sui documenti, ad esempio che ad un'immagine segua necessariamente una didascalia, ecc.

47 Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Marcatura dichiarativa: vantaggi facilità nella creazione: lautore si concentra sul ruolo organizzativo delle singole parti di testo, piuttosto che sul loro aspetto stampato indipendenza dalla formattazione: riformattare un documento secondo nuove regole richiede semplicemente di ricodificare dei parametri esterni, non di modificare in alcuna maniera il testo codificato flessibilità: riusare un testo codificato in un nuovo contesto è facile, perché non è necessario rimuovere la vecchia informazione per far posto alla nuova visioni di documenti dinamicamente riconfigurabili: è possibile selezionare viste diverse dello stesso documento


Scaricare ppt "Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2 La codifica digitale del testo."

Presentazioni simili


Annunci Google