Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoRaniero Righi Modificato 11 anni fa
1
La codifica e la standardizzazione dei testi in formato digitale
2
Definizione Codifica Informatica
la rappresentazione di un testo su un supporto digitale in un formato comprensibile da un elaboratore elettronico
3
Problemi Rappresentazione del testo Comprensione del testo
Codice condiviso
4
Comunicazione MESSAGGIO CODICE - - - - - - - - - - - - - - - - CODICE’
Codifica Decodifica EMITTENTE CANALE RICEVENTE
5
Diasistema CODICE ≠CODICE’ S S2 Comunicazione = S1 ~ S2
6
Modelizzazione e rappresentazione
Selezione dell’informazione Organizzazione dell’informazione
7
Codificare = interpretare
Codificare un testo Il testo è già codificato Decodificare il testo Ricodificare il testo Codificare = interpretare
8
Isomorfismo a un elemento del sistema di A (CODICE) deve corrispondere un solo elemento del sistema B (CODICE’); data una relazione fra due elementi del sistema A, la stessa relazione deve essere mantenuta anche fra i corrispondenti elementi del sistema
9
CODICE Maiuscole, spazi, interpunzione
Corsivo, maiuscoletto, grassetto Struttura grammaticale Struttura retorica Semantica …
10
CODICE’ ? Modello di codifica
11
Definizione Codifica informatica
rappresentazione di un testo su un supporto digitale in funzione di un determinato punto di vista secondo un codice condiviso in modo sostanziale dall’uomo e dall’elaboratore elettronico cui tale codifica è destinata.
12
Testo o Documento? Che cos’è un testo? Supporto fisico?
Sequenza di caratteri ivi contenuta? Contenuto?
13
Dov’è il testo? Canto Secondo 1. Ingiustissimo amor, perché sì raro
corrispondenti fai nostri desiri? Onde, perfido, avvien che t’è sì caro il discorde voler ch’in duo cor miri? Gir non mi lasci al facil guado e chiaro, e nel più cieco e maggior fondo tiri: da chi disia il mio amor tu mi richiami, e chi m’ha in odio vuoi ch’adori et ami.
14
I testi sono astrazioni
I testi sono delle astrazioni istintivamente e collettivamente generate dai lettori e si possono intendere come successioni di monemi rappresentabili graficamente tramite dei grafemi. Dalla lettura dei grafemi o dalla percezione uditiva dei monemi si sviluppano i significati cui noi diamo il nome di testo.
15
I documenti no… supporti materiali in cui il testo viene conservato (un libro, un foglio di carta, una lapide) si può parlare di documenti cartacei e di documenti digitali, ma non di testi cartacei o digitali.
16
Oggetto della codifica
I testi A volte i documenti … ma l’importante è capirsi!
17
MRF – Machine Readable Form
Il testo trasmesso deve essere stato codificato dall’emittente in modo che la macchina sia in grado di non disperdere nessuno dei livelli di informazioni presente nell’intenzionalità dell’emittente Standardizzazione e portabilità dei dati
18
Ortografia MRF Maiuscole (nomi e inizio periodo) Segni diacritici
Spazi Corsivi …
19
Caratteristiche minime?
No. Ciò che qualifica la MRF è la sua capacità di trasmettere ciò che il codificatore ha ritenuto fosse sematicamente rilevante
20
Documenti digitali: problemi
Legati alla disponibilità di dispositivi hardware e software Elevata obsolescenza Difficile portabilità su piattaforme diverse Proliferazione dei sistemi di codifica Difficile condivisione dei dati e dei risultati
21
Standard Formali: ISO et al. Di fatto: es. MS Word
22
Standard portabile Indipendenza dall’hardware
Indipendenza dal software Indipendenza dal sistema di codifica dei caratteri Indipendenza logica dalle tipologie di elaborazione
23
Set dei Caratteri Codice ASCII: ISO 646
7 bit (27= 128) 128 caratteri Codice Latin-1: ISO – 256 caratteri 8 bit (28= 256) 256 caratteri Comprende ISO 646
24
Set dei Caratteri Codice Unicode: sincronizzato a ISO 10646
16 bit (216= ) caratteri Comprende ISO 646 e ISO UTF-8: versione a 8 bit di Unicode, char set predefinito per XML (noi lo useremo)
25
Modello di codifica Un modello è il risultato di un procedimento di astrazione necessario per sfuggire all’imprendibilità del continuo. Un modello deve essere qualcosa di “più piccolo” dell’oggetto che si vuole analizzare Un modello deve essere isomorfo Deve essere operata un scelta delle caratteristiche da codificare
26
Modellizzazione – Macro categorie
Per quale scopo si codifica? Struttura Formato Contenuto
27
Analisi logico-strutturale dei testi
L’individuazione delle componenti logico-formali dei testi così come si sono venute a conformare nella tradizione scritta occidentale
28
Livello strutturale Tutti i testi possono avere: un titolo (opzionale)
un contenuto. Il contenuto può essere: unitario diviso in parti (parti, capitoli, libri), ciascuna della quali può avere: un contenuto.
29
Livello contenutistico
I testi possono essere classificati in due grandi macro-categorie che conoscono però numerose contaminazioni: prosa poesia
30
Andamento Poesia e prosa possono avere un andamento: continuo
dialogico
31
Andamento continuo la prosa è costituita di una sequenza di
paragrafi elenchi, a loro volta costituiti di entrate, in cui si distinguono numero (opzionale) topic (argomento, soggetto; opzionale) descrizione tabelle righe celle la poesia è costituita di una sequenza di divisioni metriche (opzionali) che contengono versi
32
Un esempio: poesia
33
Andamento dialogico i testi possono essere: unitari
divisi in parti quali: atti scene In entrambi i casi sono costituiti di una sequenza di battute, divise al loro interno in: nome dell’interlocutore contenuto.
34
Un esempio: prosa
35
Markup & tagging In epoca pre-computer: caratterizzazione editoriale esplicitava la formattazione dei documenti Caratterizzazione editoriale in inglese: markup Annotazioni editoriali in inglese: tag
36
Con i word processor… Formattazione incorporata Tag invisibili
Caratterizzazione migrata nei documenti
37
Sistemi WYSIWYG Programmi presentazionali
Codifica invisibile all’utente Documenti difficilmente gestibili Formati proprietari
38
Markup Languages Linguaggi procedurali o specifici
Linguaggi dichiarativi o generici
39
Linguaggi procedurali
Orientati al documento Istruzioni che specificano caratteristiche come: Font Dimensione carattere Posizionamento Stile Disposizione sulla pagina
40
Un esempio: LaTeX \documentclass[a4paper,12pt]{article}
\usepackage[latin1]{inputenc} \usepackage[italian]{babel} \usepackage{indentfirst} \pagestyle{plain} \topmargin-1cm \evensidemargin0.5cm \textwidth14cm \textheight23cm \setlength{\parindent}{1,25cm} \begin{document} \pagestyle{plain} \section{Introduzione} \vskip 1cm Questo è un esempio di documento \emph{LaTeX}. \end{document}
41
Sintassi \nomeTag[argomenti]{contenutoTag} Output standard
42
Linguaggi procedurali: problemi
Codifica orientata all’output Difficilmente può essere utilizzata per scopi diversi
43
Linguaggi dichiarativi
Orientati al testo Istruzioni per annotare il significato degli elementi costitutivi Trascurano l’aspetto che assumeranno nell’output Se un output strutturato si rende necessario, servirà un ulteriore livello procedurale (es. fogli di stile)
44
Un esempio: SGML <!DOCTYPE testo [
<!ELEMENT testo - - (titolo?, paragrafo+)> <!ELEMENT titolo - O (#PCDATA)> <!ELEMENT paragrafo - O (#PCDATA)> ]> <testo> <titolo>Esempio di documento SGML</> <paragrafo>Benvenuti nel mondo dei linguaggi dichiarativi standardizzati</> </testo>
45
Caratteristiche Markup definito dall’utente
Cattura della semantica del testo Assenza di indicazioni circa l’output Flessibilità e possibilità di essere usato per molteplici scopi
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.