La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

1 La codifica e la standardizzazione dei testi in formato digitale La codifica.

Presentazioni simili


Presentazione sul tema: "1 La codifica e la standardizzazione dei testi in formato digitale La codifica."— Transcript della presentazione:

1 1 La codifica e la standardizzazione dei testi in formato digitale La codifica

2 2 Definizione Codifica Informatica la rappresentazione di un testo su un supporto digitale in un formato comprensibile da un elaboratore elettronico

3 3 Problemi 1. Rappresentazione del testo 2. Comprensione del testo 3. Codice condiviso

4 4 Comunicazione MESSAGGIO CODICE CODICE Codifica Decodifica EMITTENTE CANALE RICEVENTE

5 5 Diasistema CODICE S1 S2 Comunicazione = S1 ~ S2

6 6 Modelizzazione e rappresentazione Selezione dellinformazione Organizzazione dellinformazione

7 7 Codificare un testo 1. Il testo è già codificato 2. Decodificare il testo 3. Ricodificare il testo Codificare = interpretare

8 8 Isomorfismo 1. a un elemento del sistema di A (CODICE) deve corrispondere un solo elemento del sistema B (CODICE); 2. data una relazione fra due elementi del sistema A, la stessa relazione deve essere mantenuta anche fra i corrispondenti elementi del sistema

9 9 CODICE Maiuscole, spazi, interpunzione Corsivo, maiuscoletto, grassetto Struttura grammaticale Struttura retorica Semantica …

10 10 CODICE ? Modello di codifica

11 11 Definizione Codifica informatica rappresentazione di un testo su un supporto digitale in funzione di un determinato punto di vista secondo un codice condiviso in modo sostanziale dalluomo e dallelaboratore elettronico cui tale codifica è destinata.

12 12 Testo o Documento? Che cosè un testo? 1. Supporto fisico? 2. Sequenza di caratteri ivi contenuta? 3. Contenuto?

13 13 Dovè il testo? Canto Secondo 1. Ingiustissimo amor, perché sì raro corrispondenti fai nostri desiri? Onde, perfido, avvien che tè sì caro il discorde voler chin duo cor miri? Gir non mi lasci al facil guado e chiaro, e nel più cieco e maggior fondo tiri: da chi disia il mio amor tu mi richiami, e chi mha in odio vuoi chadori et ami.

14 14 I testi sono astrazioni I testi sono delle astrazioni istintivamente e collettivamente generate dai lettori e si possono intendere come successioni di monemi rappresentabili graficamente tramite dei grafemi. Dalla lettura dei grafemi o dalla percezione uditiva dei monemi si sviluppano i significati cui noi diamo il nome di testo.

15 15 I documenti no… supporti materiali in cui il testo viene conservato (un libro, un foglio di carta, una lapide) si può parlare di documenti cartacei e di documenti digitali, ma non di testi cartacei o digitali.

16 16 Oggetto della codifica I testi A volte i documenti … ma limportante è capirsi!

17 17 MRF – Machine Readable Form Il testo trasmesso deve essere stato codificato dallemittente in modo che la macchina sia in grado di non disperdere nessuno dei livelli di informazioni presente nellintenzionalità dellemittente Standardizzazione e portabilità dei dati

18 18 Ortografia MRF Maiuscole (nomi e inizio periodo) Segni diacritici Spazi Corsivi …

19 19 Caratteristiche minime? No. Ciò che qualifica la MRF è la sua capacità di trasmettere ciò che il codificatore ha ritenuto fosse sematicamente rilevante

20 20 Documenti digitali: problemi Legati alla disponibilità di dispositivi hardware e software Elevata obsolescenza Difficile portabilità su piattaforme diverse Proliferazione dei sistemi di codifica Difficile condivisione dei dati e dei risultati

21 21 Standard Formali: ISO et al. Di fatto: es. MS Word

22 22 Standard portabile Indipendenza dallhardware Indipendenza dal software Indipendenza dal sistema di codifica dei caratteri Indipendenza logica dalle tipologie di elaborazione

23 23 Set dei Caratteri Codice ASCII: ISO 646ASCII o 7 bit (2 7 = 128) o 128 caratteri Codice Latin-1: ISO – 256 caratteriLatin-1 o 8 bit (2 8 = 256) o 256 caratteri o Comprende ISO 646

24 24 Set dei Caratteri Codice Unicode: sincronizzato a ISO Codice Unicode o 16 bit (2 16 = ) o caratteri o Comprende ISO 646 e ISO o UTF-8: versione a 8 bit di Unicode, char set predefinito per XML (noi lo useremo)

25 25 Modello di codifica Un modello è il risultato di un procedimento di astrazione necessario per sfuggire allimprendibilità del continuo. Un modello deve essere qualcosa di più piccolo delloggetto che si vuole analizzare Un modello deve essere isomorfo Deve essere operata un scelta delle caratteristiche da codificare

26 26 Modellizzazione – Macro categorie Per quale scopo si codifica? Struttura Formato Contenuto

27 27 Analisi logico-strutturale dei testi Lindividuazione delle componenti logico- formali dei testi così come si sono venute a conformare nella tradizione scritta occidentale

28 28 Livello strutturale Tutti i testi possono avere: un titolo (opzionale) un contenuto. Il contenuto può essere: unitario diviso in parti (parti, capitoli, libri), ciascuna della quali può avere: un titolo (opzionale) un contenuto.

29 29 Livello contenutistico I testi possono essere classificati in due grandi macro-categorie che conoscono però numerose contaminazioni: prosa poesia

30 30 Andamento Poesia e prosa possono avere un andamento: continuo dialogico

31 31 Andamento continuo la prosa è costituita di una sequenza di paragrafi elenchi, a loro volta costituiti di entrate, in cui si distinguono numero (opzionale) topic (argomento, soggetto; opzionale) descrizione tabelle righe celle la poesia è costituita di una sequenza di divisioni metriche (opzionali) che contengono versi

32 32 Un esempio: poesia

33 33 Andamento dialogico i testi possono essere: unitari divisi in parti quali: atti scene In entrambi i casi sono costituiti di una sequenza di battute, divise al loro interno in: nome dellinterlocutore contenuto.

34 34 Un esempio: prosa

35 35 Markup & tagging In epoca pre-computer: caratterizzazione editoriale esplicitava la formattazione dei documenti Caratterizzazione editoriale in inglese: markup Annotazioni editoriali in inglese: tag

36 36 Con i word processor… Formattazione incorporata Tag invisibili Caratterizzazione migrata nei documenti

37 37 Sistemi WYSIWYG Programmi presentazionali Codifica invisibile allutente Documenti difficilmente gestibili Formati proprietari Formati proprietari

38 38 Markup Languages Linguaggi procedurali o specifici Linguaggi dichiarativi o generici

39 39 Linguaggi procedurali Orientati al documento Istruzioni che specificano caratteristiche come: Font Dimensione carattere Posizionamento Stile Disposizione sulla pagina

40 40 Un esempio: LaTeX \documentclass[a4paper,12pt]{article} \usepackage[latin1]{inputenc} \usepackage[italian]{babel} \usepackage{indentfirst} \pagestyle{plain} \topmargin-1cm \evensidemargin0.5cm \textwidth14cm \textheight23cm \setlength{\parindent}{1,25cm} \begin{document} \pagestyle{plain} \section{Introduzione} \vskip 1cm Questo è un esempio di documento \emph{LaTeX}. \end{document}

41 41 Sintassi \nomeTag[argomenti]{contenutoTag} Output standard

42 42 Linguaggi procedurali: problemi Codifica orientata alloutput Difficilmente può essere utilizzata per scopi diversi

43 43 Linguaggi dichiarativi Orientati al testo Istruzioni per annotare il significato degli elementi costitutivi Trascurano laspetto che assumeranno nelloutput Se un output strutturato si rende necessario, servirà un ulteriore livello procedurale (es. fogli di stile)

44 44 Un esempio: SGML Esempio di documento SGML Benvenuti nel mondo dei linguaggi dichiarativi standardizzati

45 45 Caratteristiche Markup definito dallutente Cattura della semantica del testo Assenza di indicazioni circa loutput Flessibilità e possibilità di essere usato per molteplici scopi


Scaricare ppt "1 La codifica e la standardizzazione dei testi in formato digitale La codifica."

Presentazioni simili


Annunci Google