La codifica e la standardizzazione dei testi in formato digitale

Slides:



Advertisements
Presentazioni simili
Dipartimento di Ingegneria Idraulica e Ambientale - Universita di Pavia 1 Caduta non guidata di un corpo rettangolare in un serbatoio Velocità e rotazione.
Advertisements

TAV.1 Foto n.1 Foto n.2 SCALINATA DI ACCESSO ALL’EREMO DI SANTA CATERINA DEL SASSO DALLA CORTE DELLE CASCINE DEL QUIQUIO Foto n.3 Foto n.4.
II° Circolo Orta Nova (FG)
Introduzione ad XML Mario Arrigoni Neri.
1 Pregnana Milanese Assessorato alle Risorse Economiche Bilancio Preventivo P R O P O S T A.
Lezione 1 Primi passi in HtML SCRIVERE TESTI di Sergio Capone
CODIFICA DELLE INFORMAZIONI
Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, La rappresentazione dellinformazione testuale e i linguaggi di codifica.
Frontespizio Economia Monetaria Anno Accademico
1 la competenza alfabetica della popolazione italiana CEDE distribuzione percentuale per livelli.
1 Tavolo del Patto per la crescita intelligente, sostenibile e inclusiva Il ricorso agli ammortizzatori sociali nei territori colpiti dagli eventi sismici.
Programmazione Procedurale in Linguaggio C++
TW Analisi dei documenti n Classificazione dei componenti n Selezione dei componenti, costruzione della gerarchia, dei blocchi informativi e degli elementi.
Implementazione dell algortimo di Viterbi attraverso la soluzione del problema di cammino mi- nimo tramite software specifico. Università degli studi di.
Corso di Laurea in Biotecnologie Informatica (Programmazione)
1 Corso di Informatica (Programmazione) Lezione 4 (24 ottobre 2008) Architettura del calcolatore: la macchina di Von Neumann.
Corso di Informatica (Programmazione)
1 Corso di Laurea in Biotecnologie Informatica (Programmazione) Rappresentazione dellinformazione su calcolatore Anno Accademico 2009/2010.
1 Corso di Laurea in Biotecnologie Informatica (Programmazione) Problemi e algoritmi Anno Accademico 2009/2010.
Ufficio Studi UNIONCAMERE TOSCANA 1 Presentazione di Riccardo Perugi Ufficio Studi UNIONCAMERE TOSCANA Firenze, 19 dicembre 2000.
eliana minicozzi linguaggi1a.a lezione2
Corso di Informatica per Giurisprudenza
1 A cura di Vittorio Villasmunta Metodi di analisi dei campi meteorologici Corso di base sulluso del software di analisi meteorologica DIGITAL ATMOSPHERE.
Corso di base sull’uso del software di analisi meteorologica DIGITAL ATMOSPHERE Prodotti meteo A cura di Vittorio Villasmunta Corso Digital Atmosphere.
La partita è molto combattuta perché le due squadre tentano di vincere fino all'ultimo minuto. Era l'ultima giornata del campionato e il risultato era.
Dipartimento di Ingegneria Idraulica e Ambientale - Universita di Pavia 1 Scritte scritte scritte scritte scritte scritte scritte Scritte scritte Titolo.
Laboratorio di Informatica
La rappresentazione dellinformazione. 7-2 Digitalizzare linformazione Digitalizzare: rappresentare linformazione per mezzo di cifre (ad es: da 0 a 9)
I linguaggi di codifica Requisiti e tipologia © Fabio Ciotti – CRILet, Università di Roma La Sapienza.
CALCIO SKY 2007 – 2008 PROFILO DI ASCOLTO. 2 INDICE DEGLI ARGOMENTI Profilo di ascolto CALCIO SERIE A 2007 – 2008 Totale campionato (tutte le partite)……………………………………………….
Lezione 4 Probabilità.
Lezione 6 Encoder ottici
Labortaorio informatica 2003 Prof. Giovanni Raho 1 INFORMATICA Termini e concetti principali.
UNIVERSITA’ STUDI DI ROMA “FORO ITALICO”
19 Lezione 21/5/04 Composizione dell'immagine 1 COMPOSIZIONE DELLIMMAGINE.
Contatore: esempio di circuito sequenziale
Linguaggi di codifica.
1 IsaPress. 2 Obiettivo Realizzare uno strumento di facile uso per estrarre il contenuto da documenti binari di vario tipo in un formato utile per l'impaginazione.
HyperText Markup Language 17-23/6/08 Informatica applicata B Cristina Bosco.
2 3 4 RISERVATEZZA INTEGRITA DISPONIBILITA 5 6.
Melfi, 1 aprile 2011 – MediaShow 1 Social Network: possibilità di uso consapevole nella didattica Uso, consapevolezza, opportunità, proposte Caterina Policaro.
Nuove frontiere della medicina trasfusionale: il contributo Avis
Educare al multimediale 1 – Verso il digitale 2 Presentazione a cura di Gino Roncaglia Prima parte: Informazione in formato digitale.
1ROL - Richieste On Line Ente pubblico 5ROL - Richieste On Line.
MACCHINARI SICURI WORKSHOP FASCICOLO TECNICO E ANALISI DEI RISCHI
1 Informatica Senza Computer? Chiariamoci un po le idee!!! Carlo Gaibisso Informatica senza Computer?
Test Reti Informatiche A cura di Gaetano Vergara Se clicchi sulla risposta GIUSTA passi alla domanda successiva Se clicchi sulla risposta ERRATA passi.
1 Negozi Nuove idee realizzate per. 2 Negozi 3 4.
ISOIVA (LOCALE) TO ISOIVA (WEB) RIPARTIZIONE INFORMATICA UFFICIO APPLICATIVI AMMINISTRATIVI 13/04/2011 UNIVERSITÀ DEGLI STUDI DI FERRARA 1.
SINS - Seminario Istruzione Nuovi Soci - 22 Settembre Cesare Andrisano Presidente Sottocommissione Web Social Network Distretto 2070.
Scheda Ente Ente Privato Ente Pubblico. 2ROL - Richieste On Line.
CORSO AVANZATO INFORMATICA
TECNOLOGIE DELLINFORMAZIONE E DELLA COMUNICAZIONE PER LE AZIENDE Materiale di supporto alla didattica.
1 Guida per linsegnamento nei corsi per il conseguimento del CERTIFICATO DI IDONEITÀ ALLA GUIDA DEL CICLOMOTORE.
TRASMISSIONE DATI CON MODEM
Protocollo informatico: interoperabilità e PEC
Bando Arti Sceniche. Per poter procedere è indispensabile aprire il testo del Bando 2ROL - Richieste On Line.
Microsoft Word (oppure, OpenOffice Writer)‏
Esercitazioni di Meteorologia da satellite
QUIZ – PATENTE EUROPEA – ESAME WORD
1 Ly-LAB Sistema di gestione dei dati analitici di laboratorio.
Sviluppare un programma in C che, dato un array da 100 elementi interi caricato con numeri casuali compresi tra [10,100], sia in grado di cercare il valore.
Atzeni, Ceri, Paraboschi, Torlone Basi di dati McGraw-Hill,
Linguaggi per COMUNICARE
-17 Aspettative economiche – Europa Settembre 2013 Indicatore > +20 Indicatore 0 a +20 Indicatore 0 a -20 Indicatore < -20 Unione Europea Totale: +6 Indicatore.
I computer vengono utilizzati per automatizzare la soluzione di problemi di varia natura trattando le informazioni in entrata (DATI) eseguendo gli opportuni.
A.P. cat. B - 1 Per chi vuole: Libro di testo D.P. Curtis, K. Foley, K. Sen, C. Morin Informatica di base 2° edizione Mc Graw-Hill Companies.
USR-INRiM-GMEE-CE.SE.DI Formazione&Metrologia Modulo 1 1 Modulo 1 Costruzione di un linguaggio comune Preparazione liste dei termini. Condivisione.
IL GIOCO DEL PORTIERE CASISTICA. Caso n. 1 Il portiere nella seguente azione NON commette infrazioni.
Informatica Umanistica LM - Scienze del Testo Docente Alessia Scacchi.
Transcript della presentazione:

La codifica e la standardizzazione dei testi in formato digitale

Definizione Codifica Informatica la rappresentazione di un testo su un supporto digitale in un formato comprensibile da un elaboratore elettronico

Problemi Rappresentazione del testo Comprensione del testo Codice condiviso

Comunicazione MESSAGGIO CODICE - - - - - - - - - - - - - - - - CODICE’ Codifica Decodifica EMITTENTE CANALE RICEVENTE

Diasistema CODICE ≠CODICE’ S1 S2 Comunicazione = S1 ~ S2

Modelizzazione e rappresentazione Selezione dell’informazione Organizzazione dell’informazione

Codificare = interpretare Codificare un testo Il testo è già codificato Decodificare il testo Ricodificare il testo Codificare = interpretare

Isomorfismo a un elemento del sistema di A (CODICE) deve corrispondere un solo elemento del sistema B (CODICE’); data una relazione fra due elementi del sistema A, la stessa relazione deve essere mantenuta anche fra i corrispondenti elementi del sistema

CODICE Maiuscole, spazi, interpunzione Corsivo, maiuscoletto, grassetto Struttura grammaticale Struttura retorica Semantica …

CODICE’ ? Modello di codifica

Definizione Codifica informatica rappresentazione di un testo su un supporto digitale in funzione di un determinato punto di vista secondo un codice condiviso in modo sostanziale dall’uomo e dall’elaboratore elettronico cui tale codifica è destinata.

Testo o Documento? Che cos’è un testo? Supporto fisico? Sequenza di caratteri ivi contenuta? Contenuto?

Dov’è il testo? Canto Secondo 1. Ingiustissimo amor, perché sì raro corrispondenti fai nostri desiri? Onde, perfido, avvien che t’è sì caro il discorde voler ch’in duo cor miri? Gir non mi lasci al facil guado e chiaro, e nel più cieco e maggior fondo tiri: da chi disia il mio amor tu mi richiami, e chi m’ha in odio vuoi ch’adori et ami.

I testi sono astrazioni I testi sono delle astrazioni istintivamente e collettivamente generate dai lettori e si possono intendere come successioni di monemi rappresentabili graficamente tramite dei grafemi. Dalla lettura dei grafemi o dalla percezione uditiva dei monemi si sviluppano i significati cui noi diamo il nome di testo.

I documenti no… supporti materiali in cui il testo viene conservato (un libro, un foglio di carta, una lapide) si può parlare di documenti cartacei e di documenti digitali, ma non di testi cartacei o digitali.

Oggetto della codifica I testi A volte i documenti … ma l’importante è capirsi!

MRF – Machine Readable Form Il testo trasmesso deve essere stato codificato dall’emittente in modo che la macchina sia in grado di non disperdere nessuno dei livelli di informazioni presente nell’intenzionalità dell’emittente Standardizzazione e portabilità dei dati

Ortografia MRF Maiuscole (nomi e inizio periodo) Segni diacritici Spazi Corsivi …

Caratteristiche minime? No. Ciò che qualifica la MRF è la sua capacità di trasmettere ciò che il codificatore ha ritenuto fosse sematicamente rilevante

Documenti digitali: problemi Legati alla disponibilità di dispositivi hardware e software Elevata obsolescenza Difficile portabilità su piattaforme diverse Proliferazione dei sistemi di codifica Difficile condivisione dei dati e dei risultati

Standard Formali: ISO et al. Di fatto: es. MS Word

Standard portabile Indipendenza dall’hardware Indipendenza dal software Indipendenza dal sistema di codifica dei caratteri Indipendenza logica dalle tipologie di elaborazione

Set dei Caratteri Codice ASCII: ISO 646 7 bit (27= 128) 128 caratteri Codice Latin-1: ISO 8859-1 – 256 caratteri 8 bit (28= 256) 256 caratteri Comprende ISO 646

Set dei Caratteri Codice Unicode: sincronizzato a ISO 10646 16 bit (216= 65.536) 65.536 caratteri Comprende ISO 646 e ISO 8859-1 UTF-8: versione a 8 bit di Unicode, char set predefinito per XML (noi lo useremo)

Modello di codifica Un modello è il risultato di un procedimento di astrazione necessario per sfuggire all’imprendibilità del continuo. Un modello deve essere qualcosa di “più piccolo” dell’oggetto che si vuole analizzare Un modello deve essere isomorfo Deve essere operata un scelta delle caratteristiche da codificare

Modellizzazione – Macro categorie Per quale scopo si codifica? Struttura Formato Contenuto

Analisi logico-strutturale dei testi L’individuazione delle componenti logico-formali dei testi così come si sono venute a conformare nella tradizione scritta occidentale

Livello strutturale Tutti i testi possono avere: un titolo (opzionale) un contenuto. Il contenuto può essere: unitario diviso in parti (parti, capitoli, libri), ciascuna della quali può avere: un contenuto.

Livello contenutistico I testi possono essere classificati in due grandi macro-categorie che conoscono però numerose contaminazioni: prosa poesia

Andamento Poesia e prosa possono avere un andamento: continuo dialogico

Andamento continuo la prosa è costituita di una sequenza di paragrafi elenchi, a loro volta costituiti di entrate, in cui si distinguono numero (opzionale) topic (argomento, soggetto; opzionale) descrizione tabelle righe celle la poesia è costituita di una sequenza di divisioni metriche (opzionali) che contengono versi

Un esempio: poesia

Andamento dialogico i testi possono essere: unitari divisi in parti quali: atti scene In entrambi i casi sono costituiti di una sequenza di battute, divise al loro interno in: nome dell’interlocutore contenuto.

Un esempio: prosa

Markup & tagging In epoca pre-computer: caratterizzazione editoriale esplicitava la formattazione dei documenti Caratterizzazione editoriale in inglese: markup Annotazioni editoriali in inglese: tag

Con i word processor… Formattazione incorporata Tag invisibili Caratterizzazione migrata nei documenti

Sistemi WYSIWYG Programmi presentazionali Codifica invisibile all’utente Documenti difficilmente gestibili Formati proprietari

Markup Languages Linguaggi procedurali o specifici Linguaggi dichiarativi o generici

Linguaggi procedurali Orientati al documento Istruzioni che specificano caratteristiche come: Font Dimensione carattere Posizionamento Stile Disposizione sulla pagina

Un esempio: LaTeX \documentclass[a4paper,12pt]{article} \usepackage[latin1]{inputenc} \usepackage[italian]{babel} \usepackage{indentfirst} \pagestyle{plain} \topmargin-1cm \evensidemargin0.5cm \textwidth14cm \textheight23cm \setlength{\parindent}{1,25cm} \begin{document} \pagestyle{plain} \section{Introduzione} \vskip 1cm Questo è un esempio di documento \emph{LaTeX}. \end{document}

Sintassi \nomeTag[argomenti]{contenutoTag} Output standard

Linguaggi procedurali: problemi Codifica orientata all’output Difficilmente può essere utilizzata per scopi diversi

Linguaggi dichiarativi Orientati al testo Istruzioni per annotare il significato degli elementi costitutivi Trascurano l’aspetto che assumeranno nell’output Se un output strutturato si rende necessario, servirà un ulteriore livello procedurale (es. fogli di stile)

Un esempio: SGML <!DOCTYPE testo [ <!ELEMENT testo - - (titolo?, paragrafo+)> <!ELEMENT titolo - O (#PCDATA)> <!ELEMENT paragrafo - O (#PCDATA)> ]> <testo> <titolo>Esempio di documento SGML</> <paragrafo>Benvenuti nel mondo dei linguaggi dichiarativi standardizzati</> </testo>

Caratteristiche Markup definito dall’utente Cattura della semantica del testo Assenza di indicazioni circa l’output Flessibilità e possibilità di essere usato per molteplici scopi