Informatica Umanistica C Docente: Roberto Zamparelli roberto

Slides:



Advertisements
Presentazioni simili
INFORMATICA UMANISTICA MODULI B, C E D
Advertisements

Informatica umanistica moduli B, C e D dit. unitn
Introduzione all’HTML
Sistemi Operativi - Vi 1 Il sistema operativo LINUX Leditor vi Giorgio Di Natale Stefano Di Carlo Politecnico di Torino Dip. Automatica e Informatica.
Informatica umanistica: Moduli B, C e D
INFORMATICA UMANISTICA MODULI B, C E D Massimo Poesio (B, D) Marco Baroni (Lab D) Roberto Zamparelli (C)
Fondamenti di Informatica
Lezione 1 Primi passi in HtML SCRIVERE TESTI di Sergio Capone
MODULO 3 – ELABORAZIONE TESTI
© 2007 SEI-Società Editrice Internazionale, Apogeo Unità F2 Selezione.
Selezione - approfondimento
CODIFICA DELLE INFORMAZIONI
Elaborazione del Book Informatico. 2 Marco M. Vernillo – a.a. 2002/2003 – Elaborazione del Book Informatico Elaborazione del Book Informatico 1. Tecnologie.
Sistemi di numerazione
Trasmissione delle informazioni
1 Informatica Generale Susanna Pelagatti Ricevimento: Mercoledì ore presso Dipartimento di Informatica, Via Buonarroti,
Università degli Studi di Bergamo Facoltà di Lingue e Letterature Straniere Facoltà di Lettere e Filosofia A.A Informatica generale 1 Appunti.
Sistemi di Numerazione
1 Corso di Laurea in Biotecnologie Informatica (Programmazione) Rappresentazione dellinformazione su calcolatore Anno Accademico 2009/2010.
Corso di Informatica (Programmazione)
Corso di Informatica per Giurisprudenza
RAPPRESENTAZIONE DELLE INFORMAZIONI IN FORMA DIGITALE
Dagli editor di testo alla codifica di alto livello
IDUL 2013 RAPPRESENTAZIONE DELLE INFORMAZIONI IN FORMA DIGITALE 1.
CORSO DI INFORMATICA LAUREA TRIENNALE-COMUNICAZIONE & DAMS
INFORMATICA UMANISTICA B
INFORMATICA UMANISTICA B
INFORMATICA UMANISTICA B
Laboratorio di Informatica
La rappresentazione dellinformazione. 7-2 Digitalizzare linformazione Digitalizzare: rappresentare linformazione per mezzo di cifre (ad es: da 0 a 9)
Organizzazione del corso
Laboratorio di Calcolo I 1) Introduzione Università Roma Tre Corso di Studi in Fisica AA 2002/03.
Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2
Lezione 5 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università
Lezione 5 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università
informatica di base per le discipline umanistiche
Codifica binaria Rappresentazione di numeri
Programma del corso Dati e loro rappresentazione Architettura di un calcolatore Sistemi operativi Linguaggi di programmazione Applicativi: - fogli elettronici.
Espressioni condizionali
Corso di PHP.
Corso di Laurea in Biotecnologie corso di Informatica Paolo Mereghetti DISCo – Dipartimento di Informatica, Sistemistica e Comunicazione.
Programma del corso Introduzione agli algoritmi Rappresentazione delle Informazioni Architettura del calcolatore Reti di Calcolatori (Reti Locali, Internet)
Trattamento di Foto e Immagini Digitali
Educare al multimediale 1 – Verso il digitale 2 Presentazione a cura di Gino Roncaglia Prima parte: Informazione in formato digitale.
RAPPRESENTAZIONE DELL'INFORMAZIONE
Test Reti Informatiche A cura di Gaetano Vergara Se clicchi sulla risposta GIUSTA passi alla domanda successiva Se clicchi sulla risposta ERRATA passi.
Il computer: struttura fisica e struttura logica
Microsoft Word (oppure, OpenOffice Writer)‏
Che cos’è un sistema di numerazione?
CONCETTI DI BASE 1.0 FONDAMENTI 1.1 HARDWARE 1.2 SOFTWARE 1.3 RETI
A cura di Saverio Cantone
Digitale!!. Musica satellite (TV GPS) Telefoni rete telefonica, internet Video (DVD)
HTML HyperText Markup Language Linguaggio per marcare un’Ipertesto
Codifica dell’informazione
I computer vengono utilizzati per automatizzare la soluzione di problemi di varia natura trattando le informazioni in entrata (DATI) eseguendo gli opportuni.
Tecnologie di InternetFondamenti di Linguaggi di Markup Dott. Nicola Dragoni Introduzione a e ai (Fondamenti di Markup Languages)
Programma delle lezioni LABORATORIO B  Lezione 01: 27/02martedi  Lezione 02: 06/03martedi  Lezione 03: 13/03martedi  Lezione 04:
Corso Web CSV – Andiamo on-line 1 Andiamo on-line Corso di formazione Elementi base per la costruzione di un sito web.
Programma delle lezioni LABORATORIO B  Lezione 01: 27/02martedi  Lezione 02: 06/03martedi  Lezione 03: 13/03martedi  Lezione 04:
Internet e HTML Diffusione di informazioni mediante la rete Internet.
Informatica Docente : Jeremy Sproston Orario: Gruppo 1: (gli studenti i cui cognomi iniziano con la lettera A fino alla lettera L (inclusi)) Lunedì ore.
Codifica dell’informazione
Corsi di Laurea in Biotecnologie
INFORmazione autoMATICA
Rappresentazione della Informazione
Corso di Laurea in Scienze e Tecnologie Chimiche corso di Informatica Generale Paolo Mereghetti DISCo – Dipartimento di Informatica, Sistemistica e Comunicazione.
I set di caratteri Fabio Vitali. Fabio Vitali - Almaweb Introduzione Qui esaminiamo in breve: Il problema della codifica dei caratteri ASCII (7.
1 Sistemi di Numerazione –Tutti i sistemi di numerazione sono fondati sullo stesso principio: la “base” (b) è un numero intero maggiore di 1; la base corrisponde.
© 2015 Giorgio Porcu - Aggiornamennto 01/12/2015 I STITUTO T ECNICO SECONDO BIENNIO T ECNOLOGIE E P ROGETTAZIONE Rappresentazione dell’ Informazione Informazione.
Transcript della presentazione:

Informatica Umanistica C Docente: Roberto Zamparelli email: roberto Informatica Umanistica C Docente: Roberto Zamparelli email: roberto.zamparelli@lett.unitn.it Un corso di introduzione alla codifica digitale dei testi.

Orari Due orari in alternativa (a scelta libera, salvo sbilanciamenti) Giovedi, 10-12 (C1) Venerdì, 14-16 (C2) Ricevimento studenti: giovedì 12.00-14.00 Esercitazioni nel laboratorio informatico (3 orari a scelta)

Ricevimento studenti Presso gli uffici di via Sighele 7, (L’ufficio è sul lato sin. del palazzo arrivando da via Sighele)

Esercitazioni Lab 1 Lun 14:00-16:00, lab multimediale 1 (docente: Paolo Massa; calendario: 25/02-05/05, eccetto periodo pasquale) Lab 2 Mar 10:00-12:00, lab multimediale 1 (docente: M.Grosselle; calendario: 26/02-6/05, eccetto periodo pasquale) Lab 2 Gio 10:00-12:00, lab multimediale 1 (docente: M.Napolitano; calendario: 28/02-13/03, 03/04-24/04, 08/05-22/05)

Contenuti del corso (1) Testi, da ASCII a UNICODE: Codifica di basso livello (gio28/02+ven) Dagli editor di testo alla codifica di alto livello (gio6/03+ven) Marcatura XML: aspetti generali (gio13/03+ven) Marcatura XML: DTD (gio03/04+ven) Marcatura XML: esempi (gio10/03+ven)

Contenuti del corso (2) Da definire (gio17/4+ven) Altri formati di presentazione del testo (PDF, ecc.) (gio24/4+ven) Compressione e criptazione (gio01/05,ven) Testi on-line: basi dati e ricerche (gio8/05,ven) Aspetti sociali del web (gio15/05,ven) (NB: i contenuti possono essere soggetti a variazioni)

Esame Esame: date e modalità sono nel sito http://people.lett.unitn.it/zamparelli/ Frequentanti: orale con discussione di un progetto xml/xsl Non frequentanti: orali con discussione di un progetto HTML e qualche domanda teorica. N.B. La scelta di presentarsi all’esame come frequentanti o non frequentanti riguarda i corsi B e C in blocco (niente frequenze “miste”)

Testi per preparare l’esame Queste note (scaricabili da Didattica on Line e dalla pagina web http://people.lett.unitn.it/zamparelli ) Lenci, Montemagni e Pirrelli, “Testo e Computer: Elementi di Linguistica Computazionale”, Carocci, 2005, cap. 1,2,3

Testi di riferimento (utili per la preparazione dei progetti) Guide all’XML (per frequentanti) on-line http://www.html.it/xml/guida/index.html oppure http://www.xml.com/pub/a/98/10/guide0.html (vedi anche http://www.dit.unitn.it/~poesio/Teach/IU/materiale-online.html ) Off line: Devan Shepherd, XML guida completa, Apogeo, 2002 (cap. 1, 2, 3, 4, 7, 8, 9, 10, 14, 16). Guide all’HTML On-line: vedi url dei lab (per l’anno 05/06 http://sra.itc.it/people/polettini/laboratori.html) Off line: F. Comolli, Laboratorio di HTML, Apogeo, 2000. Shelly, Cashman, Woods, HTML: Imparare per progetti, Apogeo, 2000. AA.VV., XHTML, Addison Wesley, 2001. Altro: http://mediatedcultures.net/ksudigg/?p=78

Lezione 1 Testi, da ASCII a UNICODE: Codifica di basso livello

Diapositive adattate da: Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005, Cap.2: La codifica digitale del testo l’originale (qui modificato) è alla URL http://www.ilc.cnr.it/dylan_lab/Testo_e_computer/home.htm (materiali did. cap.2)

La codifica digitale del testo Rappresentazione del testo su supporto digitale in un formato “leggibile” da un computer: Machine Readable Form (MRF) I computer memorizzano ed elaborano dati sotto forma di sequenze di due soli simboli 0 e 1 (cifre binarie) Ogni tipo di informazione deve essere codificata in cifre binarie codificare informazione = associare a ciascuna unità di informazione un codice (sequenza di cifre binarie) che la identifica in maniera univoca I testi per essere elaborati o trasmessi da un programma devono avere una rappresentazione (codifica) binaria

La codifica digitale del testo che tipo di rappresentazione digitale del testo?

La codifica digitale del testo Il testo e la sua organizzazione intestazione capitolo titolo testo

La codifica digitale del testo Il testo e la sua struttura linguistica sintagma nominale V andare pass. rem. 3 sing. frase relativa articolo indefinito femminile singolare stanze = oggetto di riscaldare stanza come luogo tutti = soggetto

La codifica digitale del testo Il testo come sequenza di caratteri Ciascun carattere alfanumerico, di punteggiatura o di controllo che compone il testo deve essere rappresentato nei termini di un codice binario Le avventure di Pinocchio Capitolo I Come andò che Maestro Ciliegia, falegname, trovò un pezzo di legno, che piangeva e rideva come un bambino. C'era una volta... - Un re! - diranno subito i miei piccoli lettori. - No, ragazzi, avete sbagliato. C'era una volta un pezzo di legno. Non era un legno di lusso, ma un semplice pezzo da catasta, di quelli che d'inverno si mettono nelle stufe e nei caminetti per accendere il fuoco e per riscaldare le stanze. Non so come andasse, ma il fatto gli è che un bel giorno questo pezzo di legno capitò nella bottega di un vecchio falegname, il quale aveva nome mastr'Antonio, se non che tutti lo chiamavano maestro Ciliegia, per via della punta del suo naso, che era sempre lustra e paonazza, come una ciliegia matura.

La codifica digitale del testo Il testo come sequenza di caratteri “Surrogato” parziale del testo originario completa equivalenza solo dal punto di vista dei caratteri che lo compongono perdita di informazione l’informazione implicitamente veicolata dalla formattazione del testo relativa a: le coordinate meta-testuali il nome dell’autore, il titolo, ecc. la struttura e organizzazione testuale la suddivisione logica in sezioni, capitoli, paragrafi, ecc. nessun guadagno di informazione l’informazione sulla struttura linguistica rimane implicita e nascosta (come nel testo originale)

La codifica digitale del testo Due livelli di codifica del testo digitale codifica di basso livello (codifica di livello 0) riguarda la rappresentazione binaria della sequenza ordinata dei caratteri codifica di alto livello arricchisce il testo codificato al livello zero con informazione relativa a dimensioni strutturali organizzazione del testo in strutture macrotestuali articolazione del testo in strutture linguistiche La codifica di alto livello permette di rendere esplicita qualsiasi interpretazione, anche di tipo linguistico-letterario, si voglia associare al testo

Il testo come sequenza di caratteri La codifica di livello 0 Il testo come sequenza di caratteri dietro le quinte…

La codifica di livello 0 caratteri e numeri MAESTRO CILIEGIA carattere 65 codice (decimale) del carattere 0 1 0 0 0 0 0 1 codifica binaria del codice del carattere I computer elaborano internamente solo sequenze di bit (0,1)

rappresentazione di un numero Numeri e numeri X 10 rappresentazione di un numero numero A Sistema binario vengono usate due cifre (0 e 1) per rappresentare un numero problema: i numeri binari sono estremamente lunghi Sistema esadecimale ogni numero è rappresentato con 16 cifre (0,1,2,3,4,5,6,7,8,9,A,B,C,D,E,F) i numeri sono più corti di quelli binari estrema facilità di conversione tra binario ed esadecimale in una sequenza binaria, ogni stringa di 4 bit corrisponde ad una cifra esadecimale 0110 1111 0110 numero binario (6) (15) (6) 6     F     6 numero esadecimale 1010

Come rappresentare i caratteri? Quali caratteri scegliere? un insieme di caratteri (es. “A”, “a”, “!”, “à”, “P”, ecc.) i caratteri sono entità astratte, da non confondersi con il modo in cui sono realizzati tipograficamente (glifi) Uno stesso carattere può variare nella resa grafica in varie dimensioni: Serie (o font): AGKpqt, AGKpqt, AGKpqt, … Peso: AGKpqt, AGKpqt Inclinazione: AGKpqt, AGKpqt Punti: AGKpqt, AGKpqt, AGKpqt, AGKpqt Altri effetti: AGKpqt, AGKpqt, AGKpqt, AGKpqt, AGKpqt

Come rappresentare i caratteri? Distinzioni distintive e non distintive Differenza tra MAIUSCOLE e minuscole in tedesco “Blau” (nome) vs “blau” (agg.), in Windows: (“Prova.txt, PROVA.TXT, prova.txt” sono lo stesso file) La stessa realizzazione grafica può corrispondere a caratteri diversi (es. “A” latina e “A” cirillica e “A” greca)

Come rappresentare i caratteri nel computer? Come creare la corrispondenza? (il codice) una tabella che definisce una corrispondenza biunivoca (1-a-1) tra un repertorio di caratteri e un insieme di numeri interi non negativi a ogni carattere è assegnato un codice numerico (punto di codice / code position) Come codificare il carattere? algoritmo che determina come i codici dei caratteri vadano rappresentati in sequenze di bit (byte). Il problema è reso non banale dalla necessità di separare i caratteri: 43456 = (4)(34)(56) (4)(3)(4)(56)

Il codice ASCII (American Standard Code for Information Interchange) Primo standard per l’assegnazione di codici a caratteri (dal 1963) set di caratteri riconosciuto da tutti i computer conosciuto come “ASCII Standard” o ISO-646 Codifica 7 bit ciascun punto di codice è rappresentato con il numero binario corrispondente di 7 bit in realtà 1 byte = 8 bit di cui un bit non è usato per la codifica (bit di parità) 7 bit = 27 punti di codice = 128 caratteri rappresentati Sufficiente per rappresentare l’inglese mancano i caratteri accentati, umlaut, ecc. per rappresentare altri alfabeti occidentali

ASCII Standard decimale ed esadecimale

ASCII: Caratteri stampabili e di controllo I primi 32 caratteri dell’ASCII sono caratteri funzionali (non necessariamente stampabili) Cf. www.cs.tut.fi/~jkorpela/chars/c0.html

Caratteri di controllo Si ottengono premendo una lettera mentre si tiene premuto il tasto Cntl. A volte “Control” viene scritto “^” o “Ctrl-” (“Control-A” = “Ctrl-A” = “^A”) Compiono funzioni specifiche ai vari programmi. Corrispondono al carattere non stampabile che nell’ASCII si trova 64 posizioni indietro rispetto al codice della lettera maiuscola premuta insieme con Ctrl. Esempio: “G” = ASCII 71 “Control-G” = 71-64 = 7 = codice BELL (rappresentato dal suono beep del computer) Cf. http://it.wikipedia.org/wiki/Carattere_di_controllo\#Nella_tavola_ASCII ASCII è completato da uno standard per la interpretazione dei caratteri di controllo, (ANSI X3; per approfondimenti vedi http://www.inwap.com/pdp10/ansicode.txt )

Caratteri di controllo: esempio del “fine riga” Può corrispondere a: Carriage Return, (CR, lo spostamento alla prima colonna, carattere 13, o Ctrl-M del ASCII), Line Feed, spostamento alla riga sottostante, senza cambiare colonna (LF, carattere n.10, Ctrl-J) Scelte differenti nei vari sistemi operativi: Windows/DOS: CR+LF (entrambi i caratteri necessari) Mac: solo CR (fino al System X, poi solo LF) Unix/Linux: solo LF

File binari e file ASCII I file possono essere di tipo ASCII o di tipo binario. I primi contengono solo caratteri stampabili contenuti nel codice ASCII ristretto (dal 32 al 127), i secondi usano l'intero spazio dei valori possibili per il byte (256). Un file binario non può essere in genere visualizzato sullo schermo dai comandi di base del sistema operativo stesso (p.es. “type”) ma solo da programmi specifici per quel tipo di file binario (niente resa grafica standard)

File binari e file ASCII I file eseguibili (windows .exe, .com, …), le immagini (.jpg, .gif, .png, .tif, …) e tutti i file compressi (.zip, .gz, …) sono in genere in formato binario Il protocollo dell’email può solo trasmettere file ascii Con allegati (“attachment”) binari, necessità di ricodifica in ASCII crescita di dimensioni attorno al 40%

Il set di caratteri ISO-Latin-1 ISO-Latin-1 (ISO-8859-1 o ASCII esteso) unica estensione standard di ASCII 1 byte = 8 bit = 28 punti di codice = 256 caratteri rappresentati sufficiente per lingue europee occidentali (italiano, francese, ecc.) ASCII Standard Caratteri di controllo 0-32 128-159

La famiglia di caratteri ISO-8859 14 set di caratteri standardizzati da ISO (International Standard Organization) Codifica: 1 byte = 256 caratteri rappresentati da ciascun set Soprainsiemi dei caratteri ASCII Standard punti di codice 0 - 127 (parte comune) ASCII punti di codice 128 - 159 codici di controllo (non corrispondono a caratteri grafici) punti di codice 160 - 255 (parte variabile) caratteri aggiuntivi per greco, cirillico, lingue slave, arabo, ebraico, ecc. I set di ISO-8859 sono tutti reciprocamente incompatibili Punto di codice 232 ISO-8859-1 (Latin-1) = “è” ISO-8859-5 (Cyrillic) = “ш” ISO-8859 non copre lingue come giapponese, cinese, ecc.

La famiglia di caratteri ISO-8859 ISO-Latin-1

The Universal Character Set UNICODE (ISO-10646) Standard internazionale che si prefigge di rappresentare qualsiasi tipo di carattere appartenente ai sistemi grafici esistenti Sistemi di scrittura di tutte le lingue europee, asiatiche, africane, ecc., sia antiche che moderne. Sistemi di caratteri basati sui fonemi (p.es. italiano), sulle sillabe (p.es. Thai), su ideogrammi (p.es. Cinese), geroglifici, braille, ecc. Sistemi di simboli tecnici e scientifici (p.es. matematica, logica) Punteggiatura e segni diacritici (p.es. accenti) Risolve i problemi di incompatibilità dei sistemi ISO-8859 estende l’insieme dei caratteri supportati permette la realizzazione di documenti multilingui http://www.unicode.org

The Universal Character Set UNICODE (ISO-10646) Circa 96.000 caratteri grafici rappresentati (Unicode v. 4.0) … ma i punti di codice disponibili sono più di 1 milione (4 byte)!! I primi 65536 caratteri (216) costituiscono il Basic Multilingual Plane (BMP), primo di 17 “piani” in cui è diviso UNICODE. Nel BMP, 6500 punti di codice sono riservati per usi privati (loghi, trademarks…)

The Universal Character Set UNICODE (ISO-10646) I punti di codice sono rappresentati con “U+numero esadecimale”, ed hanno un nome standard: “A” U+0041 = ”Latin Capital Letter A” (decimale 65) “ω” = U+03C9 = ”Greek Letter Omega” I primi 256 caratteri sono identici al set di caratteri Latin-1, a sua volta un soprainsieme dell' ASCII.

UNICODE: composizione dei caratteri Caratteri complessi (p.es. “u” con umlaut) possono essere rappresentati in due modi: Come elementi precostituiti (codice U+00FC, ”ü”) Come elementi composti, formati da un carattere di base quale ”u” (U+0075) ed uno o più caratteri che non introducono spaziatura (”non spacing”), che vengono quindi sovrascritti al precedente, in questo caso ”¨” (U+0308) Problema dell’ordinamento alfabetico (come decomporre caratteri complessi)

Codifica dei caratteri Vari tipi di codifica: UCS-2 (tutti i caratteri a 2 byte) UCS-4 (tutti i caratteri a 4 byte) UTF-8 (caratteri 0-127 con 1 byte, oltre 2, 3 o 4 byte) UTF-16, ecc. Codifica più comune: UTF-8

Blocchi di codice I vari alfabeti sono divisi in gruppi detti “blocchi di codice” (code blocks) Si è tuttavia cercato di non duplicare i caratteri di lingue diverse. Non esiste p.es. una “A” italiana, una “A” norvegese. Anche le migliaia di ideogrammi comuni alla scrittura cinese, giapponese e coreana (che discendono tutti da una scrittura comune) sono unificati.

The Universal Character Set UNICODE (ISO-10646)

Caratteri e computer Ab bkйd من٦و ds kjdks kdsk sybco oθδjpjp 1010011101 1000100100 1001010010 0110010100 1010011101 1000100100 1001010010 0110010100 Unicode ISO-Latin-1 Ab bkйd من٦و ds kjdks kdsk sybco oθδjpjp Ab bkƛd ƛƛƛƛ ds kjdks kdsk sybco oƛƛjpjp

Caratteri e computer Risoluzione dei problemi Analisi dei caratteri nel testo individuare il set di caratteri con cui è scritto il documento: ASCII Standard, Unicode, ISO-8859, ecc. individuare il set di caratteri accettati dal programma con cui si deve elaborare il testo. verificare l’eventuale esistenza di caratteri composti. Eventuale sostituzione dei caratteri sostituzione dei caratteri non appartenenti al set accettato dal programma buona parte del sw. accetta solo ASCII attenzione alla perdita di informazione!! è = e’ š  s Muenich  Münich