IDUL 2013 RAPPRESENTAZIONE DELLE INFORMAZIONI IN FORMA DIGITALE 1.

Slides:



Advertisements
Presentazioni simili
BIT e BYTE il linguaggio del computer
Advertisements

Selezione - approfondimento
CODIFICA DELLE INFORMAZIONI
Sistemi di numerazione
Trasmissione delle informazioni
1 Informatica Generale Susanna Pelagatti Ricevimento: Mercoledì ore presso Dipartimento di Informatica, Via Buonarroti,
Codifica dell’Informazione
Codifica dei caratteri
Università degli Studi di Bergamo Facoltà di Lingue e Letterature Straniere Facoltà di Lettere e Filosofia A.A Informatica generale 1 Appunti.
Università degli Studi di Bergamo Facoltà di Lingue e Letterature Straniere Facoltà di Lettere e Filosofia A.A Informatica generale 1 Appunti.
Sistemi di Numerazione
1 Corso di Laurea in Biotecnologie Informatica (Programmazione) Rappresentazione dellinformazione su calcolatore Anno Accademico 2009/2010.
Corso di Informatica (Programmazione)
Algoritmi e strutture dati
Corso di Informatica per Giurisprudenza
Università degli Studi di Siena
ANALOGICO e DIGITALE 10°C
RAPPRESENTAZIONE DELLE INFORMAZIONI IN FORMA DIGITALE
Informatica Umanistica C Docente: Roberto Zamparelli roberto
INFORMATICA UMANISTICA B
INFORMATICA UMANISTICA B
INFORMATICA UMANISTICA B
Introduzione ai calcolatori
La rappresentazione dellinformazione. 7-2 Digitalizzare linformazione Digitalizzare: rappresentare linformazione per mezzo di cifre (ad es: da 0 a 9)
Lenci, Montemagni, Pirrelli Testo e computer – Carocci 2005 Capitolo 2
Lezione 5 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università
informatica di base per le discipline umanistiche
Gli esseri viventi ricevono informazione direttamente dal mondo circostante e dai propri simili attraverso i sensi (percezione). La percezione, tuttavia,
Codifica binaria Rappresentazione di numeri
Programma del corso Dati e loro rappresentazione Architettura di un calcolatore Sistemi operativi Linguaggi di programmazione Applicativi: - fogli elettronici.
Codifica dell’informazione
Formati e caratteristiche di digitalizzazione
Corso di Laurea in Biotecnologie corso di Informatica Paolo Mereghetti DISCo – Dipartimento di Informatica, Sistemistica e Comunicazione.
Programma del corso Introduzione agli algoritmi Rappresentazione delle Informazioni Architettura del calcolatore Reti di Calcolatori (Reti Locali, Internet)
Educare al multimediale 1 – Verso il digitale 2 Presentazione a cura di Gino Roncaglia Prima parte: Informazione in formato digitale.
RAPPRESENTAZIONE DELL'INFORMAZIONE
Il computer: struttura fisica e struttura logica
Che cos’è un sistema di numerazione?
CONCETTI DI BASE 1.0 FONDAMENTI 1.1 HARDWARE 1.2 SOFTWARE 1.3 RETI
RAPPRESENTAZIONE DELLE INFORMAZIONI
Digitale!!. Musica satellite (TV GPS) Telefoni rete telefonica, internet Video (DVD)
ECDL Patente europea del computer
Codifica dei dati in un elaboratore elettronico
Programma di Informatica Classi Prime
Codifica dell’informazione
Psicologia dello sviluppo e dell'educazione (laurea magistrale)
I computer vengono utilizzati per automatizzare la soluzione di problemi di varia natura trattando le informazioni in entrata (DATI) eseguendo gli opportuni.
DIGITALIAZZAZIONE Di Alessio.
La rappresentazione delle informazioni in un computer
Principi di grafica BMP , Jpeg , Tif , GIF:
Informazione multimediale Lettere e numeri non costituiscono le uniche informazioni utilizzate dagli elaboratori ma ci sono sempre piu’ applicazioni che.
Rappresentazione dell’informazione nel calcolatore.
Informatica Docente : Jeremy Sproston Orario: Gruppo 1: (gli studenti i cui cognomi iniziano con la lettera A fino alla lettera L (inclusi)) Lunedì ore.
Codifica dell’informazione
Informatica Lezione 3 Scienze e tecniche psicologiche dello sviluppo e dell'educazione (laurea triennale) Anno accademico:
Informatica Lezione 1 Scienze e tecniche psicologiche dello sviluppo e dell'educazione Anno accademico:
INFORmazione autoMATICA
Rappresentazione delle informazioni negli elaboratori
DIPARTIMENTO DI ELETTRONICA E INFORMAZIONE Codifica binaria dell’informazione Marco D. Santambrogio – Ver. aggiornata al 11.
Fondamenti di Informatica1 Memorizzazione su calcolatore L'unità atomica è il bit (BInary DigiT) L'insieme di 8 bit è detta byte Altre forme di memorizzazione:
Rappresentazione della Informazione
Corso di Laurea in Scienze e Tecnologie Chimiche corso di Informatica Generale Paolo Mereghetti DISCo – Dipartimento di Informatica, Sistemistica e Comunicazione.
I set di caratteri Fabio Vitali. Fabio Vitali - Almaweb Introduzione Qui esaminiamo in breve: Il problema della codifica dei caratteri ASCII (7.
Informatica Lezione 3 Psicologia dello sviluppo e dell'educazione (laurea magistrale) Anno accademico:
Codifica dei numeri Il codice ASCII consente di codificare le cifre decimali da “0” a “9” fornendo in questo modo una rappresentazione dei numeri Per esempio:
Codifica binaria dell’informazione
DIPARTIMENTO DI ELETTRONICA E INFORMAZIONE Codifica binaria dell’informazione Marco D. Santambrogio – Ver. aggiornata al 24.
Un codice è costituito da un alfabeto (insieme di simboli) parole (combinazioni di simboli validi) nel computer tutti i codici usano come alfabeto le cifre.
1 Sistemi di Numerazione –Tutti i sistemi di numerazione sono fondati sullo stesso principio: la “base” (b) è un numero intero maggiore di 1; la base corrisponde.
Rappresentazione delle informazioni negli elaboratori L’entità minima di informazione all’interno di un elaboratore prende il nome di bit (binary digit.
Transcript della presentazione:

IDUL 2013 RAPPRESENTAZIONE DELLE INFORMAZIONI IN FORMA DIGITALE 1

MENU: Due tipi di informazione: in forma ANALOGICA (continua) in forma DISCRETA (o simbolica) Per rappresentare o comunicare informazione in forma discreta occorre un CODICE Esempi di codici: DNA, Morse Esempi di codici digitali: Per numeri Per testi Per immagini Per suoni 2

Computer come elaboratori di informazione Un computer deve: Fare input/output dell’informazione Usando i dispositivi di input/output Memorizzare l’informazione Usando la memoria principale/secondaria Elaborare l’informazione Usando il processore 3

Informazione su computer codifica rappresentazione digitale informazione decodifica Mondo esterno Computer: memorizzazione, elaborazione 4

SVILUPPARE CODICI CHE PERMETTANO DI PROBLEMA DELLA RAPPRESENTAZIONE DELL’INFORMAZIONE SU COMPUTER SVILUPPARE CODICI CHE PERMETTANO DI RAPPRESENTARE INFORMAZIONE DI TIPO DISCRETO IN MODO EFFICIENTE SU UN SUPPORTO FISICO RAPPRESENTARE INFORMAZIONE DI TIPO ANALOGICO CON CODICI DISCRETI 5

RAPPRESENTAZIONE ANALOGICA E DISCRETA Rappresentazione ANALOGICA: una serie di distinzioni CONTINUE, prive in linea di principio di intervalli minimi. Immagini, suoni, numeri reali (3,14159265…) Rappresentazione DISCRETA: basata sulla combinazione di elementi minimi chiaramente distinti. Rappresentazione DIGITALE: una rappresentazione discreta codificata tramite numeri 6

Misure analogiche e digitali Anche gli orologi cosiddetti “analogici” non sono perfettamente tali: la lancetta dei secondi si muove a scatti, di secondo in secondo. In un orologio 'perfettamente' analogico a qualsiasi intervallo di tempo, per quanto piccolo, dovrebbe corrispondere un esatto movimento corrispondente in tutte le lancette. C'è chi dice che Jorge Luis Borges fosse proprietario di un tale orologio...

INFORMAZIONE IN FORMA ANALOGICA 8

INFORMAZIONE IN FORMA DISCRETA 9

Esempio: Il codice MORSE -- --- ·-· ··· · (space) -·-· --- -·· · M O R S E (space) C O D E 10

MORSE Un codice TERNARIO (-, ., spazio) Codici per i caratteri scelti in modo che i caratteri più frequenti abbiano codici più brevi 11

UN ESEMPIO DI CODICE DISCRETO VISIVO Altro esempio: I simboli degli Evangelisti nei dipinti medievali 12

CODICI IN NATURA In realta’, i codici sono apparsi ben prima degli esseri umani. In natura si trovano molti esempi di codici, i piu’ famosi dei quali sono Il DNA (4 simboli) Il repertorio di fonemi di un linguaggio (l’ insieme dei suoni che possono codificare differenze di significato) 13

UN CODICE FONDAMENTALE: Il DNA 14

CODICI PER NUMERI Nel caso dei numeri, la necessita’ di sviluppare un codice limitato non e’ motivata solo da facilita’ di memorizzazione, ma anche dalla necessita’ di usarli per MANIPOLAZIONI SIMBOLICHE 15

DUE CODICI PER I NUMERI Codice ROMANO: ( I, L, X, C, M, ...) VII + IV = XI Codice DECIMALE: (0, 1, 2, 3, 4, 5, 6, 7, 8, 9) 7 + 4 = 11 Differenza fondamentale: il codice decimale è un codice POSIZIONALE 7 = 7x100 75 = 7x101 + 5 x100 “Sette decine + cinque unità” I codici posizionali rendono le operazioni aritmetiche molto piu’ semplici 16

Rappresentazione digitale dei numeri Il codice decimale, benche’ molto comodo, non e’ il codice MINIMO Per rappresentare informazione sui computer, codice minimo essenziale perché occorre poter rappresentare ogni simbolo diverso in modo FISICO (= con circuiti elettrici) Il minimo numero di simboli diversi necessari per rappresentare tutti i numeri e’ il codice BINARIO: 0, 1 17

Perché la rappresentazione binaria? I due simboli (0 e 1) possono essere rappresentati da: Due stati di polarizzazione di una sostanza magnetizzabile Due stati di carica elettrica di una sostanza L’invenzione dei tubi catodici prima, e dei transistor poi, ci ha fornito gli strumenti per rappresentare due stati di carica elettrica 18

Rappresentazione digitale = rappresentazione binaria L’entità minima di informazione che possiamo trovare all’interno di un elaboratore prende il nome di bit Binary digit – cifra binaria Un bit può assumere due valori Rappresentazione binaria Solo due simboli (0 e 1) 19

rappresentazione di un numero Numeri BINARI e numeri ESADECIMALI X 10 rappresentazione di un numero numero A Sistema binario vengono usate due cifre (0 e 1) per rappresentare un numero problema: i numeri binari sono estremamente lunghi e difficili da ricordare Sistema esadecimale ogni numero è rappresentato con 16 cifre (0-9, A-F) i numeri sono più corti di quelli binari estrema facilità di conversione tra binario ed esadecimale in una sequenza binaria, ogni stringa di 4 bits corrisponde ad una cifra esadecimale 0110 1111 0110 numero binario (6) (15) (6) 6     F     6 numero esadecimale 1010 20

NUMERO MAGGIORE DI STATI Per poter rappresentare un numero maggiore di informazione si usano sequenze di bit «Al mondo esistono 10 categorie di persone: chi sa contare in binario e chi no» «10» in binario significa: 1 volta 21 + 0 volte 20, dove 21 = 2 20 = 1 Per quattro stati diversi: 00, 01, 10, 1 21

QUATTRO STATI DIVERSI Esempio: un esame può avere quattro possibili esiti: ottimo, discreto, sufficiente, insufficiente Codifica (due bit): ottimo con 00 discreto con 01 sufficiente con 10 insufficiente con 11 22

OTTO STATI Esempio: otto colori: nero, rosso, blu, giallo, verde, viola, grigio, arancione Codifico (tre bit): nero con 000 rosso con 001 blu con 010 giallo con 011 verde con 100 viola con 101 grigio con 110 arancione con 111 23

I numeri in rappresentazione binaria Il principio e’ lo stesso del codice decimale, ma con due soli simboli 70 = 7x101 + 0 x100 = 64 + 4 + 2 = 1 x26 + 0x25+ 0x24+ 0x23+ 1x22+ 1x21+ 0x20 = 1000110 178 = 1x102 + 7x101 + 8x100 = 128 + 32 + 8 + 2 = 1x27+ 0x26 + 1x25+ 0x24+ 1x23+ 0x22+ 1x21+ 0x20 = 10101010 24

BYTE Esiste una particolare aggregazione di bit che è costituita da 8 bit (28 = 256 informazioni) e prende il nome di byte Di solito per la capienza delle memorie si usano multipli del byte (KB, MB, GB, TB) Per le misure di trasmissione dati, si usano invece i multipli di bit at secondo (p.es Mbps, milioni di bit per secondo) 25

RAPPRESENTAZIONE DI NUMERI INTERI SU COMPUTER Tipicamente 4 byte (= 32 bit) oppure 8 byte (= 64 bit) Dire che un software è “a 64 bit” significa che rappresenta numeri usando 8 byte alla volta. Questo consente di rappresentare numeri più grandi (o decimali più precisi). Un S.O. a 64 bit può leggere e scrivere più celle di memoria: fino a 18.446.744.073.709.551.616 (limite per ora puramente teorico) 26

RAPPRESENTAZIONE DIGITALE DI ALTRI TIPI DI INFORMAZIONE Per molti anni, l’unico tipo di informazione rappresentata sui computer informazione di tipo numerico Ma lo stesso sistema può venire usato per codificare immagini, suoni, e testi 27

Codifica delle immagini Suddividiamo l’immagine mediante una griglia formata da righe orizzontali e verticali a distanza costante 28

Codifica delle immagini Ogni quadratino derivante da tale suddivisione prende il nome di pixel (picture element) e può essere codificato in binario secondo la seguente convenzione: Il simbolo “0” viene utilizzato per la codifica di un pixel corrispondente ad un quadratino in cui il bianco è predominante Il simbolo “1” viene utilizzato per la codifica di un pixel corrispondente ad un quadratino in cui il nero è predominante 29

Codifica delle immagini 1 30

Codifica delle immagini 1 Poiché una sequenza di bit è lineare, è necessario definire convenzioni per ordinare la griglia dei pixel in una sequenza. Assumiamo che i pixel siano ordinati dal basso verso l’alto e da sinistra verso destra 0000000000 0011111000 0011100000 0001000000 31

Codifica delle immagini Non sempre il cortorno della figura coincide con le linee della griglia. Quella che si ottiene nella codifica è un’approssimazione della figura originaria Se riconvertiamo la sequenza di stringhe 0000000000 0011111000 0011100000 0001000000 in immagine otteniamo 32

Codifica delle immagini La rappresentazione sarà più fedele all’aumentare del numero di pixel, ossia al diminuire delle dimensioni dei quadratini della griglia in cui è suddivisa l’immagine 33

EFFETTO DELLA RISOLUZIONE 34

PIU’ DI DUE COLORI Se l’immagine è solo in bianco e nero (senza grigi), basterà usare un ‘1’ per i pixel neri, e uno ‘0’ per i pixel bianchi Se l’immagine ha più di due colori, si faranno corrispondere a gruppi diversi di ‘0’ e ‘1’ sfumature diverse di colore (o di grigio) 35

RAPPRESENTARE COLORI Così, ad esempio, se si fa corrispondere a ogni pixel un byte (cioè 8 bit), potremo differenziare 256 colori Al posto della tabella di codifica dei caratteri avremo una tabella di codifica dei colori Ad es: 00101101  36

Digitalizzare le immagini La nostra immagine viene in questo modo fatta corrispondere a una larghissima matrice Ogni pixel dell’immagine viene codificato dal gruppo di ‘0’ e ‘1’ associato al suo colore dalla tabella di codifica dei colori utilizzata Per esempi di tabelle di colori, vedi: http://www.ficml.org/jemimap/style/color/wheel.html http://users.libero.it/luclep/itaint.htm 37

I SUONI 38

CONVERSIONE IN DIGITALE VIA CAMPIONAMENTO 39

SUONO: DALLA RAPPRESENTAZIONE ANALOGICA ALLA RAPPRESENTAZIONE DIGITALE 40

Digitalizzare informazione multimediale E i filmati? Un filmato non è altro che una successione di fotogrammi (frame) accompagnata da una colonna sonora Basterà codificare, uno per uno, tutti i fotogrammi (sappiamo come fare: ogni fotogramma è un’immagine)… e codificare la colonna sonora. Non stupisce che per codificare un breve filmato servano moltissimi bit! Per full HD: 1920 × 1080 x 16.777.216 x 24 41

Il testo come sequenza di caratteri Codifica digitale del testo Il testo come sequenza di caratteri Ciascun carattere alfanumerico, di punteggiatura o di controllo che compone il testo deve essere rappresentato nei termini di un codice binario Le avventure di Pinocchio Capitolo I Come andò che Maestro Ciliegia, falegname, trovò un pezzo di legno, che piangeva e rideva come un bambino. C'era una volta... - Un re! - diranno subito i miei piccoli lettori. - No, ragazzi, avete sbagliato. C'era una volta un pezzo di legno. Non era un legno di lusso, ma un semplice pezzo da catasta, di quelli che d'inverno si mettono nelle stufe e nei caminetti per accendere il fuoco e per riscaldare le stanze. Non so come andasse, ma il fatto gli è che un bel giorno questo pezzo di legno capitò nella bottega di un vecchio falegname, il quale aveva nome mastr'Antonio, se non che tutti lo chiamavano maestro 42

Il testo come sequenza di caratteri La codifica di livello 0 Il testo come sequenza di caratteri dietro le quinte… 43

La codifica di livello 0 caratteri e numeri MAESTRO CILIEGIA A carattere 65 codice (decimale) del carattere 0 1 0 0 0 0 0 1 codifica binaria del codice del carattere I computer elaborano internamente solo sequenze di bit (0,1) 44

Rappresentare i caratteri Quali caratteri scegliere? un insieme di caratteri (es. “A”, “a”, “!”, “à”, “§”, ecc.) i caratteri sono entità astratte, da non confondersi con il modo in cui sono realizzati tipograficamente (glifi) Uno stesso carattere può variare nella resa grafica in varie dimensioni: Serie (o font): AGKpqt, AGKpqt, AGKpqt, … Peso: AGKpqt, AGKpqt Inclinazione: AGKpqt, AGKpqt Punti: AGKpqt, AGKpqt, AGKpqt, AGKpqt Altri effetti: AGKpqt, AGKpqt, AGKpqt, AGKpqt, AGKpqt 45

Come rappresentare i caratteri? Caratteristiche distintive e non distintive Differenza tra MAIUSCOLE e minuscole in tedesco “Blau” (nome) vs “blau” (agg.), in Windows: (“Prova.txt, PROVA.TXT, prova.txt” sono lo stesso file); non così in Unix/Linux. La stessa realizzazione grafica può corrispondere a caratteri diversi (es. “A” latina e “A” cirillica e “A” greca) 46

Come rappresentare i caratteri nel computer? Come creare la corrispondenza? (=il codice) una tabella che definisce una corrispondenza biunivoca (1-a- 1) tra un repertorio di caratteri e un insieme di numeri interi non negativi a ogni carattere è assegnato un codice numerico (punto di codice / code position) Come codificare il carattere? algoritmo che determina come i codici dei caratteri vadano rappresentati in sequenze di bit (byte). Il problema è reso non banale dalla necessità di separare i caratteri: 43456 = (4)(34)(56) (4)(3)(4)(56) 47

Il codice ASCII (American Standard Code for Information Interchange) Primo standard per l’assegnazione di codici a caratteri (dal 1963) set di caratteri riconosciuto da tutti i computer conosciuto come “ASCII Standard” o ISO-646 Codifica 7 bit ciascun punto di codice è rappresentato con il numero binario corrispondente di 7 bit in realtà 1 byte = 8 bit di cui un bit non è usato per la codifica (bit di parità) 7 bit = 27 punti di codice = 128 caratteri rappresentati Sufficiente per rappresentare l’inglese mancano i caratteri accentati, umlaut, ecc. per rappresentare altri alfabeti occidentali 48

ASCII Standard decimale ed esadecimale 49

ASCII: Caratteri stampabili e di controllo I primi 32 caratteri dell’ASCII sono caratteri funzionali (non necessariamente stampabili) Cf. www.cs.tut.fi/~jkorpela/chars/c0.html 50

Caratteri di controllo Si ottengono premendo una lettera mentre si tiene premuto il tasto Cntl. A volte “Control” viene scritto “^” o “Ctrl-” (“Control-A” = “Ctrl-A” = “^A”) Compiono funzioni specifiche ai vari programmi. Corrispondono al carattere non stampabile che nell’ASCII si trova 64 posizioni indietro rispetto al codice della lettera maiuscola premuta insieme con Ctrl. Esempio: “G” = ASCII 71 “Control-G” = 71-64 = 7 = codice BELL (rappresentato dal suono beep del computer) Cf. http://it.wikipedia.org/wiki/Carattere_di_controllo ASCII è completato da uno standard per la interpretazione dei caratteri di controllo, (ANSI X3; per approfondimenti vedi http://www.inwap.com/pdp10/ansicode.txt ) 51

Caratteri di controllo: esempio del “fine riga” Può corrispondere a: Carriage Return, (CR, lo spostamento alla prima colonna, carattere 13, o Ctrl-M del ASCII), Line Feed, spostamento alla riga sottostante, senza cambiare colonna (LF, carattere n.10, Ctrl-J) Scelte differenti nei vari sistemi operativi: Windows/DOS: CR+LF (entrambi i caratteri necessari) Mac: solo CR (fino al System X, poi solo LF) Unix/Linux: solo LF 52

File binari e file ASCII I file possono essere di tipo ASCII (anche detti, con meno esattezza, “file di testo”) o di tipo binario. I primi contengono solo caratteri stampabili contenuti nel codice ASCII ristretto (dal 32 al 127), i secondi usano l'intero spazio dei valori possibili per il byte (256). Un file binario non può essere in genere visualizzato sullo schermo dai comandi di base del sistema operativo stesso (p.es. “type”) ma solo da programmi specifici per quel tipo di file binario (niente resa grafica standard) 53

File binari e file ASCII I file eseguibili (windows .exe, .com, …), le immagini (.jpg, .gif, .png, .tif, …) e tutti i file compressi (.zip, .gz, …) sono in genere in formato binario Il protocollo dell’email può solo trasmettere file ascii Con allegati (“attachment”) binari, necessità di ricodifica in ASCII Ne consegue: crescita di dimensioni attorno al 40% 54

Caratteri di controllo Il set di caratteri ISO-Latin-1 ISO-Latin-1 (ISO-8859-1 o ASCII esteso) unica estensione standard di ASCII 1 byte = 8 bit = 28 punti di codice = 256 caratteri rappresentati sufficiente per lingue europee occidentali (italiano, francese, ecc.) ASCII Standard Caratteri di controllo 0-32 128-159 55

La famiglia di caratteri ISO-8859 14 set di caratteri standardizzati da ISO (International Standard Organization) Codifica: 1 byte = 256 caratteri rappresentati da ciascun set Soprainsiemi dei caratteri ASCII Standard punti di codice 0 - 127 (parte comune) ASCII punti di codice 128 - 159 codici di controllo (non corrispondono a caratteri grafici) punti di codice 160 - 255 (parte variabile) caratteri aggiuntivi per greco, cirillico, lingue slave, arabo, ebraico, ecc. 56

La famiglia di caratteri ISO-8859 ISO-Latin-1 57

Limiti di ISO-8859 I set di ISO-8859 sono tutti reciprocamente incompatibili. Punto di codice 232 ISO-8859-1 (Latin-1) = “è” ISO-8859-5 (Cyrillic) = “ш” Come usare più lingue nello stesso documento? ISO-8859 non copre lingue come giapponese, cinese, ecc. che non usano sistemi alfabetici, ma ideografici 58

The Universal Character Set UNICODE (ISO-10646) Standard internazionale che si prefigge di rappresentare qualsiasi tipo di carattere appartenente ai sistemi grafici esistenti Sistemi di scrittura di tutte le lingue europee, asiatiche, africane, ecc., sia antiche che moderne. Sistemi di caratteri basati sui fonemi (p.es. italiano), sulle sillabe (p.es. Thai), su ideogrammi (p.es. Cinese), geroglifici, braille, ecc. Sistemi di simboli tecnici e scientifici (p.es. matematica, logica) Punteggiatura e segni diacritici (p.es. accenti) Risolve i problemi di incompatibilità dei sistemi ISO-8859 estende l’insieme dei caratteri supportati permette la realizzazione di documenti multilingui http://www.unicode.org/standard/translations/italian.html http://www.unicode.org/standard/WhatIsUnicode.html 59

The Universal Character Set UNICODE (ISO-10646) Circa 100.000 caratteri grafici rappresentati (Unicode v. 5.1.0) … ma i punti di codice disponibili sono più di 1 milione (4 byte)!! I primi 65536 caratteri (216) costituiscono il Basic Multilingual Plane (BMP), primo di 17 “piani” in cui è diviso UNICODE. Nel BMP, 6500 punti di codice sono riservati per usi privati (loghi, trademarks…) 60

The Universal Character Set UNICODE (ISO-10646) I punti di codice sono rappresentati con “U+numero esadecimale”, ed hanno un nome standard: “A” U+0041 = ”Latin Capital Letter A” (decimale 65) “ω” = U+03C9 = ”Greek Letter Omega” I primi 256 caratteri sono identici al set di caratteri Latin-1, a sua volta un soprainsieme dell' ASCII. 61

UNICODE: composizione dei caratteri Caratteri complessi (p.es. “u” con umlaut) possono essere rappresentati in due modi: Come elementi precostituiti (codice U+00FC, ”ü”) Come elementi composti, formati da un carattere di base quale ”u” (U+0075) ed uno o più caratteri che non introducono spaziatura (”non spacing”), che vengono quindi sovrascritti al precedente, in questo caso ”¨” (U+0308) Problema dell’ordinamento alfabetico (come decomporre caratteri complessi) 62

Codifica dei caratteri Vari tipi di codifica: UCS-2 (tutti i caratteri a 2 byte) UCS-4 (tutti i caratteri a 4 byte) UTF-16, ecc. UTF-8 (caratteri 0-127 con 1 byte, oltre 2, 3 o 4 byte) Codifica più comune: UTF-8: In questa codifica l'ultimo bit del byte dice al sistema se il carattere finisce (come in inglese) o se il byte successivo continua a specificare lo stesso carattere (p.es. in cinese). 63

Blocchi di codice I vari alfabeti sono divisi in gruppi detti “blocchi di codice” (code blocks) Tentativo di non duplicare i caratteri di lingue diverse. Non esiste p.es. una “A” italiana, una “A” norvegese. 64

Blocchi di codice (2) Vengono invece duplicati i caratteri omografi di sistemi di scrittura (storicamente) diversi (p.es. Greco, latino, cirillico) Al contrario, le migliaia di ideogrammi comuni alla scrittura cinese, giapponese e coreana (che discendono tutti da una scrittura comune) sono unificati (si veda http://www.unicode.org/notes/tn26/ per una discussione del perché) 65

Come trovo il mio carattere? Oppure procedendo per sistema di scrittura (script) http://www.unicode.org/charts/ Alcune spiegazioni generali su: http://unicode.org/standard/where/ Indice alfabetico dei caratteri:http://www.unicode.org/charts/charindex.htm l Problemi maggiori per i simboli 66

Problema della resa grafica: 1010011101 1000100100 1001010010 0110010100 1010011101 1000100100 1001010010 0110010100 Unicode ISO-Latin-1 Ab bkйd من٦و ds kjdks kdsk sybco oθδjpjp Ab bkƛd ƛƛƛƛ ds kjdks kdsk sybco oƛƛjpjp 67

RIASSUNTO Due tipi di informazione: in forma ANALOGICA, in forma DISCRETA (o simbolica) Per rappresentare o comunicare informazione occorre un CODICE Codici digitali: Per numeri: binario Per testi: ASCII Per immagini Per suoni E’ possibile progettare dei codici piu’ o meno ottimali usando idee della teoria dell’informazione Compressione: JPEG, MP3 68

RIFERIMENTI / SITI Tomasi, capitoli 1.1 e 6 Lucidi di Ciotti online: Online: http://www.mediamente.rai.it/mediamentetv/learning/ed_ multimediale/lezioni/01/ 69