Teoria dell’Informazione (Classica)

Slides:



Advertisements
Presentazioni simili
Dall’informazione al linguaggio macchina
Advertisements

Rappresentazioni numeriche
Dalla macchina alla rete
Lequivocazione By Vaccaro Maria A.. Che incidenza ha il disturbo sullinformazione? Si avrà in tal caso che lincertezza media nel messaggio trasmesso.
Informatica Generale Susanna Pelagatti
2. Introduzione alla probabilità
Informatica Generale Marzia Buscemi IMT Lucca
Rappresentazione di Numeri Reali
Rappresentazioni numeriche
Sistemi di numerazione
Le Informazioni e la loro Rappresentazione nei calcolatori
Trasmissione delle informazioni
6. Catene di Markov a tempo continuo (CMTC)
1 2. Introduzione alla probabilità Definizioni preliminari: Prova: è un esperimento il cui esito è aleatorio Spazio degli eventi elementari : è linsieme.
Andrea G. B. Tettamanzi, 2001 Teoria dellInformazione (Classica) Andrea G. B. Tettamanzi Università degli Studi di Milano Dipartimento di Tecnologie dellInformazione.
Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei.
6. Catene di Markov a tempo continuo (CMTC)
3. Processi Stocastici Un processo stocastico è una funzione del tempo i cui valori x(t) ad ogni istante di tempo t sono v.a. Notazione: X : insieme di.
Sistemi e Tecnologie della Comunicazione
Gli alberi binari sono contenitori efficienti.
prototipo di crescita esponenziale crescita aritmetica.
Corso di Tecniche e Sistemi di trasmissione Fissi e Mobili
Circuiti di memorizzazione elementari: i Flip Flop
Università degli Studi di Bergamo Facoltà di Lingue e Letterature Straniere Facoltà di Lettere e Filosofia A.A Informatica generale 1 Appunti.
Informatica 3 Codifica binaria.
Testo consigliato Crittografia, P. Ferragina e F. Luccio, Ed. Bollati Boringhieri, € 16.
Camil Demetrescu, Irene Finocchi, Giuseppe F. ItalianoAlgoritmi e strutture dati Algoritmi e Strutture Dati Capitolo 2 Modelli di calcolo e metodologie.
Processi Aleatori : Introduzione – Parte I
A.S.E.13.1 ARCHITETTURA DEI SISTEMI ELETTRONICI LEZIONE N° 13 Somma e differenza di due numeri in C2Somma e differenza di due numeri in C2 Half AdderHalf.
A.S.E.6.1 ARCHITETTURA DEI SISTEMI ELETTRONICI LEZIONE N° 6 Complemento a MComplemento a M Rappresentazione di numeri con segnoRappresentazione di numeri.
A.S.E.5.1 ARCHITETTURA DEI SISTEMI ELETTRONICI LEZIONE N° 5 Rappresentazione di numeri con segnoRappresentazione di numeri con segno –Modulo e segno (MS)
1 Corso di Laurea in Biotecnologie Informatica (Programmazione) Rappresentazione dellinformazione su calcolatore Anno Accademico 2009/2010.
Settembre 2002IFTS2002 Acq. Dati Remoti: INFORMATICA 1 Rappresentazione dellinformazione (1)
Algoritmi e strutture dati
by Vaccaro Maria Antonietta
Corso di biomatematica Lezione 2: Probabilità e distribuzioni di probabilità Davide Grandi.
Corso di Informatica per Giurisprudenza
Esistono 10 tipi di persone al mondo: Quelli che conoscono il codice binario & Quelli che non lo conoscono.
I CODICI.
Rappresentazioni numeriche
Rappresentazione binaria dei numeri interi senza segno.
CODICI Si ringrazia il prof. Di Santo per aver gentilmente messo a disposizione il proprio materiale per la preparazione di alcune delle slides presenti.
Codici binari decimali
Tecnologie Informatiche per la Qualità 1 - La Qualità 1 Università degli Studi di Milano – Polo di Crema - Dipartimento di Tecnologie dellInformazione.
Teoria dei codici correttori d'errore
Modelli simulativi per le Scienze Cognitive
Laboratorio di El&Tel Elaborazione numerica dei segnali: analisi delle caratteristiche dei segnali ed operazioni su di essi Mauro Biagi.
Rappresentazioni numeriche. Introduzione Un calcolatore elettronico dispone di uno spazio finito per memorizzare le cifre che esprimono un valore numerico.
Cos’è un problema?.
Sistema di comunicazione
Gli esseri viventi ricevono informazione direttamente dal mondo circostante e dai propri simili attraverso i sensi (percezione). La percezione, tuttavia,
Codifica binaria Rappresentazione di numeri
Programma del corso Dati e loro rappresentazione Architettura di un calcolatore Sistemi operativi Linguaggi di programmazione Applicativi: - fogli elettronici.
Limiti al trasferimento di informazione u Il tempo necessario per trasmettere dellinformazione dipende da: –la velocita di segnalazione (cioe quanto velocemente.
Rappresentazione dell’informazione
Corso di Laurea in Biotecnologie corso di Informatica Paolo Mereghetti DISCo – Dipartimento di Informatica, Sistemistica e Comunicazione.
Programma del corso Introduzione agli algoritmi Rappresentazione delle Informazioni Architettura del calcolatore Reti di Calcolatori (Reti Locali, Internet)
RAPPRESENTAZIONE DELL'INFORMAZIONE
Parte Terza: Codificare l’informazione
Ci occupiamo della misura dellinformazione emessa da una sorgente la sorgente è tanto più efficiente quanto più risulta imprevedibile da parte del destinatario.
Cerchiamo di rispondere alla seconda domanda 2)La soluzione trovata con lalgoritmo goloso è ottima o esistono anche soluzioni con più di quattro attività?
Le distribuzioni campionarie
1.PROBABILITÀ A. Federico ENEA; Fondazione Ugo Bordoni Scuola estiva di fonetica forense Soriano al Cimino 17 – 21 settembre 2007.
Codifica dell’informazione
Reti Logiche A Lezione xx.x Dispositivi Programmabili
Rappresentazione dell’Informazione

Codici prefissi Un codice prefisso è un codice in cui nessuna parola codice è prefisso (parte iniziale) di un’altra Ogni codice a lunghezza fissa è ovviamente.
Conversione binario-ottale/esadecimale
Transcript della presentazione:

Teoria dell’Informazione (Classica) Andrea G. B. Tettamanzi Università degli Studi di Milano Dipartimento di Tecnologie dell’Informazione

Lezione 1 3 ottobre 2002

Programma del Corso Che cos’è l’Informazione e che cos’è la T.I. Richiami di Teoria della Probabilità Proprietà matematiche utilizzate nella T.I. Misura dell’informazione: l’Entropia. Codici Comunicazione in presenza di rumore Codici a correzione d’errore Cenni sulla Teoria della Trasmissione Cenni di Crittografia

Bibliografia E. ANGELERI: Informazione: significato e universalità, UTET, Torino, 2000. (libro di testo) J. VAN DER LUBBE: Information Theory, Cambridge University Press, 1988. J. R. PIERCE: An Introduction to Information Theory, Dover, 1980.

Ricevimento Studenti Giovedì, dalle ore 14.00 alle ore 16.00 Per appuntamento: e-mail: andrea.tettamanzi@unimi.it tel.: 03 73 89 82 48 Sito del corso: “http://mago.crema.unimi.it/Classes/TIC”

Modalità di Esame Scritto: 3 o 4 esercizi che coprono vari argomenti del corso. Temi d’esame degli scritti degli anni passati, completi di correzione, disponibili all’URL: “http://mago.crema.unimi.it/Classes/TIC/Temidesame” Orale: interrogazione su definizioni, enunciati di teoremi e alcune dimostrazioni, rielaborazione critica del materiale presentato a lezione.

Che Cos’è l’Informazione? SINTASSI SEMANTICA PRAGMATICA

Rilevanza pratica dell’informazione (effetto, scopo, ecc.) significato apparato simbolico Rilevanza pratica dell’informazione (effetto, scopo, ecc.)

Informazione - semantica La quantità di informazione di un enunciato è tanto più grande quante più sono le alternative che esso esclude. U B A

Che cos’è la Teoria dell’Informazione? Una teoria matematica dell’aspetto simbolico dell’Informazione Un approccio quantitativo alla nozione di Informazione Risponde alle domande: Come immagazzinare e trasmettere informazione in modo compatto? (compressione) Qual’è la massima quantità di informazione che può essere trasmessa su un canale? (velocità di trasmissione) Come posso proteggere la mia informazione: dalla corruzione del suo supporto o da errori di trasmissione? da sguardi indiscreti?

Compressione Immagazzinamento = Trasmissione scrittura t0 x0 x1 invio ricezione lettura t1

Funzioni convesse Diseguaglianza fondamentale:

Convessità del valore atteso convessa concava

Misura dell’Informazione Alfabeto di s simboli R. V. L. Hartley C I A O , M A M M A ! 1 2 l Messaggi possibili R. Hartley Perché il logaritmo? Perché così

Unità di misura dell’Informazione La quantità di informazione che permette di distinguere uno di due eventi equiprobabili e mutuamente esclusivi è l’unità di misura dell’informazione: il bit. Un simbolo di un alfabeto di s simboli equiprobabili porterà un’informazione di bit

Entropia informativa di Shannon continua simmetrica (commutativa) additiva

Massimo dell’Entropia N.B.:

Entropia delle lingue Frequenze dei simboli testo

Ridondanza Efficienza di codifica

Informazione secondo Kolmogorov Misura assoluta, non utilizza la probabilità Y X y x fn. parziale ricorsiva descrizioni oggetti

Equivalenza con entropia di Shannon

Lezione 2 8 ottobre 2002

Assiomi dell’entropia (1) Misura d’incertezza, max con eventi equiprobabili 2 (simmetrica) 3 4

Assiomi dell’entropia (2) 5 6 continua 7 8 (diramazione)

Teorema Se H soddisfa gli otto assiomi, Basterebbero 4 assiomi “minimali”: - continuità; - simmetria; - proprietà di diramazione - H(1/2, 1/2) = 1

Modello della comunicazione sorgente destinazione canale rumore

Modello dettagliato Sorgente di informazione Destinazione riduzione ricostruzione Codifica sorgente Decodifica sorgente distorsione (rumore) cifratura decifrazione Codifica canale Decodifica canale Canale discreto modulazione Canale continuo demodulazione

Sorgente discreta senza memoria S è un dispositivo che genera ad ogni istante t un simbolo x con probabilità p(x), i.i.d.

Proprietà Indipendenza statistica e stazionarietà: autoinformazione

Il concetto di codice Alfabeto sorgente Alfabeto del codice

Esempio: codifica delle cifre decimali Cifra decimale Rappresentazione binaria 1 2 3 4 5 6 7 8 9 0000 0001 0010 0011 0100 0101 0110 0111 1000 1001

Estensione di una sorgente Alfabeto base Alfabeto esteso

Teorema Data una sorgente senza memoria, Dimostrazione:

Nel caso X = {0, 1}

Lezione 3 14 ottobre 2002

Classificazione dei codici A blocco Singolare Non singolare Unicamente decodificabile Non unicamente decodificabile Non istantaneo Istantaneo

Esempi Non unicamente decodificabile: Non istantaneo:

Codici a prefisso Condizione necessaria e sufficiente perché un codice sia istantaneo è che nessuna parola del codice sia un prefisso di un’altra parola del codice. 1 1 1

Diseguaglianza di Kraft Condizione necessaria e sufficiente perché esista un codice istantaneo con lunghezze di parola è che

Dimostrazione - sufficienza Costruiamo un codice istantaneo che soddisfa

Teorema di McMillan Un codice unicamente decodificabile soddisfa la diseguaglianza di Kraft Sviluppando la potenza, avremo qn termini della forma ma allora deve essere

Teorema di codifica della sorgente Sia la lunghezza media di un codice istantaneo a r simboli. Allora,

Dimostrazione Kraft Proprietà fondamentale dei logaritmi

Lezione 4 21 ottobre 2002

Processi Stocastici Un processo stocastico è una successione di v.a. Ciascuna con la propria distribuzione di probabilità. Notazione:

Catene di Markov Un processo stocastico è una catena di Markov sse il suo stato dipende solo dallo stato precedente, cioè, per ogni t, A B C 0.4 0.6 0.3 0.7 0.25 0.75

Processi Markoviani È un processo Markoviano di ordine m sse

Sorgente discreta con memoria S è un dispositivo che genera ad ogni istante t un simbolo x con probabilità condizionata dagli m simboli generati in precedenza Stazionarietà: le probabilità sono costanti nel tempo

Informazione e Entropia condizionali Informazione condizionale: Entropia condizionale:

Proprietà dell’Entropia condizionale Dimostrazione:

Struttura statistica delle lingue Distribuzione a memoria 0: Distribuzione a memoria 1: testo

Frequenze statistiche dell’italiano

Approssimazioni Memoria 0: E A IDAVEAPDIAOSPTRR OMR ELRROULEETDP A OOEPVUNCNCM AALPNESCIESI ... Memoria 1: NFA EGI SSISA LE LERA SCHELA CILU GGILLE PRA PRANA ... Memoria 2: OR IL SARSERA NE HAI GUE E LAMASSETTERRA DO E LA SE AL MILA ... Memoria 3:

Stima dell’Entropia con memoria infinita Esperimento di Shannon

Entropia nelle sorgenti con Memoria

Teorema L’entropia di una sorgente con memoria è tanto minore quanto maggiore è l’ordine della memoria.

Dimostrazione (Per semplicità, solo nel caso a memoria di ordine 1) Inoltre,

Lezione 5 24 ottobre 2002

Codici ottimali con probabilità note a priori Osservazione: in un codice C ottimale, Dimostrazione: si supponga di scambiare le due parole in questione Siccome C è ottimale, quindi deve essere per forza c.v.d.

Codici ottimali con probabilità note a priori Osservazione: in un codice istantaneo C ottimale a base r, le r parole più lunghe hanno la stessa lunghezza. Dimostrazione: se così non fosse, potrei sopprimere l’ultima parte delle parole più lunghe senza perdere la proprietà di prefisso e ottenendo un codice migliore (assurdo).

Codici ottimali con probabilità note a priori Osservazione: in un codice istantaneo C ottimale a base r, le r parole più lunghe sono associate agli r simboli sorgente meno probabili e differiscono solo per l’ultimo simbolo. Dimostrazione: per 1 1 1 1 1 1

Codice di Fano Ordinare i simboli sorgente in ordine di probabilità decrescente Dividere al meglio i simboli in r gruppi equiprobabili Assegnare a ciascun gruppo uno degli r simboli come prefisso Ripetere la divisione per gruppi in modo ricorsivo finché possibile

Esempio simbolo probabilità codice 1/4 1/8 1/16 1/32 00 01 100 101 1100 1101 11100 11101 11110 11111 1 2 3 4 5 6 7 8 9

Codice di Shannon Calcolare le probabilità cumulative Scriverle in notazione r-aria Il numero di simboli per parola di codice è dato da cioè

Esempio simbolo probabilità prob. Cum. lunghezza codice 2 3 4 5 00 01 100 101 1100 1101 11100 11101 11110 11111 1 2 3 4 5 6 7 8 9 1/4 1/8 1/16 1/32 1/4 1/2 5/8 3/4 13/16 7/8 29/32 15/16 31/32

Codice di Huffman Ordinare i simboli sorgente per probabilità decrescente Raggruppare gli r simboli meno probabili e considerarli come un solo simbolo Ripetere il raggruppamento finché possibile Restano al massimo r simboli o gruppi di simboli Assegnare uno degli r simboli a ciascuno dei gruppi come prefisso Svolgere i gruppi all’indietro ripetendo l’assegnamento del prefisso finché tutti i simboli sorgente hanno una parola di codice associata

Esempio simbolo probabilità codice 1 2 3 4 5 0.4 0.3 0.1 0.06 0.04 0.4 1 2 3 4 5 0.4 0.3 0.1 0.06 0.04 0.4 0.3 0.1 0.4 0.3 0.2 0.1 0.4 0.3 0.6 0.4 1 1 00 011 0100 01010 01011 1 1 1 1

Ottimalità del codice di Huffman

Codice alfabetico (o di Gilbert-Moore) Ordinare i simboli sorgente secondo qualche criterio La lunghezza di ciascuna parola di codice è data da cioè Determinare la sequenza Rappresentare in base r ciascuno di questi numeri secondo la lunghezza calcolata

Esempio simbolo probabilità codice A E I O U N . 0.0988 0.0945 0.0863 0.0849 0.0255 0.0684 . 5 7 . 0.0494 0.14605 0.23645 0.32245 0.37725 0.4242 . 00001 00100 00111 01010 0110000 01101 .

Codice aritmetico 1

Codice Aritmetico: Algoritmo s[1..n] è la stringa da codificare c = 0; a = 1; for i = 1 to n do begin c = c +a*ProbCum(s[i]); a = a*Prob(s[i]); end c (scritto in base 2) è il codice cercato c è il codice ricevuto a = 1; for i = 1 to n do begin s[i] = FindSymbol(c); c = (c -ProbCum(s[i])) /Prob(s[i]); i = i + 1; end s[1..n] è la stringa cercata

Lezione 6 28 ottobre 2002

Algoritmo di Lempel e Ziv 1. Da sinistra a destra, scrivere ogni volta la parola più breve mai incontrata prima, fino alla fine del testo; 2. Per ogni parola, separare il prefisso (una parola già incontrata) dal simbolo finale; 3. Codificare ogni parola con una coppia formata dalla posizione suo prefisso nella lista e dal simbolo finale che deve essere aggiunto.

Esempio 1011010011010... (passo 1) 1, 0, 11, 01, 00, 110, 10, ... (passo 2) 1, 0, 1.1, 0.1, 0.0, 11.0, 1.0, ... (passo 3) (0, 1) (0, 0) (1, 1) (2, 1) (2, 0) (3, 0) (1, 0) ... 000 1 000 0 001 1 010 1 010 0 011 0 001 0 ...

Efficienza del codice di Lempel e Ziv parole in un messaggio di lunghezza n bit necessari per codificare la posizione di un prefisso Lunghezza della codifica di un messaggio di lunghezza n: Efficienza del codice di Lempel-Ziv:

Teorema Data una sorgente stazionaria ergodica con alfabeto X ed entropia H(X), vale q.c.

Diseguaglianza di Lempel e Ziv con Dimostrazione: Lungh. Cum. parole lunghe al più l

Diseguaglianza di Lempel e Ziv (segue) Poniamo: c.v.d. Se ne conclude che

Legge dei grandi numeri Debole: Forte:

Diseguaglianza di Čebyšev Dimostrazione:

Messaggi più probabili tutti i messaggi di lunghezza l Numero di occorrenze di si in w per la legge dei grandi numeri

Teorema di Shannon-McMillan Data una sorgente discreta senza memoria S di entropia H(S), Le parole di lunghezza l ricadono in due classi: I) II)

Dimostrazione Čebyšev: Non dipende da l.

Lezione 7 31 ottobre 2002

Teorema Dimostrazione:

I° Teorema di Shannon Sia S una sorgente discreta senza memoria di entropia H(S). Siano messaggi di lunghezza l codificati in parole di codice di lunghezza L in un alfabeto di codice con r simboli. Probabilità che occorra un messaggio per cui non sia disponibile una parola di codice.

Dimostrazione ovvero Ma: quindi = numero di parole di codice di lunghezza L Ogni messaggio tipico ha una parola di codice; i messaggi atipici, che non hanno una parola di codice associata, hanno probabilità di occorrere pari a c.v.d.

Il canale discreto senza memoria (1) C è un dispositivo in grado di associare in ogni istante t con probabilità P(y | x) un simbolo y dell’alfabeto di destinazione con un simbolo x dell’alfabeto sorgente.

Il canale discreto senza memoria (2)

Esempio 0.571 0.286 0.143 ? 0.143 0.286 1 1 0.571

Estensione di un canale Un canale è senza memoria sse:

Informazione mutua

Transinformazione Informazione mutua di sistema:

Capacità di canale Dipende solo dalle caratteristiche del canale e dalla distribuzione in ingresso. Ipotesi di canale costante. L’informazione mutua è max quando la transinformazione è indipendente dalla distribuzione in ingresso.

Equivocazione, Irrilevanza informazione mutua

Lezione 8 4 novembre 2002

Canale binario simmetrico 1 1

Capacità del canale binario simmetrico

Capacità del canale binario simmetrico 1 0.5 1

Canale simmetrico a cancellazione ? 1 1

Capacità dei canali simmetrici simmetria

Capacità del c.s.c. 1 0.5 1

Canali in cascata CANALE 1 CANALE 2

Teorema (detto “Della Elaborazione dei Dati) L’informazione mutua non può aumentare al crescere dei canali attraversati; semmai può diminuire. In successive elaborazioni dei dati, si può solo verificare una perdita d’informazione, mai un guadagno.

Dimostrazione diseguaglianza fondamentale

Probabilità di errore ed equivocazione Sia (matrice di canale quadrata) Si può dimostrare che la probabilità di errore per il trasmittente e per il ricevente è identica:

Diseguaglianza di Fano probabilità di errore equivocazione dove L’incertezza media su X, se Y è noto, è al più l’incertezza sul fatto che sia stato commesso un errore e, in caso affermativo, l’incertezza su quale dei restanti simboli sia stato trasmesso.

Dimostrazione 1 2

Dimostrazione (segue) 2 – 1

Corollario quando

Lezione 9 7 novembre 2002

Distanza di Hamming Esempio: 0 0 1 0 1 1 0 0 0 0 1 0 1 0 1 0

Spazio di Hamming di dimensione n Spazio di Hamming di dimensione l Esempi: 011 111 1 01 11 010 010 110 001 101 00 000 100 0000 1000 10

II° Teorema di Shannon Dato un canale discreto senza memoria di capacità C, a) è possibile trasmettere una quantità di informazione H(X) con probabilità d’errore piccola a piacere, a patto che b) Se comunque codifichiamo i messaggi, sarà

Dimostrazione di b) Ipotesi: Tesi: Fano Poniamo Allora

Grafico di f(z)

Dimostrazione di a) Ipotesi: Tesi: Assumiamo r = 2 senza perdita di generalità Parole di codice di lunghezza l messaggi N.B.: bit/simbolo Usiamo solo parole di codice delle Costruiamo un codice “a caso” e dimostriamo che

Codice “casuale” Estraiamo a caso parole di codice tra le Sia la probabilità di errore del canale (per simbolo!) CANALE

Errore

Volume di una sfera di raggio d In uno spazio di Hamming di dimensione l numero di parole binarie di lunghezza l che differiscono da una data parola w (centro) in al più d posizioni.

Lemma Dimostrazione: i) diseguaglianza fondamentale ii) c.v.d.

Probabilità di errore per un dato codice Per il Teorema dei grandi numeri:

Probabilità media di errore Parole contenute in

Conclusione della dimostrazione Sviluppiamo in serie di Taylor, ricordando che Per cui: c.v.d.

Andamento della probabilità di errore