Teoria dell’Informazione (Classica) Andrea G. B. Tettamanzi Università degli Studi di Milano Dipartimento di Tecnologie dell’Informazione
Lezione 1 3 ottobre 2002
Programma del Corso Che cos’è l’Informazione e che cos’è la T.I. Richiami di Teoria della Probabilità Proprietà matematiche utilizzate nella T.I. Misura dell’informazione: l’Entropia. Codici Comunicazione in presenza di rumore Codici a correzione d’errore Cenni sulla Teoria della Trasmissione Cenni di Crittografia
Bibliografia E. ANGELERI: Informazione: significato e universalità, UTET, Torino, 2000. (libro di testo) J. VAN DER LUBBE: Information Theory, Cambridge University Press, 1988. J. R. PIERCE: An Introduction to Information Theory, Dover, 1980.
Ricevimento Studenti Giovedì, dalle ore 14.00 alle ore 16.00 Per appuntamento: e-mail: andrea.tettamanzi@unimi.it tel.: 03 73 89 82 48 Sito del corso: “http://mago.crema.unimi.it/Classes/TIC”
Modalità di Esame Scritto: 3 o 4 esercizi che coprono vari argomenti del corso. Temi d’esame degli scritti degli anni passati, completi di correzione, disponibili all’URL: “http://mago.crema.unimi.it/Classes/TIC/Temidesame” Orale: interrogazione su definizioni, enunciati di teoremi e alcune dimostrazioni, rielaborazione critica del materiale presentato a lezione.
Che Cos’è l’Informazione? SINTASSI SEMANTICA PRAGMATICA
Rilevanza pratica dell’informazione (effetto, scopo, ecc.) significato apparato simbolico Rilevanza pratica dell’informazione (effetto, scopo, ecc.)
Informazione - semantica La quantità di informazione di un enunciato è tanto più grande quante più sono le alternative che esso esclude. U B A
Che cos’è la Teoria dell’Informazione? Una teoria matematica dell’aspetto simbolico dell’Informazione Un approccio quantitativo alla nozione di Informazione Risponde alle domande: Come immagazzinare e trasmettere informazione in modo compatto? (compressione) Qual’è la massima quantità di informazione che può essere trasmessa su un canale? (velocità di trasmissione) Come posso proteggere la mia informazione: dalla corruzione del suo supporto o da errori di trasmissione? da sguardi indiscreti?
Compressione Immagazzinamento = Trasmissione scrittura t0 x0 x1 invio ricezione lettura t1
Funzioni convesse Diseguaglianza fondamentale:
Convessità del valore atteso convessa concava
Misura dell’Informazione Alfabeto di s simboli R. V. L. Hartley C I A O , M A M M A ! 1 2 l Messaggi possibili R. Hartley Perché il logaritmo? Perché così
Unità di misura dell’Informazione La quantità di informazione che permette di distinguere uno di due eventi equiprobabili e mutuamente esclusivi è l’unità di misura dell’informazione: il bit. Un simbolo di un alfabeto di s simboli equiprobabili porterà un’informazione di bit
Entropia informativa di Shannon continua simmetrica (commutativa) additiva
Massimo dell’Entropia N.B.:
Entropia delle lingue Frequenze dei simboli testo
Ridondanza Efficienza di codifica
Informazione secondo Kolmogorov Misura assoluta, non utilizza la probabilità Y X y x fn. parziale ricorsiva descrizioni oggetti
Equivalenza con entropia di Shannon
Lezione 2 8 ottobre 2002
Assiomi dell’entropia (1) Misura d’incertezza, max con eventi equiprobabili 2 (simmetrica) 3 4
Assiomi dell’entropia (2) 5 6 continua 7 8 (diramazione)
Teorema Se H soddisfa gli otto assiomi, Basterebbero 4 assiomi “minimali”: - continuità; - simmetria; - proprietà di diramazione - H(1/2, 1/2) = 1
Modello della comunicazione sorgente destinazione canale rumore
Modello dettagliato Sorgente di informazione Destinazione riduzione ricostruzione Codifica sorgente Decodifica sorgente distorsione (rumore) cifratura decifrazione Codifica canale Decodifica canale Canale discreto modulazione Canale continuo demodulazione
Sorgente discreta senza memoria S è un dispositivo che genera ad ogni istante t un simbolo x con probabilità p(x), i.i.d.
Proprietà Indipendenza statistica e stazionarietà: autoinformazione
Il concetto di codice Alfabeto sorgente Alfabeto del codice
Esempio: codifica delle cifre decimali Cifra decimale Rappresentazione binaria 1 2 3 4 5 6 7 8 9 0000 0001 0010 0011 0100 0101 0110 0111 1000 1001
Estensione di una sorgente Alfabeto base Alfabeto esteso
Teorema Data una sorgente senza memoria, Dimostrazione:
Nel caso X = {0, 1}
Lezione 3 14 ottobre 2002
Classificazione dei codici A blocco Singolare Non singolare Unicamente decodificabile Non unicamente decodificabile Non istantaneo Istantaneo
Esempi Non unicamente decodificabile: Non istantaneo:
Codici a prefisso Condizione necessaria e sufficiente perché un codice sia istantaneo è che nessuna parola del codice sia un prefisso di un’altra parola del codice. 1 1 1
Diseguaglianza di Kraft Condizione necessaria e sufficiente perché esista un codice istantaneo con lunghezze di parola è che
Dimostrazione - sufficienza Costruiamo un codice istantaneo che soddisfa
Teorema di McMillan Un codice unicamente decodificabile soddisfa la diseguaglianza di Kraft Sviluppando la potenza, avremo qn termini della forma ma allora deve essere
Teorema di codifica della sorgente Sia la lunghezza media di un codice istantaneo a r simboli. Allora,
Dimostrazione Kraft Proprietà fondamentale dei logaritmi
Lezione 4 21 ottobre 2002
Processi Stocastici Un processo stocastico è una successione di v.a. Ciascuna con la propria distribuzione di probabilità. Notazione:
Catene di Markov Un processo stocastico è una catena di Markov sse il suo stato dipende solo dallo stato precedente, cioè, per ogni t, A B C 0.4 0.6 0.3 0.7 0.25 0.75
Processi Markoviani È un processo Markoviano di ordine m sse
Sorgente discreta con memoria S è un dispositivo che genera ad ogni istante t un simbolo x con probabilità condizionata dagli m simboli generati in precedenza Stazionarietà: le probabilità sono costanti nel tempo
Informazione e Entropia condizionali Informazione condizionale: Entropia condizionale:
Proprietà dell’Entropia condizionale Dimostrazione:
Struttura statistica delle lingue Distribuzione a memoria 0: Distribuzione a memoria 1: testo
Frequenze statistiche dell’italiano
Approssimazioni Memoria 0: E A IDAVEAPDIAOSPTRR OMR ELRROULEETDP A OOEPVUNCNCM AALPNESCIESI ... Memoria 1: NFA EGI SSISA LE LERA SCHELA CILU GGILLE PRA PRANA ... Memoria 2: OR IL SARSERA NE HAI GUE E LAMASSETTERRA DO E LA SE AL MILA ... Memoria 3:
Stima dell’Entropia con memoria infinita Esperimento di Shannon
Entropia nelle sorgenti con Memoria
Teorema L’entropia di una sorgente con memoria è tanto minore quanto maggiore è l’ordine della memoria.
Dimostrazione (Per semplicità, solo nel caso a memoria di ordine 1) Inoltre,
Lezione 5 24 ottobre 2002
Codici ottimali con probabilità note a priori Osservazione: in un codice C ottimale, Dimostrazione: si supponga di scambiare le due parole in questione Siccome C è ottimale, quindi deve essere per forza c.v.d.
Codici ottimali con probabilità note a priori Osservazione: in un codice istantaneo C ottimale a base r, le r parole più lunghe hanno la stessa lunghezza. Dimostrazione: se così non fosse, potrei sopprimere l’ultima parte delle parole più lunghe senza perdere la proprietà di prefisso e ottenendo un codice migliore (assurdo).
Codici ottimali con probabilità note a priori Osservazione: in un codice istantaneo C ottimale a base r, le r parole più lunghe sono associate agli r simboli sorgente meno probabili e differiscono solo per l’ultimo simbolo. Dimostrazione: per 1 1 1 1 1 1
Codice di Fano Ordinare i simboli sorgente in ordine di probabilità decrescente Dividere al meglio i simboli in r gruppi equiprobabili Assegnare a ciascun gruppo uno degli r simboli come prefisso Ripetere la divisione per gruppi in modo ricorsivo finché possibile
Esempio simbolo probabilità codice 1/4 1/8 1/16 1/32 00 01 100 101 1100 1101 11100 11101 11110 11111 1 2 3 4 5 6 7 8 9
Codice di Shannon Calcolare le probabilità cumulative Scriverle in notazione r-aria Il numero di simboli per parola di codice è dato da cioè
Esempio simbolo probabilità prob. Cum. lunghezza codice 2 3 4 5 00 01 100 101 1100 1101 11100 11101 11110 11111 1 2 3 4 5 6 7 8 9 1/4 1/8 1/16 1/32 1/4 1/2 5/8 3/4 13/16 7/8 29/32 15/16 31/32
Codice di Huffman Ordinare i simboli sorgente per probabilità decrescente Raggruppare gli r simboli meno probabili e considerarli come un solo simbolo Ripetere il raggruppamento finché possibile Restano al massimo r simboli o gruppi di simboli Assegnare uno degli r simboli a ciascuno dei gruppi come prefisso Svolgere i gruppi all’indietro ripetendo l’assegnamento del prefisso finché tutti i simboli sorgente hanno una parola di codice associata
Esempio simbolo probabilità codice 1 2 3 4 5 0.4 0.3 0.1 0.06 0.04 0.4 1 2 3 4 5 0.4 0.3 0.1 0.06 0.04 0.4 0.3 0.1 0.4 0.3 0.2 0.1 0.4 0.3 0.6 0.4 1 1 00 011 0100 01010 01011 1 1 1 1
Ottimalità del codice di Huffman
Codice alfabetico (o di Gilbert-Moore) Ordinare i simboli sorgente secondo qualche criterio La lunghezza di ciascuna parola di codice è data da cioè Determinare la sequenza Rappresentare in base r ciascuno di questi numeri secondo la lunghezza calcolata
Esempio simbolo probabilità codice A E I O U N . 0.0988 0.0945 0.0863 0.0849 0.0255 0.0684 . 5 7 . 0.0494 0.14605 0.23645 0.32245 0.37725 0.4242 . 00001 00100 00111 01010 0110000 01101 .
Codice aritmetico 1
Codice Aritmetico: Algoritmo s[1..n] è la stringa da codificare c = 0; a = 1; for i = 1 to n do begin c = c +a*ProbCum(s[i]); a = a*Prob(s[i]); end c (scritto in base 2) è il codice cercato c è il codice ricevuto a = 1; for i = 1 to n do begin s[i] = FindSymbol(c); c = (c -ProbCum(s[i])) /Prob(s[i]); i = i + 1; end s[1..n] è la stringa cercata
Lezione 6 28 ottobre 2002
Algoritmo di Lempel e Ziv 1. Da sinistra a destra, scrivere ogni volta la parola più breve mai incontrata prima, fino alla fine del testo; 2. Per ogni parola, separare il prefisso (una parola già incontrata) dal simbolo finale; 3. Codificare ogni parola con una coppia formata dalla posizione suo prefisso nella lista e dal simbolo finale che deve essere aggiunto.
Esempio 1011010011010... (passo 1) 1, 0, 11, 01, 00, 110, 10, ... (passo 2) 1, 0, 1.1, 0.1, 0.0, 11.0, 1.0, ... (passo 3) (0, 1) (0, 0) (1, 1) (2, 1) (2, 0) (3, 0) (1, 0) ... 000 1 000 0 001 1 010 1 010 0 011 0 001 0 ...
Efficienza del codice di Lempel e Ziv parole in un messaggio di lunghezza n bit necessari per codificare la posizione di un prefisso Lunghezza della codifica di un messaggio di lunghezza n: Efficienza del codice di Lempel-Ziv:
Teorema Data una sorgente stazionaria ergodica con alfabeto X ed entropia H(X), vale q.c.
Diseguaglianza di Lempel e Ziv con Dimostrazione: Lungh. Cum. parole lunghe al più l
Diseguaglianza di Lempel e Ziv (segue) Poniamo: c.v.d. Se ne conclude che
Legge dei grandi numeri Debole: Forte:
Diseguaglianza di Čebyšev Dimostrazione:
Messaggi più probabili tutti i messaggi di lunghezza l Numero di occorrenze di si in w per la legge dei grandi numeri
Teorema di Shannon-McMillan Data una sorgente discreta senza memoria S di entropia H(S), Le parole di lunghezza l ricadono in due classi: I) II)
Dimostrazione Čebyšev: Non dipende da l.
Lezione 7 31 ottobre 2002
Teorema Dimostrazione:
I° Teorema di Shannon Sia S una sorgente discreta senza memoria di entropia H(S). Siano messaggi di lunghezza l codificati in parole di codice di lunghezza L in un alfabeto di codice con r simboli. Probabilità che occorra un messaggio per cui non sia disponibile una parola di codice.
Dimostrazione ovvero Ma: quindi = numero di parole di codice di lunghezza L Ogni messaggio tipico ha una parola di codice; i messaggi atipici, che non hanno una parola di codice associata, hanno probabilità di occorrere pari a c.v.d.
Il canale discreto senza memoria (1) C è un dispositivo in grado di associare in ogni istante t con probabilità P(y | x) un simbolo y dell’alfabeto di destinazione con un simbolo x dell’alfabeto sorgente.
Il canale discreto senza memoria (2)
Esempio 0.571 0.286 0.143 ? 0.143 0.286 1 1 0.571
Estensione di un canale Un canale è senza memoria sse:
Informazione mutua
Transinformazione Informazione mutua di sistema:
Capacità di canale Dipende solo dalle caratteristiche del canale e dalla distribuzione in ingresso. Ipotesi di canale costante. L’informazione mutua è max quando la transinformazione è indipendente dalla distribuzione in ingresso.
Equivocazione, Irrilevanza informazione mutua
Lezione 8 4 novembre 2002
Canale binario simmetrico 1 1
Capacità del canale binario simmetrico
Capacità del canale binario simmetrico 1 0.5 1
Canale simmetrico a cancellazione ? 1 1
Capacità dei canali simmetrici simmetria
Capacità del c.s.c. 1 0.5 1
Canali in cascata CANALE 1 CANALE 2
Teorema (detto “Della Elaborazione dei Dati) L’informazione mutua non può aumentare al crescere dei canali attraversati; semmai può diminuire. In successive elaborazioni dei dati, si può solo verificare una perdita d’informazione, mai un guadagno.
Dimostrazione diseguaglianza fondamentale
Probabilità di errore ed equivocazione Sia (matrice di canale quadrata) Si può dimostrare che la probabilità di errore per il trasmittente e per il ricevente è identica:
Diseguaglianza di Fano probabilità di errore equivocazione dove L’incertezza media su X, se Y è noto, è al più l’incertezza sul fatto che sia stato commesso un errore e, in caso affermativo, l’incertezza su quale dei restanti simboli sia stato trasmesso.
Dimostrazione 1 2
Dimostrazione (segue) 2 – 1
Corollario quando
Lezione 9 7 novembre 2002
Distanza di Hamming Esempio: 0 0 1 0 1 1 0 0 0 0 1 0 1 0 1 0
Spazio di Hamming di dimensione n Spazio di Hamming di dimensione l Esempi: 011 111 1 01 11 010 010 110 001 101 00 000 100 0000 1000 10
II° Teorema di Shannon Dato un canale discreto senza memoria di capacità C, a) è possibile trasmettere una quantità di informazione H(X) con probabilità d’errore piccola a piacere, a patto che b) Se comunque codifichiamo i messaggi, sarà
Dimostrazione di b) Ipotesi: Tesi: Fano Poniamo Allora
Grafico di f(z)
Dimostrazione di a) Ipotesi: Tesi: Assumiamo r = 2 senza perdita di generalità Parole di codice di lunghezza l messaggi N.B.: bit/simbolo Usiamo solo parole di codice delle Costruiamo un codice “a caso” e dimostriamo che
Codice “casuale” Estraiamo a caso parole di codice tra le Sia la probabilità di errore del canale (per simbolo!) CANALE
Errore
Volume di una sfera di raggio d In uno spazio di Hamming di dimensione l numero di parole binarie di lunghezza l che differiscono da una data parola w (centro) in al più d posizioni.
Lemma Dimostrazione: i) diseguaglianza fondamentale ii) c.v.d.
Probabilità di errore per un dato codice Per il Teorema dei grandi numeri:
Probabilità media di errore Parole contenute in
Conclusione della dimostrazione Sviluppiamo in serie di Taylor, ricordando che Per cui: c.v.d.
Andamento della probabilità di errore