Teoria dell’Informazione (Classica)

Teoria dell’Informazione (Classica)
Andrea G. B. Tettamanzi Università degli Studi di Milano Dipartimento di Tecnologie dell’Informazione

Lezione 1 3 ottobre 2002

Programma del Corso Che cos’è l’Informazione e che cos’è la T.I.
Richiami di Teoria della Probabilità Proprietà matematiche utilizzate nella T.I. Misura dell’informazione: l’Entropia. Codici Comunicazione in presenza di rumore Codici a correzione d’errore Cenni sulla Teoria della Trasmissione Cenni di Crittografia

Bibliografia E. ANGELERI: Informazione: significato e universalità, UTET, Torino, (libro di testo) J. VAN DER LUBBE: Information Theory, Cambridge University Press, 1988. J. R. PIERCE: An Introduction to Information Theory, Dover, 1980.

Ricevimento Studenti Giovedì, dalle ore 14.00 alle ore 16.00
Per appuntamento: tel.: Sito del corso: “

Modalità di Esame Scritto: 3 o 4 esercizi che coprono vari argomenti del corso. Temi d’esame degli scritti degli anni passati, completi di correzione, disponibili all’URL: “ Orale: interrogazione su definizioni, enunciati di teoremi e alcune dimostrazioni, rielaborazione critica del materiale presentato a lezione.

Che Cos’è l’Informazione?
SINTASSI SEMANTICA PRAGMATICA

Rilevanza pratica dell’informazione (effetto, scopo, ecc.)
significato apparato simbolico Rilevanza pratica dell’informazione (effetto, scopo, ecc.)

Informazione - semantica
La quantità di informazione di un enunciato è tanto più grande quante più sono le alternative che esso esclude. U B A

Che cos’è la Teoria dell’Informazione?
Una teoria matematica dell’aspetto simbolico dell’Informazione Un approccio quantitativo alla nozione di Informazione Risponde alle domande: Come immagazzinare e trasmettere informazione in modo compatto? (compressione) Qual’è la massima quantità di informazione che può essere trasmessa su un canale? (velocità di trasmissione) Come posso proteggere la mia informazione: dalla corruzione del suo supporto o da errori di trasmissione? da sguardi indiscreti?

Compressione Immagazzinamento = Trasmissione scrittura t0 x0 x1 invio
ricezione lettura t1

Funzioni convesse Diseguaglianza fondamentale:

Convessità del valore atteso
convessa concava

Misura dell’Informazione
Alfabeto di s simboli R. V. L. Hartley C I A O , M A M M A ! 1 2 l Messaggi possibili R. Hartley Perché il logaritmo? Perché così

Unità di misura dell’Informazione
La quantità di informazione che permette di distinguere uno di due eventi equiprobabili e mutuamente esclusivi è l’unità di misura dell’informazione: il bit. Un simbolo di un alfabeto di s simboli equiprobabili porterà un’informazione di bit

Entropia informativa di Shannon
continua simmetrica (commutativa) additiva

Massimo dell’Entropia
N.B.:

Entropia delle lingue Frequenze dei simboli testo

Ridondanza Efficienza di codifica

Informazione secondo Kolmogorov
Misura assoluta, non utilizza la probabilità Y X y x fn. parziale ricorsiva descrizioni oggetti

Equivalenza con entropia di Shannon

Assiomi dell’entropia (1)
Misura d’incertezza, max con eventi equiprobabili 2 (simmetrica) 3 4

Assiomi dell’entropia (2)
5 6 continua 7 8 (diramazione)

Teorema Se H soddisfa gli otto assiomi,
Basterebbero 4 assiomi “minimali”: - continuità; - simmetria; - proprietà di diramazione - H(1/2, 1/2) = 1

Modello della comunicazione
sorgente destinazione canale rumore

Modello dettagliato Sorgente di informazione Destinazione riduzione
ricostruzione Codifica sorgente Decodifica sorgente distorsione (rumore) cifratura decifrazione Codifica canale Decodifica canale Canale discreto modulazione Canale continuo demodulazione

Sorgente discreta senza memoria
S è un dispositivo che genera ad ogni istante t un simbolo x con probabilità p(x), i.i.d.

Proprietà Indipendenza statistica e stazionarietà: autoinformazione

Il concetto di codice Alfabeto sorgente Alfabeto del codice

Esempio: codifica delle cifre decimali
Cifra decimale Rappresentazione binaria 1 2 3 4 5 6 7 8 9 0000 0001 0010 0011 0100 0101 0110 0111 1000 1001

Estensione di una sorgente
Alfabeto base Alfabeto esteso

Teorema Data una sorgente senza memoria, Dimostrazione:

Nel caso X = {0, 1}

Classificazione dei codici
A blocco Singolare Non singolare Unicamente decodificabile Non unicamente decodificabile Non istantaneo Istantaneo

Esempi Non unicamente decodificabile: Non istantaneo:

Codici a prefisso Condizione necessaria e sufficiente perché un codice
sia istantaneo è che nessuna parola del codice sia un prefisso di un’altra parola del codice. 1 1 1

Diseguaglianza di Kraft
Condizione necessaria e sufficiente perché esista un codice istantaneo con lunghezze di parola è che

Dimostrazione - sufficienza
Costruiamo un codice istantaneo che soddisfa

Teorema di McMillan Un codice unicamente decodificabile soddisfa la diseguaglianza di Kraft Sviluppando la potenza, avremo qn termini della forma ma allora deve essere

Teorema di codifica della sorgente
Sia la lunghezza media di un codice istantaneo a r simboli. Allora,

Dimostrazione Kraft Proprietà fondamentale dei logaritmi

Processi Stocastici Un processo stocastico è una successione di v.a.
Ciascuna con la propria distribuzione di probabilità. Notazione:

Catene di Markov Un processo stocastico
è una catena di Markov sse il suo stato dipende solo dallo stato precedente, cioè, per ogni t, A B C 0.4 0.6 0.3 0.7 0.25 0.75

Processi Markoviani È un processo Markoviano di ordine m sse

Sorgente discreta con memoria
S è un dispositivo che genera ad ogni istante t un simbolo x con probabilità condizionata dagli m simboli generati in precedenza Stazionarietà: le probabilità sono costanti nel tempo

Informazione e Entropia condizionali
Informazione condizionale: Entropia condizionale:

Proprietà dell’Entropia condizionale
Dimostrazione:

Struttura statistica delle lingue
Distribuzione a memoria 0: Distribuzione a memoria 1: testo

Frequenze statistiche dell’italiano

Approssimazioni Memoria 0: E A IDAVEAPDIAOSPTRR OMR ELRROULEETDP A
OOEPVUNCNCM AALPNESCIESI ... Memoria 1: NFA EGI SSISA LE LERA SCHELA CILU GGILLE PRA PRANA ... Memoria 2: OR IL SARSERA NE HAI GUE E LAMASSETTERRA DO E LA SE AL MILA ... Memoria 3:

Stima dell’Entropia con memoria infinita
Esperimento di Shannon

Entropia nelle sorgenti con Memoria

Teorema L’entropia di una sorgente con memoria è tanto minore quanto
maggiore è l’ordine della memoria.

Dimostrazione (Per semplicità, solo nel caso a memoria di ordine 1)
Inoltre,

Codici ottimali con probabilità note a priori
Osservazione: in un codice C ottimale, Dimostrazione: si supponga di scambiare le due parole in questione Siccome C è ottimale, quindi deve essere per forza c.v.d.

Osservazione: in un codice istantaneo C ottimale a base r, le r parole più lunghe hanno la stessa lunghezza. Dimostrazione: se così non fosse, potrei sopprimere l’ultima parte delle parole più lunghe senza perdere la proprietà di prefisso e ottenendo un codice migliore (assurdo).

Osservazione: in un codice istantaneo C ottimale a base r, le r parole più lunghe sono associate agli r simboli sorgente meno probabili e differiscono solo per l’ultimo simbolo. Dimostrazione: per 1 1 1 1 1 1

Codice di Fano Ordinare i simboli sorgente in ordine di probabilità decrescente Dividere al meglio i simboli in r gruppi equiprobabili Assegnare a ciascun gruppo uno degli r simboli come prefisso Ripetere la divisione per gruppi in modo ricorsivo finché possibile

Esempio simbolo probabilità codice 1/4 1/8 1/16 1/32 00 01 100 101
1100 1101 11100 11101 11110 11111 1 2 3 4 5 6 7 8 9

Codice di Shannon Calcolare le probabilità cumulative
Scriverle in notazione r-aria Il numero di simboli per parola di codice è dato da cioè

Esempio simbolo probabilità prob. Cum. lunghezza codice 2 3 4 5 00 01
100 101 1100 1101 11100 11101 11110 11111 1 2 3 4 5 6 7 8 9 1/4 1/8 1/16 1/32 1/4 1/2 5/8 3/4 13/16 7/8 29/32 15/16 31/32

Codice di Huffman Ordinare i simboli sorgente per probabilità decrescente Raggruppare gli r simboli meno probabili e considerarli come un solo simbolo Ripetere il raggruppamento finché possibile Restano al massimo r simboli o gruppi di simboli Assegnare uno degli r simboli a ciascuno dei gruppi come prefisso Svolgere i gruppi all’indietro ripetendo l’assegnamento del prefisso finché tutti i simboli sorgente hanno una parola di codice associata

Esempio simbolo probabilità codice 1 2 3 4 5 0.4 0.3 0.1 0.06 0.04 0.4
1 2 3 4 5 0.4 0.3 0.1 0.06 0.04 0.4 0.3 0.1 0.4 0.3 0.2 0.1 0.4 0.3 0.6 0.4 1 1 00 011 0100 01010 01011 1 1 1 1

Ottimalità del codice di Huffman

Codice alfabetico (o di Gilbert-Moore)
Ordinare i simboli sorgente secondo qualche criterio La lunghezza di ciascuna parola di codice è data da cioè Determinare la sequenza Rappresentare in base r ciascuno di questi numeri secondo la lunghezza calcolata

Esempio simbolo probabilità codice A E I O U N . 0.0988 0.0945 0.0863
0.0849 0.0255 0.0684 . 5 7 . 0.0494 0.4242 . 00001 00100 00111 01010 01101 .

Codice aritmetico 1

Codice Aritmetico: Algoritmo
s[1..n] è la stringa da codificare c = 0; a = 1; for i = 1 to n do begin c = c +a*ProbCum(s[i]); a = a*Prob(s[i]); end c (scritto in base 2) è il codice cercato c è il codice ricevuto a = 1; for i = 1 to n do begin s[i] = FindSymbol(c); c = (c -ProbCum(s[i])) /Prob(s[i]); i = i + 1; end s[1..n] è la stringa cercata

Algoritmo di Lempel e Ziv
1. Da sinistra a destra, scrivere ogni volta la parola più breve mai incontrata prima, fino alla fine del testo; 2. Per ogni parola, separare il prefisso (una parola già incontrata) dal simbolo finale; 3. Codificare ogni parola con una coppia formata dalla posizione suo prefisso nella lista e dal simbolo finale che deve essere aggiunto.

Esempio (passo 1) 1, 0, 11, 01, 00, 110, 10, ... (passo 2) 1, 0, 1.1, 0.1, 0.0, 11.0, 1.0, ... (passo 3) (0, 1) (0, 0) (1, 1) (2, 1) (2, 0) (3, 0) (1, 0) ...

Efficienza del codice di Lempel e Ziv
parole in un messaggio di lunghezza n bit necessari per codificare la posizione di un prefisso Lunghezza della codifica di un messaggio di lunghezza n: Efficienza del codice di Lempel-Ziv:

Teorema Data una sorgente stazionaria ergodica con alfabeto X ed
entropia H(X), vale q.c.

Diseguaglianza di Lempel e Ziv
con Dimostrazione: Lungh. Cum. parole lunghe al più l

Diseguaglianza di Lempel e Ziv (segue)
Poniamo: c.v.d. Se ne conclude che

Legge dei grandi numeri
Debole: Forte:

Diseguaglianza di Čebyšev
Dimostrazione:

Messaggi più probabili
tutti i messaggi di lunghezza l Numero di occorrenze di si in w per la legge dei grandi numeri

Teorema di Shannon-McMillan
Data una sorgente discreta senza memoria S di entropia H(S), Le parole di lunghezza l ricadono in due classi: I) II)

Dimostrazione Čebyšev: Non dipende da l.

Teorema Dimostrazione:

I° Teorema di Shannon Sia S una sorgente discreta senza memoria di entropia H(S). Siano messaggi di lunghezza l codificati in parole di codice di lunghezza L in un alfabeto di codice con r simboli. Probabilità che occorra un messaggio per cui non sia disponibile una parola di codice.

Dimostrazione ovvero Ma: quindi
= numero di parole di codice di lunghezza L Ogni messaggio tipico ha una parola di codice; i messaggi atipici, che non hanno una parola di codice associata, hanno probabilità di occorrere pari a c.v.d.

Il canale discreto senza memoria (1)
C è un dispositivo in grado di associare in ogni istante t con probabilità P(y | x) un simbolo y dell’alfabeto di destinazione con un simbolo x dell’alfabeto sorgente.

Il canale discreto senza memoria (2)

Esempio 0.571 0.286 0.143 ? 0.143 0.286 1 1 0.571

Estensione di un canale
Un canale è senza memoria sse:

Informazione mutua

Transinformazione Informazione mutua di sistema:

Capacità di canale Dipende solo dalle caratteristiche del canale e dalla distribuzione in ingresso. Ipotesi di canale costante. L’informazione mutua è max quando la transinformazione è indipendente dalla distribuzione in ingresso.

Equivocazione, Irrilevanza
informazione mutua

Lezione 8 4 novembre 2002

Canale binario simmetrico
1 1

Capacità del canale binario simmetrico

Capacità del canale binario simmetrico
1 0.5 1

Canale simmetrico a cancellazione
? 1 1

Capacità dei canali simmetrici
simmetria

Capacità del c.s.c. 1 0.5 1

Canali in cascata CANALE 1 CANALE 2

Teorema (detto “Della Elaborazione dei Dati)
L’informazione mutua non può aumentare al crescere dei canali attraversati; semmai può diminuire. In successive elaborazioni dei dati, si può solo verificare una perdita d’informazione, mai un guadagno.

Dimostrazione diseguaglianza fondamentale

Probabilità di errore ed equivocazione
Sia (matrice di canale quadrata) Si può dimostrare che la probabilità di errore per il trasmittente e per il ricevente è identica:

Diseguaglianza di Fano
probabilità di errore equivocazione dove L’incertezza media su X, se Y è noto, è al più l’incertezza sul fatto che sia stato commesso un errore e, in caso affermativo, l’incertezza su quale dei restanti simboli sia stato trasmesso.

Dimostrazione 1 2

Dimostrazione (segue)
2 – 1

Corollario quando

Lezione 9 7 novembre 2002

Distanza di Hamming Esempio:

Spazio di Hamming di dimensione n
Spazio di Hamming di dimensione l Esempi: 011 111 1 01 11 010 010 110 001 101 00 000 100 0000 1000 10

II° Teorema di Shannon Dato un canale discreto senza memoria di capacità C, a) è possibile trasmettere una quantità di informazione H(X) con probabilità d’errore piccola a piacere, a patto che b) Se comunque codifichiamo i messaggi, sarà

Dimostrazione di b) Ipotesi: Tesi: Fano Poniamo Allora

Grafico di f(z)

Dimostrazione di a) Ipotesi: Tesi:
Assumiamo r = 2 senza perdita di generalità Parole di codice di lunghezza l messaggi N.B.: bit/simbolo Usiamo solo parole di codice delle Costruiamo un codice “a caso” e dimostriamo che

Codice “casuale” Estraiamo a caso parole di codice tra le Sia
la probabilità di errore del canale (per simbolo!) CANALE

Errore

Volume di una sfera di raggio d
In uno spazio di Hamming di dimensione l numero di parole binarie di lunghezza l che differiscono da una data parola w (centro) in al più d posizioni.

Lemma Dimostrazione: i) diseguaglianza fondamentale ii) c.v.d.

Probabilità di errore per un dato codice
Per il Teorema dei grandi numeri:

Probabilità media di errore
Parole contenute in

Conclusione della dimostrazione
Sviluppiamo in serie di Taylor, ricordando che Per cui: c.v.d.

Andamento della probabilità di errore

Teoria dell’Informazione (Classica)

Presentazioni simili

Presentazione sul tema: "Teoria dell’Informazione (Classica)"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Teoria dell’Informazione (Classica)

Presentazioni simili

Presentazione sul tema: "Teoria dell’Informazione (Classica)"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back