Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
1
Teoria dell’Informazione (Classica)
Andrea G. B. Tettamanzi Università degli Studi di Milano Dipartimento di Tecnologie dell’Informazione
2
Lezione 1 3 ottobre 2002
3
Programma del Corso Che cos’è l’Informazione e che cos’è la T.I.
Richiami di Teoria della Probabilità Proprietà matematiche utilizzate nella T.I. Misura dell’informazione: l’Entropia. Codici Comunicazione in presenza di rumore Codici a correzione d’errore Cenni sulla Teoria della Trasmissione Cenni di Crittografia
4
Bibliografia E. ANGELERI: Informazione: significato e universalità, UTET, Torino, (libro di testo) J. VAN DER LUBBE: Information Theory, Cambridge University Press, 1988. J. R. PIERCE: An Introduction to Information Theory, Dover, 1980.
5
Ricevimento Studenti Giovedì, dalle ore 14.00 alle ore 16.00
Per appuntamento: tel.: Sito del corso: “
6
Modalità di Esame Scritto: 3 o 4 esercizi che coprono vari argomenti del corso. Temi d’esame degli scritti degli anni passati, completi di correzione, disponibili all’URL: “ Orale: interrogazione su definizioni, enunciati di teoremi e alcune dimostrazioni, rielaborazione critica del materiale presentato a lezione.
7
Che Cos’è l’Informazione?
SINTASSI SEMANTICA PRAGMATICA
8
Rilevanza pratica dell’informazione (effetto, scopo, ecc.)
significato apparato simbolico Rilevanza pratica dell’informazione (effetto, scopo, ecc.)
9
Informazione - semantica
La quantità di informazione di un enunciato è tanto più grande quante più sono le alternative che esso esclude. U B A
10
Che cos’è la Teoria dell’Informazione?
Una teoria matematica dell’aspetto simbolico dell’Informazione Un approccio quantitativo alla nozione di Informazione Risponde alle domande: Come immagazzinare e trasmettere informazione in modo compatto? (compressione) Qual’è la massima quantità di informazione che può essere trasmessa su un canale? (velocità di trasmissione) Come posso proteggere la mia informazione: dalla corruzione del suo supporto o da errori di trasmissione? da sguardi indiscreti?
11
Compressione Immagazzinamento = Trasmissione scrittura t0 x0 x1 invio
ricezione lettura t1
12
Funzioni convesse Diseguaglianza fondamentale:
13
Convessità del valore atteso
convessa concava
14
Misura dell’Informazione
Alfabeto di s simboli R. V. L. Hartley C I A O , M A M M A ! 1 2 l Messaggi possibili R. Hartley Perché il logaritmo? Perché così
15
Unità di misura dell’Informazione
La quantità di informazione che permette di distinguere uno di due eventi equiprobabili e mutuamente esclusivi è l’unità di misura dell’informazione: il bit. Un simbolo di un alfabeto di s simboli equiprobabili porterà un’informazione di bit
16
Entropia informativa di Shannon
continua simmetrica (commutativa) additiva
17
Massimo dell’Entropia
N.B.:
18
Entropia delle lingue Frequenze dei simboli testo
19
Ridondanza Efficienza di codifica
20
Informazione secondo Kolmogorov
Misura assoluta, non utilizza la probabilità Y X y x fn. parziale ricorsiva descrizioni oggetti
21
Equivalenza con entropia di Shannon
22
Lezione 2 8 ottobre 2002
23
Assiomi dell’entropia (1)
Misura d’incertezza, max con eventi equiprobabili 2 (simmetrica) 3 4
24
Assiomi dell’entropia (2)
5 6 continua 7 8 (diramazione)
25
Teorema Se H soddisfa gli otto assiomi,
Basterebbero 4 assiomi “minimali”: - continuità; - simmetria; - proprietà di diramazione - H(1/2, 1/2) = 1
26
Modello della comunicazione
sorgente destinazione canale rumore
27
Modello dettagliato Sorgente di informazione Destinazione riduzione
ricostruzione Codifica sorgente Decodifica sorgente distorsione (rumore) cifratura decifrazione Codifica canale Decodifica canale Canale discreto modulazione Canale continuo demodulazione
28
Sorgente discreta senza memoria
S è un dispositivo che genera ad ogni istante t un simbolo x con probabilità p(x), i.i.d.
29
Proprietà Indipendenza statistica e stazionarietà: autoinformazione
30
Il concetto di codice Alfabeto sorgente Alfabeto del codice
31
Esempio: codifica delle cifre decimali
Cifra decimale Rappresentazione binaria 1 2 3 4 5 6 7 8 9 0000 0001 0010 0011 0100 0101 0110 0111 1000 1001
32
Estensione di una sorgente
Alfabeto base Alfabeto esteso
33
Teorema Data una sorgente senza memoria, Dimostrazione:
34
Nel caso X = {0, 1}
35
Lezione 3 14 ottobre 2002
36
Classificazione dei codici
A blocco Singolare Non singolare Unicamente decodificabile Non unicamente decodificabile Non istantaneo Istantaneo
37
Esempi Non unicamente decodificabile: Non istantaneo:
38
Codici a prefisso Condizione necessaria e sufficiente perché un codice
sia istantaneo è che nessuna parola del codice sia un prefisso di un’altra parola del codice. 1 1 1
39
Diseguaglianza di Kraft
Condizione necessaria e sufficiente perché esista un codice istantaneo con lunghezze di parola è che
40
Dimostrazione - sufficienza
Costruiamo un codice istantaneo che soddisfa
41
Teorema di McMillan Un codice unicamente decodificabile soddisfa la diseguaglianza di Kraft Sviluppando la potenza, avremo qn termini della forma ma allora deve essere
42
Teorema di codifica della sorgente
Sia la lunghezza media di un codice istantaneo a r simboli. Allora,
43
Dimostrazione Kraft Proprietà fondamentale dei logaritmi
44
Lezione 4 21 ottobre 2002
45
Processi Stocastici Un processo stocastico è una successione di v.a.
Ciascuna con la propria distribuzione di probabilità. Notazione:
46
Catene di Markov Un processo stocastico
è una catena di Markov sse il suo stato dipende solo dallo stato precedente, cioè, per ogni t, A B C 0.4 0.6 0.3 0.7 0.25 0.75
47
Processi Markoviani È un processo Markoviano di ordine m sse
48
Sorgente discreta con memoria
S è un dispositivo che genera ad ogni istante t un simbolo x con probabilità condizionata dagli m simboli generati in precedenza Stazionarietà: le probabilità sono costanti nel tempo
49
Informazione e Entropia condizionali
Informazione condizionale: Entropia condizionale:
50
Proprietà dell’Entropia condizionale
Dimostrazione:
51
Struttura statistica delle lingue
Distribuzione a memoria 0: Distribuzione a memoria 1: testo
52
Frequenze statistiche dell’italiano
53
Approssimazioni Memoria 0: E A IDAVEAPDIAOSPTRR OMR ELRROULEETDP A
OOEPVUNCNCM AALPNESCIESI ... Memoria 1: NFA EGI SSISA LE LERA SCHELA CILU GGILLE PRA PRANA ... Memoria 2: OR IL SARSERA NE HAI GUE E LAMASSETTERRA DO E LA SE AL MILA ... Memoria 3:
54
Stima dell’Entropia con memoria infinita
Esperimento di Shannon
55
Entropia nelle sorgenti con Memoria
56
Teorema L’entropia di una sorgente con memoria è tanto minore quanto
maggiore è l’ordine della memoria.
57
Dimostrazione (Per semplicità, solo nel caso a memoria di ordine 1)
Inoltre,
58
Lezione 5 24 ottobre 2002
59
Codici ottimali con probabilità note a priori
Osservazione: in un codice C ottimale, Dimostrazione: si supponga di scambiare le due parole in questione Siccome C è ottimale, quindi deve essere per forza c.v.d.
60
Codici ottimali con probabilità note a priori
Osservazione: in un codice istantaneo C ottimale a base r, le r parole più lunghe hanno la stessa lunghezza. Dimostrazione: se così non fosse, potrei sopprimere l’ultima parte delle parole più lunghe senza perdere la proprietà di prefisso e ottenendo un codice migliore (assurdo).
61
Codici ottimali con probabilità note a priori
Osservazione: in un codice istantaneo C ottimale a base r, le r parole più lunghe sono associate agli r simboli sorgente meno probabili e differiscono solo per l’ultimo simbolo. Dimostrazione: per 1 1 1 1 1 1
62
Codice di Fano Ordinare i simboli sorgente in ordine di probabilità decrescente Dividere al meglio i simboli in r gruppi equiprobabili Assegnare a ciascun gruppo uno degli r simboli come prefisso Ripetere la divisione per gruppi in modo ricorsivo finché possibile
63
Esempio simbolo probabilità codice 1/4 1/8 1/16 1/32 00 01 100 101
1100 1101 11100 11101 11110 11111 1 2 3 4 5 6 7 8 9
64
Codice di Shannon Calcolare le probabilità cumulative
Scriverle in notazione r-aria Il numero di simboli per parola di codice è dato da cioè
65
Esempio simbolo probabilità prob. Cum. lunghezza codice 2 3 4 5 00 01
100 101 1100 1101 11100 11101 11110 11111 1 2 3 4 5 6 7 8 9 1/4 1/8 1/16 1/32 1/4 1/2 5/8 3/4 13/16 7/8 29/32 15/16 31/32
66
Codice di Huffman Ordinare i simboli sorgente per probabilità decrescente Raggruppare gli r simboli meno probabili e considerarli come un solo simbolo Ripetere il raggruppamento finché possibile Restano al massimo r simboli o gruppi di simboli Assegnare uno degli r simboli a ciascuno dei gruppi come prefisso Svolgere i gruppi all’indietro ripetendo l’assegnamento del prefisso finché tutti i simboli sorgente hanno una parola di codice associata
67
Esempio simbolo probabilità codice 1 2 3 4 5 0.4 0.3 0.1 0.06 0.04 0.4
1 2 3 4 5 0.4 0.3 0.1 0.06 0.04 0.4 0.3 0.1 0.4 0.3 0.2 0.1 0.4 0.3 0.6 0.4 1 1 00 011 0100 01010 01011 1 1 1 1
68
Ottimalità del codice di Huffman
69
Codice alfabetico (o di Gilbert-Moore)
Ordinare i simboli sorgente secondo qualche criterio La lunghezza di ciascuna parola di codice è data da cioè Determinare la sequenza Rappresentare in base r ciascuno di questi numeri secondo la lunghezza calcolata
70
Esempio simbolo probabilità codice A E I O U N . 0.0988 0.0945 0.0863
0.0849 0.0255 0.0684 . 5 7 . 0.0494 0.4242 . 00001 00100 00111 01010 01101 .
71
Codice aritmetico 1
72
Codice Aritmetico: Algoritmo
s[1..n] è la stringa da codificare c = 0; a = 1; for i = 1 to n do begin c = c +a*ProbCum(s[i]); a = a*Prob(s[i]); end c (scritto in base 2) è il codice cercato c è il codice ricevuto a = 1; for i = 1 to n do begin s[i] = FindSymbol(c); c = (c -ProbCum(s[i])) /Prob(s[i]); i = i + 1; end s[1..n] è la stringa cercata
73
Lezione 6 28 ottobre 2002
74
Algoritmo di Lempel e Ziv
1. Da sinistra a destra, scrivere ogni volta la parola più breve mai incontrata prima, fino alla fine del testo; 2. Per ogni parola, separare il prefisso (una parola già incontrata) dal simbolo finale; 3. Codificare ogni parola con una coppia formata dalla posizione suo prefisso nella lista e dal simbolo finale che deve essere aggiunto.
75
Esempio (passo 1) 1, 0, 11, 01, 00, 110, 10, ... (passo 2) 1, 0, 1.1, 0.1, 0.0, 11.0, 1.0, ... (passo 3) (0, 1) (0, 0) (1, 1) (2, 1) (2, 0) (3, 0) (1, 0) ...
76
Efficienza del codice di Lempel e Ziv
parole in un messaggio di lunghezza n bit necessari per codificare la posizione di un prefisso Lunghezza della codifica di un messaggio di lunghezza n: Efficienza del codice di Lempel-Ziv:
77
Teorema Data una sorgente stazionaria ergodica con alfabeto X ed
entropia H(X), vale q.c.
78
Diseguaglianza di Lempel e Ziv
con Dimostrazione: Lungh. Cum. parole lunghe al più l
79
Diseguaglianza di Lempel e Ziv (segue)
Poniamo: c.v.d. Se ne conclude che
80
Legge dei grandi numeri
Debole: Forte:
81
Diseguaglianza di Čebyšev
Dimostrazione:
82
Messaggi più probabili
tutti i messaggi di lunghezza l Numero di occorrenze di si in w per la legge dei grandi numeri
83
Teorema di Shannon-McMillan
Data una sorgente discreta senza memoria S di entropia H(S), Le parole di lunghezza l ricadono in due classi: I) II)
84
Dimostrazione Čebyšev: Non dipende da l.
85
Lezione 7 31 ottobre 2002
86
Teorema Dimostrazione:
87
I° Teorema di Shannon Sia S una sorgente discreta senza memoria di entropia H(S). Siano messaggi di lunghezza l codificati in parole di codice di lunghezza L in un alfabeto di codice con r simboli. Probabilità che occorra un messaggio per cui non sia disponibile una parola di codice.
88
Dimostrazione ovvero Ma: quindi
= numero di parole di codice di lunghezza L Ogni messaggio tipico ha una parola di codice; i messaggi atipici, che non hanno una parola di codice associata, hanno probabilità di occorrere pari a c.v.d.
89
Il canale discreto senza memoria (1)
C è un dispositivo in grado di associare in ogni istante t con probabilità P(y | x) un simbolo y dell’alfabeto di destinazione con un simbolo x dell’alfabeto sorgente.
90
Il canale discreto senza memoria (2)
91
Esempio 0.571 0.286 0.143 ? 0.143 0.286 1 1 0.571
92
Estensione di un canale
Un canale è senza memoria sse:
93
Informazione mutua
94
Transinformazione Informazione mutua di sistema:
95
Capacità di canale Dipende solo dalle caratteristiche del canale e dalla distribuzione in ingresso. Ipotesi di canale costante. L’informazione mutua è max quando la transinformazione è indipendente dalla distribuzione in ingresso.
96
Equivocazione, Irrilevanza
informazione mutua
97
Lezione 8 4 novembre 2002
98
Canale binario simmetrico
1 1
99
Capacità del canale binario simmetrico
100
Capacità del canale binario simmetrico
1 0.5 1
101
Canale simmetrico a cancellazione
? 1 1
102
Capacità dei canali simmetrici
simmetria
103
Capacità del c.s.c. 1 0.5 1
104
Canali in cascata CANALE 1 CANALE 2
105
Teorema (detto “Della Elaborazione dei Dati)
L’informazione mutua non può aumentare al crescere dei canali attraversati; semmai può diminuire. In successive elaborazioni dei dati, si può solo verificare una perdita d’informazione, mai un guadagno.
106
Dimostrazione diseguaglianza fondamentale
107
Probabilità di errore ed equivocazione
Sia (matrice di canale quadrata) Si può dimostrare che la probabilità di errore per il trasmittente e per il ricevente è identica:
108
Diseguaglianza di Fano
probabilità di errore equivocazione dove L’incertezza media su X, se Y è noto, è al più l’incertezza sul fatto che sia stato commesso un errore e, in caso affermativo, l’incertezza su quale dei restanti simboli sia stato trasmesso.
109
Dimostrazione 1 2
110
Dimostrazione (segue)
2 – 1
111
Corollario quando
112
Lezione 9 7 novembre 2002
113
Distanza di Hamming Esempio:
114
Spazio di Hamming di dimensione n
Spazio di Hamming di dimensione l Esempi: 011 111 1 01 11 010 010 110 001 101 00 000 100 0000 1000 10
115
II° Teorema di Shannon Dato un canale discreto senza memoria di capacità C, a) è possibile trasmettere una quantità di informazione H(X) con probabilità d’errore piccola a piacere, a patto che b) Se comunque codifichiamo i messaggi, sarà
116
Dimostrazione di b) Ipotesi: Tesi: Fano Poniamo Allora
117
Grafico di f(z)
118
Dimostrazione di a) Ipotesi: Tesi:
Assumiamo r = 2 senza perdita di generalità Parole di codice di lunghezza l messaggi N.B.: bit/simbolo Usiamo solo parole di codice delle Costruiamo un codice “a caso” e dimostriamo che
119
Codice “casuale” Estraiamo a caso parole di codice tra le Sia
la probabilità di errore del canale (per simbolo!) CANALE
120
Errore
121
Volume di una sfera di raggio d
In uno spazio di Hamming di dimensione l numero di parole binarie di lunghezza l che differiscono da una data parola w (centro) in al più d posizioni.
122
Lemma Dimostrazione: i) diseguaglianza fondamentale ii) c.v.d.
123
Probabilità di errore per un dato codice
Per il Teorema dei grandi numeri:
124
Probabilità media di errore
Parole contenute in
125
Conclusione della dimostrazione
Sviluppiamo in serie di Taylor, ricordando che Per cui: c.v.d.
126
Andamento della probabilità di errore
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.