La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Teoria dell’Informazione (Classica)

Copie: 1
Andrea G. B. Tettamanzi, 2001 Teoria dellInformazione (Classica) Andrea G. B. Tettamanzi Università degli Studi di Milano Dipartimento di Tecnologie dellInformazione.

Presentazioni simili


Presentazione sul tema: "Teoria dell’Informazione (Classica)"— Transcript della presentazione:

1 Teoria dell’Informazione (Classica)
Andrea G. B. Tettamanzi Università degli Studi di Milano Dipartimento di Tecnologie dell’Informazione

2 Lezione 1 3 ottobre 2002

3 Programma del Corso Che cos’è l’Informazione e che cos’è la T.I.
Richiami di Teoria della Probabilità Proprietà matematiche utilizzate nella T.I. Misura dell’informazione: l’Entropia. Codici Comunicazione in presenza di rumore Codici a correzione d’errore Cenni sulla Teoria della Trasmissione Cenni di Crittografia

4 Bibliografia E. ANGELERI: Informazione: significato e universalità, UTET, Torino, (libro di testo) J. VAN DER LUBBE: Information Theory, Cambridge University Press, 1988. J. R. PIERCE: An Introduction to Information Theory, Dover, 1980.

5 Ricevimento Studenti Giovedì, dalle ore 14.00 alle ore 16.00
Per appuntamento: tel.: Sito del corso: “http://mago.crema.unimi.it/Classes/TIC”

6 Modalità di Esame Scritto: 3 o 4 esercizi che coprono vari argomenti del corso. Temi d’esame degli scritti degli anni passati, completi di correzione, disponibili all’URL: “http://mago.crema.unimi.it/Classes/TIC/Temidesame” Orale: interrogazione su definizioni, enunciati di teoremi e alcune dimostrazioni, rielaborazione critica del materiale presentato a lezione.

7 Che Cos’è l’Informazione?
SINTASSI SEMANTICA PRAGMATICA

8 Rilevanza pratica dell’informazione (effetto, scopo, ecc.)
significato apparato simbolico Rilevanza pratica dell’informazione (effetto, scopo, ecc.)

9 Informazione - semantica
La quantità di informazione di un enunciato è tanto più grande quante più sono le alternative che esso esclude. U B A

10 Che cos’è la Teoria dell’Informazione?
Una teoria matematica dell’aspetto simbolico dell’Informazione Un approccio quantitativo alla nozione di Informazione Risponde alle domande: Come immagazzinare e trasmettere informazione in modo compatto? (compressione) Qual’è la massima quantità di informazione che può essere trasmessa su un canale? (velocità di trasmissione) Come posso proteggere la mia informazione: dalla corruzione del suo supporto o da errori di trasmissione? da sguardi indiscreti?

11 Compressione Immagazzinamento = Trasmissione scrittura t0 x0 x1 invio
ricezione lettura t1

12 Funzioni convesse Diseguaglianza fondamentale:

13 Convessità del valore atteso
convessa concava

14 Misura dell’Informazione
Alfabeto di s simboli R. V. L. Hartley C I A O , M A M M A ! 1 2 l Messaggi possibili R. Hartley Perché il logaritmo? Perché così

15 Unità di misura dell’Informazione
La quantità di informazione che permette di distinguere uno di due eventi equiprobabili e mutuamente esclusivi è l’unità di misura dell’informazione: il bit. Un simbolo di un alfabeto di s simboli equiprobabili porterà un’informazione di bit

16 Entropia informativa di Shannon
continua simmetrica (commutativa) additiva

17 Massimo dell’Entropia
N.B.:

18 Entropia delle lingue Frequenze dei simboli testo

19 Ridondanza Efficienza di codifica

20 Informazione secondo Kolmogorov
Misura assoluta, non utilizza la probabilità Y X y x fn. parziale ricorsiva descrizioni oggetti

21 Equivalenza con entropia di Shannon

22 Lezione 2 8 ottobre 2002

23 Assiomi dell’entropia (1)
Misura d’incertezza, max con eventi equiprobabili 2 (simmetrica) 3 4

24 Assiomi dell’entropia (2)
5 6 continua 7 8 (diramazione)

25 Teorema Se H soddisfa gli otto assiomi,
Basterebbero 4 assiomi “minimali”: - continuità; - simmetria; - proprietà di diramazione - H(1/2, 1/2) = 1

26 Modello della comunicazione
sorgente destinazione canale rumore

27 Modello dettagliato Sorgente di informazione Destinazione riduzione
ricostruzione Codifica sorgente Decodifica sorgente distorsione (rumore) cifratura decifrazione Codifica canale Decodifica canale Canale discreto modulazione Canale continuo demodulazione

28 Sorgente discreta senza memoria
S è un dispositivo che genera ad ogni istante t un simbolo x con probabilità p(x), i.i.d.

29 Proprietà Indipendenza statistica e stazionarietà: autoinformazione

30 Il concetto di codice Alfabeto sorgente Alfabeto del codice

31 Esempio: codifica delle cifre decimali
Cifra decimale Rappresentazione binaria 1 2 3 4 5 6 7 8 9 0000 0001 0010 0011 0100 0101 0110 0111 1000 1001

32 Estensione di una sorgente
Alfabeto base Alfabeto esteso

33 Teorema Data una sorgente senza memoria, Dimostrazione:

34 Nel caso X = {0, 1}

35 Lezione 3 14 ottobre 2002

36 Classificazione dei codici
A blocco Singolare Non singolare Unicamente decodificabile Non unicamente decodificabile Non istantaneo Istantaneo

37 Esempi Non unicamente decodificabile: Non istantaneo:

38 Codici a prefisso Condizione necessaria e sufficiente perché un codice
sia istantaneo è che nessuna parola del codice sia un prefisso di un’altra parola del codice. 1 1 1

39 Diseguaglianza di Kraft
Condizione necessaria e sufficiente perché esista un codice istantaneo con lunghezze di parola è che

40 Dimostrazione - sufficienza
Costruiamo un codice istantaneo che soddisfa

41 Teorema di McMillan Un codice unicamente decodificabile soddisfa la diseguaglianza di Kraft Sviluppando la potenza, avremo qn termini della forma ma allora deve essere

42 Teorema di codifica della sorgente
Sia la lunghezza media di un codice istantaneo a r simboli. Allora,

43 Dimostrazione Kraft Proprietà fondamentale dei logaritmi

44 Lezione 4 21 ottobre 2002

45 Processi Stocastici Un processo stocastico è una successione di v.a.
Ciascuna con la propria distribuzione di probabilità. Notazione:

46 Catene di Markov Un processo stocastico
è una catena di Markov sse il suo stato dipende solo dallo stato precedente, cioè, per ogni t, A B C 0.4 0.6 0.3 0.7 0.25 0.75

47 Processi Markoviani È un processo Markoviano di ordine m sse

48 Sorgente discreta con memoria
S è un dispositivo che genera ad ogni istante t un simbolo x con probabilità condizionata dagli m simboli generati in precedenza Stazionarietà: le probabilità sono costanti nel tempo

49 Informazione e Entropia condizionali
Informazione condizionale: Entropia condizionale:

50 Proprietà dell’Entropia condizionale
Dimostrazione:

51 Struttura statistica delle lingue
Distribuzione a memoria 0: Distribuzione a memoria 1: testo

52 Frequenze statistiche dell’italiano

53 Approssimazioni Memoria 0: E A IDAVEAPDIAOSPTRR OMR ELRROULEETDP A
OOEPVUNCNCM AALPNESCIESI ... Memoria 1: NFA EGI SSISA LE LERA SCHELA CILU GGILLE PRA PRANA ... Memoria 2: OR IL SARSERA NE HAI GUE E LAMASSETTERRA DO E LA SE AL MILA ... Memoria 3:

54 Stima dell’Entropia con memoria infinita
Esperimento di Shannon

55 Entropia nelle sorgenti con Memoria

56 Teorema L’entropia di una sorgente con memoria è tanto minore quanto
maggiore è l’ordine della memoria.

57 Dimostrazione (Per semplicità, solo nel caso a memoria di ordine 1)
Inoltre,

58 Lezione 5 24 ottobre 2002

59 Codici ottimali con probabilità note a priori
Osservazione: in un codice C ottimale, Dimostrazione: si supponga di scambiare le due parole in questione Siccome C è ottimale, quindi deve essere per forza c.v.d.

60 Codici ottimali con probabilità note a priori
Osservazione: in un codice istantaneo C ottimale a base r, le r parole più lunghe hanno la stessa lunghezza. Dimostrazione: se così non fosse, potrei sopprimere l’ultima parte delle parole più lunghe senza perdere la proprietà di prefisso e ottenendo un codice migliore (assurdo).

61 Codici ottimali con probabilità note a priori
Osservazione: in un codice istantaneo C ottimale a base r, le r parole più lunghe sono associate agli r simboli sorgente meno probabili e differiscono solo per l’ultimo simbolo. Dimostrazione: per 1 1 1 1 1 1

62 Codice di Fano Ordinare i simboli sorgente in ordine di probabilità decrescente Dividere al meglio i simboli in r gruppi equiprobabili Assegnare a ciascun gruppo uno degli r simboli come prefisso Ripetere la divisione per gruppi in modo ricorsivo finché possibile

63 Esempio simbolo probabilità codice 1/4 1/8 1/16 1/32 00 01 100 101
1100 1101 11100 11101 11110 11111 1 2 3 4 5 6 7 8 9

64 Codice di Shannon Calcolare le probabilità cumulative
Scriverle in notazione r-aria Il numero di simboli per parola di codice è dato da cioè

65 Esempio simbolo probabilità prob. Cum. lunghezza codice 2 3 4 5 00 01
100 101 1100 1101 11100 11101 11110 11111 1 2 3 4 5 6 7 8 9 1/4 1/8 1/16 1/32 1/4 1/2 5/8 3/4 13/16 7/8 29/32 15/16 31/32

66 Codice di Huffman Ordinare i simboli sorgente per probabilità decrescente Raggruppare gli r simboli meno probabili e considerarli come un solo simbolo Ripetere il raggruppamento finché possibile Restano al massimo r simboli o gruppi di simboli Assegnare uno degli r simboli a ciascuno dei gruppi come prefisso Svolgere i gruppi all’indietro ripetendo l’assegnamento del prefisso finché tutti i simboli sorgente hanno una parola di codice associata

67 Esempio simbolo probabilità codice 1 2 3 4 5 0.4 0.3 0.1 0.06 0.04 0.4
1 2 3 4 5 0.4 0.3 0.1 0.06 0.04 0.4 0.3 0.1 0.4 0.3 0.2 0.1 0.4 0.3 0.6 0.4 1 1 00 011 0100 01010 01011 1 1 1 1

68 Ottimalità del codice di Huffman

69 Codice alfabetico (o di Gilbert-Moore)
Ordinare i simboli sorgente secondo qualche criterio La lunghezza di ciascuna parola di codice è data da cioè Determinare la sequenza Rappresentare in base r ciascuno di questi numeri secondo la lunghezza calcolata

70 Esempio simbolo probabilità codice A E I O U N . 0.0988 0.0945 0.0863
0.0849 0.0255 0.0684 . 5 7 . 0.0494 0.4242 . 00001 00100 00111 01010 01101 .

71 Codice aritmetico 1

72 Codice Aritmetico: Algoritmo
s[1..n] è la stringa da codificare c = 0; a = 1; for i = 1 to n do begin c = c +a*ProbCum(s[i]); a = a*Prob(s[i]); end c (scritto in base 2) è il codice cercato c è il codice ricevuto a = 1; for i = 1 to n do begin s[i] = FindSymbol(c); c = (c -ProbCum(s[i])) /Prob(s[i]); i = i + 1; end s[1..n] è la stringa cercata

73 Lezione 6 28 ottobre 2002

74 Algoritmo di Lempel e Ziv
1. Da sinistra a destra, scrivere ogni volta la parola più breve mai incontrata prima, fino alla fine del testo; 2. Per ogni parola, separare il prefisso (una parola già incontrata) dal simbolo finale; 3. Codificare ogni parola con una coppia formata dalla posizione suo prefisso nella lista e dal simbolo finale che deve essere aggiunto.

75 Esempio (passo 1) 1, 0, 11, 01, 00, 110, 10, ... (passo 2) 1, 0, 1.1, 0.1, 0.0, 11.0, 1.0, ... (passo 3) (0, 1) (0, 0) (1, 1) (2, 1) (2, 0) (3, 0) (1, 0) ...

76 Efficienza del codice di Lempel e Ziv
parole in un messaggio di lunghezza n bit necessari per codificare la posizione di un prefisso Lunghezza della codifica di un messaggio di lunghezza n: Efficienza del codice di Lempel-Ziv:

77 Teorema Data una sorgente stazionaria ergodica con alfabeto X ed
entropia H(X), vale q.c.

78 Diseguaglianza di Lempel e Ziv
con Dimostrazione: Lungh. Cum. parole lunghe al più l

79 Diseguaglianza di Lempel e Ziv (segue)
Poniamo: c.v.d. Se ne conclude che

80 Legge dei grandi numeri
Debole: Forte:

81 Diseguaglianza di Čebyšev
Dimostrazione:

82 Messaggi più probabili
tutti i messaggi di lunghezza l Numero di occorrenze di si in w per la legge dei grandi numeri

83 Teorema di Shannon-McMillan
Data una sorgente discreta senza memoria S di entropia H(S), Le parole di lunghezza l ricadono in due classi: I) II)

84 Dimostrazione Čebyšev: Non dipende da l.

85 Lezione 7 31 ottobre 2002

86 Teorema Dimostrazione:

87 I° Teorema di Shannon Sia S una sorgente discreta senza memoria di entropia H(S). Siano messaggi di lunghezza l codificati in parole di codice di lunghezza L in un alfabeto di codice con r simboli. Probabilità che occorra un messaggio per cui non sia disponibile una parola di codice.

88 Dimostrazione ovvero Ma: quindi
= numero di parole di codice di lunghezza L Ogni messaggio tipico ha una parola di codice; i messaggi atipici, che non hanno una parola di codice associata, hanno probabilità di occorrere pari a c.v.d.

89 Il canale discreto senza memoria (1)
C è un dispositivo in grado di associare in ogni istante t con probabilità P(y | x) un simbolo y dell’alfabeto di destinazione con un simbolo x dell’alfabeto sorgente.

90 Il canale discreto senza memoria (2)

91 Esempio 0.571 0.286 0.143 ? 0.143 0.286 1 1 0.571

92 Estensione di un canale
Un canale è senza memoria sse:

93 Informazione mutua

94 Transinformazione Informazione mutua di sistema:

95 Capacità di canale Dipende solo dalle caratteristiche del canale e dalla distribuzione in ingresso. Ipotesi di canale costante. L’informazione mutua è max quando la transinformazione è indipendente dalla distribuzione in ingresso.

96 Equivocazione, Irrilevanza
informazione mutua

97 Lezione 8 4 novembre 2002

98 Canale binario simmetrico
1 1

99 Capacità del canale binario simmetrico

100 Capacità del canale binario simmetrico
1 0.5 1

101 Canale simmetrico a cancellazione
? 1 1

102 Capacità dei canali simmetrici
simmetria

103 Capacità del c.s.c. 1 0.5 1

104 Canali in cascata CANALE 1 CANALE 2

105 Teorema (detto “Della Elaborazione dei Dati)
L’informazione mutua non può aumentare al crescere dei canali attraversati; semmai può diminuire. In successive elaborazioni dei dati, si può solo verificare una perdita d’informazione, mai un guadagno.

106 Dimostrazione diseguaglianza fondamentale

107 Probabilità di errore ed equivocazione
Sia (matrice di canale quadrata) Si può dimostrare che la probabilità di errore per il trasmittente e per il ricevente è identica:

108 Diseguaglianza di Fano
probabilità di errore equivocazione dove L’incertezza media su X, se Y è noto, è al più l’incertezza sul fatto che sia stato commesso un errore e, in caso affermativo, l’incertezza su quale dei restanti simboli sia stato trasmesso.

109 Dimostrazione 1 2

110 Dimostrazione (segue)
2 1

111 Corollario quando

112 Lezione 9 7 novembre 2002

113 Distanza di Hamming Esempio:

114 Spazio di Hamming di dimensione n
Spazio di Hamming di dimensione l Esempi: 011 111 1 01 11 010 010 110 001 101 00 000 100 0000 1000 10

115 II° Teorema di Shannon Dato un canale discreto senza memoria di capacità C, a) è possibile trasmettere una quantità di informazione H(X) con probabilità d’errore piccola a piacere, a patto che b) Se comunque codifichiamo i messaggi, sarà

116 Dimostrazione di b) Ipotesi: Tesi: Fano Poniamo Allora

117 Grafico di f(z)

118 Dimostrazione di a) Ipotesi: Tesi:
Assumiamo r = 2 senza perdita di generalità Parole di codice di lunghezza l messaggi N.B.: bit/simbolo Usiamo solo parole di codice delle Costruiamo un codice “a caso” e dimostriamo che

119 Codice “casuale” Estraiamo a caso parole di codice tra le Sia
la probabilità di errore del canale (per simbolo!) CANALE

120 Errore

121 Volume di una sfera di raggio d
In uno spazio di Hamming di dimensione l numero di parole binarie di lunghezza l che differiscono da una data parola w (centro) in al più d posizioni.

122 Lemma Dimostrazione: i) diseguaglianza fondamentale ii) c.v.d.

123 Probabilità di errore per un dato codice
Per il Teorema dei grandi numeri:

124 Probabilità media di errore
Parole contenute in

125 Conclusione della dimostrazione
Sviluppiamo in serie di Taylor, ricordando che Per cui: c.v.d.

126 Andamento della probabilità di errore


Scaricare ppt "Teoria dell’Informazione (Classica)"

Presentazioni simili


Annunci Google