Introduzione alla teoria dellinformazione misura dellinformazione ridondanza codifica di sorgente robustezza codifica di canale decodifica dellinformazione.

Slides:



Advertisements
Presentazioni simili
Dall’informazione al linguaggio macchina
Advertisements

Rappresentazioni numeriche
Teoria dei codici correttori d'errore
Lequivocazione By Vaccaro Maria A.. Che incidenza ha il disturbo sullinformazione? Si avrà in tal caso che lincertezza media nel messaggio trasmesso.
Informatica Generale Susanna Pelagatti
Informatica Generale Marzia Buscemi IMT Lucca
Rappresentazione dei dati e codifica delle informazioni
Come possono essere classificati?
Rappresentazioni numeriche
Tecniche di compressione dei dati
Le Informazioni e la loro Rappresentazione nei calcolatori
Trasmissione delle informazioni
Andrea G. B. Tettamanzi, 2001 Teoria dellInformazione (Classica) Andrea G. B. Tettamanzi Università degli Studi di Milano Dipartimento di Tecnologie dellInformazione.
Sistemi e Tecnologie della Comunicazione
Gli alberi binari sono contenitori efficienti.
prototipo di crescita esponenziale crescita aritmetica.
Circuiti di memorizzazione elementari: i Flip Flop
Università degli Studi di Bergamo Facoltà di Lingue e Letterature Straniere Facoltà di Lettere e Filosofia A.A Informatica generale 1 Appunti.
Informatica 3 Codifica binaria.
Sistemi Elettronici Programmabili
A.S.E.13.1 ARCHITETTURA DEI SISTEMI ELETTRONICI LEZIONE N° 13 Somma e differenza di due numeri in C2Somma e differenza di due numeri in C2 Half AdderHalf.
A.S.E.6.1 ARCHITETTURA DEI SISTEMI ELETTRONICI LEZIONE N° 6 Complemento a MComplemento a M Rappresentazione di numeri con segnoRappresentazione di numeri.
A.S.E.5.1 ARCHITETTURA DEI SISTEMI ELETTRONICI LEZIONE N° 5 Rappresentazione di numeri con segnoRappresentazione di numeri con segno –Modulo e segno (MS)
Settembre 2002IFTS2002 Acq. Dati Remoti: INFORMATICA 1 Rappresentazione dellinformazione (1)
Confronto di due signed (in compl. a 2) Caso 1: numeri dello stesso segno Non ci può essere overflow (sottraendo, viene fuori un numero più piccolo in.
Algoritmi e strutture dati
INFORMAZIONE LEZIONE 1.
Corso di Informatica per Giurisprudenza
I CODICI.
CODICI Si ringrazia il prof. Di Santo per aver gentilmente messo a disposizione il proprio materiale per la preparazione di alcune delle slides presenti.
Codici binari decimali
Definizione intuitiva di informazione
By prof. Camuso. Misura del grado di incertezza (medio) dei messaggi emessi da una sorgente.
Cenni di teoria degli errori
Lezione 5. Ricapitolando…. Sistemi P2P puri Sistemi UniformiSistemi Non uniformi Abbiamo detto abbastanza KoordeNeighbor of Neighbor routing (NON)
Ricapitolando…. Sistemi P2P puri Sistemi UniformiSistemi Non uniformi Abbiamo detto abbastanza KoordeNeighbor of Neighbor routing (NON)
Introduzione alla teoria dellinformazione misura dellinformazione ridondanza codifica di sorgente robustezza codifica di canale decodifica dellinformazione.
La conversione analogico-digitale, campionamento e quantizzazione
Semantica per formule di un linguaggio proposizionale p.9 della dispensa.
Cos’è un problema?.
Sistema di comunicazione
Intelligenza Artificiale Algoritmi Genetici
Gli esseri viventi ricevono informazione direttamente dal mondo circostante e dai propri simili attraverso i sensi (percezione). La percezione, tuttavia,
Codifica binaria Rappresentazione di numeri
Limiti al trasferimento di informazione u Il tempo necessario per trasmettere dellinformazione dipende da: –la velocita di segnalazione (cioe quanto velocemente.
Cos’è una sequenza? Una sequenza è una successione finita di valori, dove ogni valore ha una durata prefissata e costante (T). I valori della sequenza.
Rappresentazione dell’informazione
Corso di Laurea in Biotecnologie corso di Informatica Paolo Mereghetti DISCo – Dipartimento di Informatica, Sistemistica e Comunicazione.
Rete Asincrona Una rete sequenziale asincrona è dotata di due ingressi E, X e di una uscita Z. L'uscita Z deve diventare 1 solamente quando durante l'ultima.
Educare al multimediale 1 – Verso il digitale 2 Presentazione a cura di Gino Roncaglia Prima parte: Informazione in formato digitale.
RAPPRESENTAZIONE DELL'INFORMAZIONE
Alle origini della scienza dellinformazione /4 Luca Mari
Parte Terza: Codificare l’informazione
Ci occupiamo della misura dellinformazione emessa da una sorgente la sorgente è tanto più efficiente quanto più risulta imprevedibile da parte del destinatario.
Cerchiamo di rispondere alla seconda domanda 2)La soluzione trovata con lalgoritmo goloso è ottima o esistono anche soluzioni con più di quattro attività?
CONCETTI DI BASE 1.0 FONDAMENTI 1.1 HARDWARE 1.2 SOFTWARE 1.3 RETI
Codifica dell’informazione
Linguaggi e Programmazione per l’Informatica Musicale
Linguaggi e Programmazione per l’Informatica Musicale a cura di G.Finizio Analogico e Digitale Auto-istruzione 1.
Una rete sequenziale asincrona è dotata di due ingressi X1, X2 e di un’uscita Z. I segnali X2 e X1 non cambiano mai di valore contemporaneamente. Il segnale.
La rappresentazione delle informazioni in un computer Seconda parte.
Concetti di Teoria dell'Informazione per informazione si intende tutto ciò che contribuisce ad eliminare incertezza. Infatti, se una sorgente di messaggi.
La rappresentazione delle informazioni in un computer
Risoluzione di Problemi con gli algoritmi Ricorsivi
Rappresentazione dell’Informazione
Informazione multimediale Lettere e numeri non costituiscono le uniche informazioni utilizzate dagli elaboratori ma ci sono sempre piu’ applicazioni che.
1 Informatica Generale Alessandra Di Pierro Ricevimento: Giovedì ore presso Dipartimento di Informatica, Via Buonarroti,
Bit singolo e burst u un canale che trasmette voce tollera bene gli errori distribuiti uniformemente –perche’ errori singoli hanno effetti simili al rumore.
Codici prefissi Un codice prefisso è un codice in cui nessuna parola codice è prefisso (parte iniziale) di un’altra Ogni codice a lunghezza fissa è ovviamente.
Transcript della presentazione:

Introduzione alla teoria dellinformazione misura dellinformazione ridondanza codifica di sorgente robustezza codifica di canale decodifica dellinformazione biologica Francesco Piva Dipartimento di Biochimica, Biologia e Genetica Università Politecnica delle Marche

Struttura di comunicazione attraverso un canale trasmissivo

Ci occupiamo della misura dellinformazione emessa da una sorgente la sorgente è tanto più efficiente quanto più risulta imprevedibile da parte del destinatario linformazione che sarà emessa supponiamo che la sorgente di informazione sia un testo, se il destinatario già conosce quel testo, linformazione emessa dalla sorgente è nulla se il destinatario non ha mai letto quel testo, la sorgente emette la massima informazione se il destinatario non conosce il testo ma conosce in modo generico linformazione che si aspetta, allora linformazione risulterà minore di quella massima con il termine linguaggio intendiamo una serie di regole su cui sorgenete e destinatario concordano per consentire il trasferimento di informazione dalluno allaltro

Linformazione contenuta in un messaggio ha leffetto di cambiare lo stato di incertezza nei riguardi di una certa situazione. Dopo la ricezione del messaggio lincertezza diminuisce o decade. Più il messaggio toglie incertezza più questo ha valore Linformazione è lincertezza che si ha prima di ricevere il messaggio. Immaginiamo che io stia aspettando di sapere se una persona (Pippo) è o meno nel suo ufficio. Immaginiamo che ci sia il 70% delle probabilità di trovarlo nel suo ufficio e il 30% di trovarlo in altre stanze. Se mi informano che è nel suo ufficio, ho eliminato la mia incertezza, ma già la mia incertezza era bassa perché mi sarei aspettato di trovarlo in ufficio. Quindi questa informazione non ha un valore molto alto. Se mi informano che non è nel suo ufficio, ho risolto una maggiore incertezza perché cerano meno probabilità che questo accadesse, cioè era una situazione più inaspettata, quindi avevo unincertezza maggiore. Questa informazione ha più valore perché mi ha tolto una maggiore incertezza

Altro esempio: supponiamo di essere ad un esame e dover dare la risposta ad un quesito barrando una casella. Supponiamo di non conoscere la risposta alla domanda. Se le caselle, cioè le possibili risposte sono due, ho maggiori probabilità di barrare la risposta esatta. Se le caselle fossero 10 ho minore probabilità di barrare quella esatta. Se ci sono identiche probabilità di trovare Pippo nel suo ufficio, allora le due informazioni hanno lo stesso valore. Supponiamo che Pippo possa essere in 5 stanze diverse, e in ogni stanza con la stessa probabilità. Ho la probabilità del 20% che esso sia in una stanza. Uninformazione che risolve questo stato di incertezza ha molto valore perché molte erano le possibilità.

Da questo momento consideriamo lequiprobabilità che si verifichi un certo stato tra N aspettati Consideriamo che linformazione elementare venga portata da un simbolo che può assumere due soli stati: 0 e 1 Una sequenza lunga M permette di discriminare (o risolvere) N stati N=2 M Lincertezza è tanto maggiore quanto maggiore è N …… ……… ……… ………..

La quantità di informazione portata da un solo simbolo a N stati, o da una sequenza che può assumere N forme diverse, è i=log 2 N Nel caso N=2, cioè un simbolo a due stati, che mi permette di discriminare tra due eventi i=log 2 2 = 1 bit La quantità di informazione portata da una sequenza di M simboli binari è i=log 2 (2 M ) = M log 2 2 = log 2 N = M bit

Se tutti gli N stati di un simbolo o le N forme di una sequenza, possono giungere con la stessa probabilità P N = 1 / P es. 2 = 1 / 0.5 la formula precedente esprime N in funzione della probabilità diventa i = log 2 N = log 2 (1/P) = - log 2 (P) (quantità di informazione di un simbolo in cui ogni stato ha probabilità P di verificarsi) Se gli eventi o stati non si verificano con la stessa probabilità… ad esempio p(0) = 0.1 p(1) = 0.9 i 0 = - log 2 (0.1) = 3.3 bit i 1 = - log 2 (0.9) = 0.15 bit i simboli più rari portano più informazione

Finora abbiamo visto linformazione portata da un preciso simbolo però in una conversazione, in una lettura, in una sequenza di dati di computer abbiamo a che fare con una lunga sequenza di simboli. Qual è linformazione media per simbolo portata da una sequenza di simboli? i medio = P 0 * i 0 + P 1 * i 1 [bit per simbolo] i medio = P 0 * -log 2 (P 0 ) + P 1 * -log 2 (P 1 ) Nel caso in cui 0 e 1 siano equiprobabili i medio = 0.5 * * 1 = 1 bit Nel caso di non equiprobabilità degli stati i medio = 0.1 * * 0.15 = 0.46 bit Una sorgente che emette simboli i cui stati sono equiprobabili ha la massima efficienza informativa, cioè ciascun simbolo ha il massimo contenuto informativo o … a parità di informazione trasmessa impiega meno simboli

La quantità i medio = P 0 * i 0 + P 1 * i 1 è detta anche ENTROPIA (H) della sorgente di informazione Si nota che la massima entropia si ha per valori di P = 0.5 cioè per lequiprobabilità degli stati 0 e 1. A questo punto si verifica il trasferimento di informazione con la massima efficienza

Esempio: Estrazione di una sequenza consenso da dati sperimentali di binding

RIDONDANZA Non equiprobabilitàcorrelazione La ridondanza indica quanto diminuisce la capacità di una sorgente di inviare informazioni, a causa della non equiprobabilità e della correlazione tra i simboli. La correlazione è il legame tra i simboli emessi da una sorgente, è come dire che osservando la sequenza appena uscita, si possono trarre indicazioni sui simboli che stanno per uscire. Esempio: le parole che usiamo per comunicare hanno regolarità sia interne (tra le lettere) che esterne (articolo con il genere del sostantivo). Per questo motivo, se stiamo leggendo un testo e in particolare una parola, di solito dalle prime lettere si intuisce già la parola intera.

albergo albero alcool ali alimento allarme allegria allora alluvione alveolo aln… alr… alrr… E la tecnica usata dai software per scrivere messaggi sms sui telefonini A causa delle regole di semantica che introducono correlazione, ci sono parole proibite. a alalb albe alba albergo albero albume albergo albero abbraccio aereo albergo albero alcool ali alimento allarme allegria allora alluvione alveolo anca assegno

Vantaggi della correlazione tra caratteri: Irrobustiscono linformazione quindi permettono di comprendere la parola anche se ci sfuggono alcuni caratteri, come nel caso di comunicazione disturbata da rumori di fondo Svantaggi Limitano il numero di parole diverse che possiamo comporre quindi abbiamo un linguaggio meno ricco di parole. Posso comporre la parola almnqq ma questa non è una sequenza di simboli permessa dalle regole della semantica, cioè non cè la giusta correlazione tra i caratteri.

Codifica di sorgente Immaginiamo di dover trasmettere uno fra quattro possibili stati, possiamo utilizzare solo simboli binari A 00 B 01 C 10 D 11 Questa operazione che permette di associare dei simboli agli stati si chiama codifica che richiama lidea di associare un codice Se i 4 stati sono equiprobabili la trasmissione ha già la massima efficienza A 00 P=0.25 B 01 P=0.125 C 10 P=0.5 D 11 P=0.125 Supponiamo ora che sia più probabile che dobbiamo trasmettere lo stato C e meno probabile di dover trasmettere B e D BCDACACCBACACCDC i = 2 * * * 0,5 + 2 * = 2 bit Per trasmettere uno stato uso in media due bit, per questa sequenza ne ho usati 32

A 01 P=0.25 B 001 P=0.125 C 1 P=0.5 D 000 P=0.125 Supponiamo ora di codificare in maniera diversa gli stati. Precisamente codifichiamo con sequenze più corte i simboli più probabili BCDACACCBACACCDC i = 2 * * * 0,5 + 3 * = 1.75 bit Per trasmettere uno stato uso in media 1.75 bit quindi trasmetto la stessa sequenza di prima ma con meno simboli, infatti ne ho usati 28. Ho attuato una compressione dellinformazione. Il primo ad usare questa tecnica fu Morse. I programmi di compressione tipo Winzip, Arj… analizzano la sequenza dei bit del file da comprimere, ricodificano il file associando sequenze di minor lunghezza a quelle più ricorrenti (codifica di Huffman)

Se il file da comprimere ha molta ridondanza, cioè correlazione e non equiprobabilità dei simboli, allora questo potrà essere molto compresso. Questo tipo di compressione si basa sulleliminazione delle ridondanze senza perdita di informazione, ovvero il file compresso può essere riportato alla forma originale senza che il messaggio sia degradato. Un altro tipo di compressione è quella con perdita di informazione. Questa oltre a sfruttare il principio precedente, elimina quelle informazioni ritenute poco importanti per la comprensione globale del messaggio. E il caso di compressioni di immagini in formato jpg o gif, queste comprimono molto ma provocano una certa perdita della qualità dellimmagine. La perdita è irreversibile perché si è scelto di memorizzare solo una certa parte delle informazioni. (es MP3, MPEG…) Uno svantaggio della compressione: un errore o unincomprensione di un simbolo rischiano di compromettere la comprensione dellintero messaggio. Esempio: se ci si perde qualche parola del discorso di una persona ridondante, quasi sicuramente si capirà il significato del messaggio.

Il rumore

Modello di un canale di trasmissione P 00 P 01 P 11 P 10 Simbolo trasmesso Simbolo ricevuto P 01, P 10 : probabilità di errore

Distanza Per determinare la distanza tra due sequenze si deve allinearle e colonna per colonna contare il numero di simboli differenti. In questo caso la distanza è 1 ovvero le due sequenze differiscono per un solo simbolo Le sequenze collegate dalle frecce distano fra loro 1 Le sequenze sulle diagonali distano 2 Concetto di distanza evoluzionistica e alberi filogenetici: posso dire che 00 e 01 sono imparentati direttamente, 11 è imparentato sia con 01 che con 10 ma non so da chi derivi.

Abbiamo disposto tutte le sequenze che si possono ottenere con tre bit, su un cubo in modo che le sequenze collegate direttamente avessero distanza 1. Si nota che per andare da 000 a 111 si devono verificare tre mutazioni ma si possono seguire molti percorsi diversi. Distanza come robustezza: è più facile confondere 000 e 010 perché distano solo 1, una mutazione può far passare dalluno allaltro, è più difficile confondere 000 e 111 perché ci vogliono tre mutazioni. Analogamente in un discorso è più probabile confondere albero e alberi piuttosto che albero e alluvione.

Ancora sulla robustezza Immaginiamo di dover trasmettere uno fra quattro possibili stati, possiamo utilizzare solo simboli binari A 00 B 01 C 10 D 11 Questa operazione che permette di associare dei simboli agli stati si chiama codifica che richiama lidea di associare un codice sorgente destinatario disturbo 0111 Se avviene un errore durante la trasmissione, il destinatario riceve un messaggio sbagliato e non ha modo di accorgersi che cè stato un errore

A 000 B 011 C 101 D 110 sorgente destinatario disturbo In questo caso il destinatario riceve una sequenza non permessa perché 001 non corrisponde a nulla di valido, quindi si accorge che cè stato un errore di trasmissione. Ho ottenuto questo risultato codificando i 4 stati con sequenze a distanza 2 anziché 1, cioè ho distanziato gli stati in modo che un errore singolo non mi portasse direttamente a uno stato permesso A CD non permesso

A 0000 B 1101 C 0111 D A C D non permesso non permesso Fra gli stati A,C e A,D cè distanza 3 Se trasmetto 0000 e al destinatario arriva 0001, questultimo capisce che cè stato un errore perché 0001è uno stato non permesso. Inoltre può anche ipotizzare che era stato trasmesso A perché è lo stato più vicino al simbolo ricevuto. Nel caso di canali non fortemente disturbati ovvero dove ogni 4 simboli si può avere al massimo un errore, il destinatario è in grado di correggere lerrore.

A A A CD Altro modo di aumentare la robustezza di una codifica: Definire delle parole sinonime Codifico A con 000, ogni errore singolo produce delle parole a distanza 1 dala parola 000 Codifico A anche con 001, 010, 100. In questo modo tutte le parole a distanza 1 da 000 sono ancora dei sinonimi di A 100 A

Questa tecnica si chiama codifica di canale Consiste nel codificare gli stati con più simboli del necessario così da poter distanziare le parole. In questo modo ho una trasmissione più robusta, cioè più immune agli errori. Pago questa robustezza con una diminuzione di efficienza perché trasmetto molti più simboli a parità di informazione. Dal punto di vista dei simboli impiegati per trasmettere (nello spazio) o memorizzare (nel tempo) un messaggio, la codifica di sorgente ha leffetto contrario della codifica di canale. La prima comprime, la seconda espande.

Sequenze di DNA interpretate secondo la Teoria dellInformazione il codice genetico è degenere, che cosa significa in termini numerici?... Ala Val Arg... GCA C G T GTA C G T CGA C G T AGA G GCAGTACGA GCAGTACGC GCAGTACGG GCAGTACGT GCAGTAAGA GCAGTAAGG GCAGTCCGA GCAGTCCGC GCAGTCCGG GCAGTCCGT GCAGTCAGA GCAGTCAGG GCAGTGCGA GCAGTGCGC GCAGTGCGG GCAGTGCGT GCAGTGAGA GCAGTGAGG GCAGTTCGA GCAGTTCGC GCAGTTCGG GCAGTTCGT GCAGTTAGA GCAGTTAGG GCCGTACGA GCCGTACGC GCCGTACGG GCCGTACGT GCCGTAAGA GCCGTAAGG GCCGTCCGA GCCGTCCGC GCCGTCCGG GCCGTCCGT GCCGTCAGA GCCGTCAGG GCCGTGCGA GCCGTGCGC GCCGTGCGG GCCGTGCGT GCCGTGAGA GCCGTGAGG GCCGTTCGA GCCGTTCGC GCCGTTCGG GCCGTTCGT GCCGTTAGA GCCGTTAGG GCGGTACGA GCGGTACGC GCGGTACGG GCGGTACGT GCGGTAAGA GCGGTAAGG GCGGTCCGA GCGGTCCGC GCGGTCCGG GCGGTCCGT GCGGTCAGA GCGGTCAGG GCGGTGCGA GCGGTGCGC GCGGTGCGG GCGGTGCGT GCGGTGAGA GCGGTGAGG GCGGTTCGA GCGGTTCGC GCGGTTCGG GCGGTTCGT GCGGTTAGA GCGGTTAGG GCTGTACGA GCTGTACGC GCTGTACGG GCTGTACGT GCTGTAAGA GCTGTAAGG GCTGTCCGA GCTGTCCGC GCTGTCCGG GCTGTCCGT GCTGTCAGA GCTGTCAGG GCTGTGCGA GCTGTGCGC GCTGTGCGG GCTGTGCGT GCTGTGAGA GCTGTGAGG GCTGTTCGA GCTGTTCGC GCTGTTCGG GCTGTTCGT GCTGTTAGA GCTGTTAGG 4 * 4 * 6 = 96 Combinazioni o parole sinonime

Ma tutti questi sinonimi costituiscono veramente la robustezza? Si, dal punto di vista del codice genetico No, in assoluto, cioè per il fenotipo. Esistono altri linguaggi che specificano alcune tra le parole sinonime al fine di trasmettere informazioni per: lo splicing il ripiegamento dellRNA il tempo di vita dellRNA il trasporto dellRNA la stabilità del DNA (organizzazione in cromatina) …? Messaggio: anche le mutazioni neutre vanno considerate come potenzialmente patogene