Tecniche di compressione dei dati

Slides:



Advertisements
Presentazioni simili
Informatica Generale Susanna Pelagatti
Advertisements

Rappresentazione dei dati e codifica delle informazioni
Sistemi di Classificazione usando NCD
CODIFICA DELLE INFORMAZIONI
Elaborazione del Book Informatico. 2 Marco M. Vernillo – a.a. 2002/2003 – Elaborazione del Book Informatico Elaborazione del Book Informatico 1. Tecnologie.
1 Informatica Generale Susanna Pelagatti Ricevimento: Mercoledì ore presso Dipartimento di Informatica, Via Buonarroti,
PROGETTINI DI FINE CORSO
Gabriele Monfardini - Corso di Basi di Dati Multimediali a.a Esercizio 1 Si consideri il seguente messaggio abbcbaabbaca Si codifichi il messaggio.
Per crittografia si intende la protezione
Significato, vantaggi e svantaggi Marchesin Sara Soligo Alessandra
Codifica dell’ Informazione non numerica
Università degli Studi di Bergamo Facoltà di Lingue e Letterature Straniere Facoltà di Lettere e Filosofia A.A Informatica generale 1 Appunti.
1 Corso di Laurea in Biotecnologie Informatica (Programmazione) Rappresentazione dellinformazione su calcolatore Anno Accademico 2009/2010.
Algoritmi e strutture dati
Corso di Informatica per Giurisprudenza
Algoritmi e Strutture Dati
IL FORMATO DEI FILE E IL FILETYPE (ESTENSIONE) Formato dei file 10 marzo 2012 Informatica prof. Giovanni Raho anno
Dicembre 2006 Informatica applicata prof. Giovanni Raho 1 Informatica applicata La comunicazione ed IL FORMATO DEI FILE.
Teoria dei codici correttori d'errore
INFORMATICA UMANISTICA B
INFORMATICA UMANISTICA B
Il Linguaggio Macchina
Laboratorio di Informatica
memoria gestita staticamente:
Microsoft Word Nozioni Avanzate Corso di Introduzione allInformatica Esercitatore: Agostino Forestiero.
Limiti al trasferimento di informazione u Il tempo necessario per trasmettere dellinformazione dipende da: –la velocita di segnalazione (cioe quanto velocemente.
Trattamento Immagini (parte 2)
Formati e caratteristiche di digitalizzazione
Corso di Laurea in Scienze e Tecnologie Chimiche corso di Informatica Generale Paolo Mereghetti DISCo – Dipartimento di Informatica, Sistemistica e Comunicazione.
Corso di Laurea in Biotecnologie corso di Informatica Paolo Mereghetti DISCo – Dipartimento di Informatica, Sistemistica e Comunicazione.
Proposte di tesina Mario Toma.
Scritture Segrete Lezione n. 2
RAPPRESENTAZIONE DELL'INFORMAZIONE
Riili Loreto Kezire Cherif
Codici QR Presentazione 1.6
Ci occupiamo della misura dellinformazione emessa da una sorgente la sorgente è tanto più efficiente quanto più risulta imprevedibile da parte del destinatario.
Cerchiamo di rispondere alla seconda domanda 2)La soluzione trovata con lalgoritmo goloso è ottima o esistono anche soluzioni con più di quattro attività?
Che cos’è un sistema di numerazione?
RAPPRESENTAZIONE DELLE INFORMAZIONI
Digitale!!. Musica satellite (TV GPS) Telefoni rete telefonica, internet Video (DVD)
Tutte le immagini che si trovano nel computer sono digitali. Possiamo crearle con programmi di grafica o acquisirle con scanner, macchine fotografiche.
Codifica dei dati in un elaboratore elettronico
Codifica dell’informazione
Psicologia dello sviluppo e dell'educazione (laurea magistrale)
I computer vengono utilizzati per automatizzare la soluzione di problemi di varia natura trattando le informazioni in entrata (DATI) eseguendo gli opportuni.
DIGITALIAZZAZIONE Di Alessio.
Trattamento Immagini (parte 2)
Codifica dell’informazione

Corsi di Laurea in Biotecnologie
Informazione multimediale
1 Informatica Generale Alessandra Di Pierro Ricevimento: Giovedì ore presso Dipartimento di Informatica, Via Buonarroti,
Fondamenti di Informatica1 Memorizzazione su calcolatore L'unità atomica è il bit (BInary DigiT) L'insieme di 8 bit è detta byte Altre forme di memorizzazione:
Rappresentazione della Informazione
Corso di Laurea in Scienze e Tecnologie Chimiche corso di Informatica Generale Paolo Mereghetti DISCo – Dipartimento di Informatica, Sistemistica e Comunicazione.
L’esecuzione dei programmi
Bit singolo e burst u un canale che trasmette voce tollera bene gli errori distribuiti uniformemente –perche’ errori singoli hanno effetti simili al rumore.
Corso di Laurea in Biotecnologie corso di Informatica Paolo Mereghetti DISCo – Dipartimento di Informatica, Sistemistica e Comunicazione.
Codici prefissi Un codice prefisso è un codice in cui nessuna parola codice è prefisso (parte iniziale) di un’altra Ogni codice a lunghezza fissa è ovviamente.
Codifica binaria dell’informazione
Gianluca Costante & Alessio Scannapieco
DIPARTIMENTO DI ELETTRONICA E INFORMAZIONE Codifica binaria dell’informazione Marco D. Santambrogio – Ver. aggiornata al 24.
POLITECNICO DI BARI Facoltà di Ingegneria Corso di Laurea in Ingegneria Informatica “Sicurezza dei Sistemi Informatici” REALIZZAZIONE DI UNA APPLICAZIONE.
SOMMARIO La Digitalizzazione La Compressione LA DIGITALIZZAZIONE La digitalizzazione consiste nella trasformazione di un oggetto in una sequenza di numeri,
© 2015 Giorgio Porcu - Aggiornamennto 01/12/2015 I STITUTO T ECNICO SECONDO BIENNIO T ECNOLOGIE E P ROGETTAZIONE Rappresentazione dell’ Informazione Informazione.
STRUTTURE DEI DATI (COMPLESSI). TESTO (codifica informazioni testuali) TESTO: (es. libro) sequenza di capitoli, paragrafi,pagine,righe, parole.
Università degli Studi di Roma “La Sapienza” Techniche di Compressione “Elaborazioni delle Immagini” “Elaborazioni delle Immagini”
La Matematica del web: compressione di immagini Nancy Castro Claudia Mungo Edoardo Decaro.
Steganografia in un file di testo Corso di Sicurezza dei sistemi informatici Prof. Giuseppe Mastronardi Anno Accademico 2006/07.
Transcript della presentazione:

Tecniche di compressione dei dati Presentazione 9.1 Tecniche di compressione dei dati Informatica Generale (Prof. Luca A. Ludovico)

Obiettivi Riduzione delle informazioni mantenendo il contenuto informativo Obiettivi di memorizzazione e trasferimento Due categorie: Tecniche con perdita (lossy) Tecniche senza perdita (lossless) Informatica Generale (Prof. Luca A. Ludovico) Presentazione 9.1

Osservazioni La percentuale di compressione ottenibile dipende: dall’algoritmo utilizzato dalla propensione dei dati a essere compressi Esempio: adottiamo la compressione con algoritmo LZW (formato ZIP). A parità di algoritmo di compressione, ad esempio: 4 immagini JPG: da 282 KB a 276 KB (98% dell’originale) 4 documenti XML: da 1,96 MB a 126 KB (6,28% dell’originale)

Tecniche lossless vs lossy Senza perdita di informazione Si riduce la ridondanza Si comprime mediamente fino al 50% delle dimensioni originali Ottimale quando non si può tollerare modifiche nei contenuti (ad es. testi, multimedialità professionale,etc.) Lossy Con perdita di informazione Si riduce l’irrilevanza (presunta) Si comprime mediamente fino al 10% delle dimensioni originali Ottimale quando si possono tollerare piccoli errori o modifiche (immagini e audio non professionali) Informatica Generale (Prof. Luca A. Ludovico) Presentazione 9.1

Il messaggio M deve essere trasmesso tra il mittente A e il destinatario B compressione decompressione M M M M* A Canale trasmissivo B

Codifica run-length (lossless) RLE = run length encoding Si sostituiscono le sequenze di bit con un codice che indica il valore ripetuto e quante volte si ripete nella sequenza. Funziona bene quando i dati da comprimere sono scomponibili in lunghe sequenze di valori identici ripetuti. E’ un codice a lunghezza fissa. Informatica Generale (Prof. Luca A. Ludovico) Presentazione 9.1

Esempio di codifica RLE Sia M (messaggio da comprimere) una configurazione di bit costituita da: 253 bit posti a 1, seguiti da 118 bit posti a 0, seguiti da 87 bit posti a 1 E’ più compatto rappresentare in binario 253 x 1, 118 x 0, 87 x 1 11111101111101100010101111 ad esempio dedicando 8 bit alla cardinalità e 1 bit al simbolo per ciascun blocco rispetto ad elencare i 458 bit. Informatica Generale (Prof. Luca A. Ludovico) Presentazione 9.1

Controesempi RLE Cosa succede quando i bit dedicati alla cardinalità non sono sufficienti per coprire il numero di ripetizioni di un dato simbolo Cosa succede se i blocchi di valori ripetuti sono estremamente brevi. Esempio: M = 0110100 MRLE = 000000010 000000101 000000010 000000011 000000100

Codifica dipendente dalla frequenza (lossless) La lunghezza della configurazione di bit usata per rappresentare un elemento è inversamente proporzionale alla frequenza di utilizzo dell’elemento stesso. E’ un codice a lunghezza variabile (gli elementi sono rappresentati da configurazioni di lunghezze diverse) Un noto algoritmo per generare questi codici è stato scoperto da David Huffman. Molti codici dipendenti dalla frequenza oggi usati sono codici di Huffman. 9 Informatica Generale (Prof. Luca A. Ludovico) Presentazione 9.1

Esempio di codice di Huffman per i testi In lingua inglese, le lettere e, t, i sono molto più frequenti delle lettere z, q e x. Per codificare testi in lingua inglese, si risparmia spazio usando configurazioni di bit brevi per le lettere più frequenti e lunghe per le meno frequenti. Ad esempio, in un testo codificato in ASCII esteso, ogni carattere occupa 8 bit. Quindi ogni volta che occorre un carattere “frequente” la cui codifica compressa occupa meno di 8 bit, ho un risparmio. Informatica Generale (Prof. Luca A. Ludovico) Presentazione 9.1

Codifica relativa o differenziale In alcuni casi, le informazioni sono costituite da blocchi, ognuno dei quali differisce leggermente dal precedente. Esempio: i fotogrammi consecutivi di un’immagine in movimento. Tecnica: codificare solo le differenze rispetto al blocco precedente. Può essere con o senza perdita Informatica Generale (Prof. Luca A. Ludovico) Presentazione 9.1

Codifica basata sul dizionario (lossless) Dizionario = insieme di blocchi sui quali è costruito il messaggio da comprimere, noto a priori. Il messaggio è codificato non più come una sequenza di blocchi bensì come una sequenza di riferimenti al dizionario. Variante: codifica adattiva (o dinamica) basata su dizionario, in cui il dizionario può cambiare durante il processo di codifica. Informatica Generale (Prof. Luca A. Ludovico) Presentazione 9.1

Esempio Dizionario = insieme di blocchi sui quali è costruito il messaggio da comprimere, noto a priori. Il messaggio è codificato non più come una sequenza di blocchi bensì come una sequenza di riferimenti al dizionario. Variante: codifica adattiva (o dinamica) basata su dizionario, in cui il dizionario può cambiare durante il processo di codifica. 13 Informatica Generale (Prof. Luca A. Ludovico) Presentazione 9.1

Codifica basata sul dizionario Tecnica molto usata nei Word Processor, che già contengono al proprio interno dizionari di parole (tipicamente 25000 voci) a scopi di controllo ortografico. Un’intera parola viene codificata come un riferimento al dizionario anziché come una sequenza di caratteri ASCII o Unicode. Valutazione delle prestazioni: per una parola da 6 lettere, la codifica a caratteri singoli ASCII richiede 6 x 8 = 48 bit (ASCII) mentre solo 15 come riferimento. Con n = 15 possiamo rappresentare 2^15 differenti voci nel dizionario. 14 Informatica Generale (Prof. Luca A. Ludovico) Presentazione 9.1

Codifica LZW (Lempel-Ziv-Welsh) E’ un esempio di codifica adattiva basata su dizionario. Si parte da un dizionario che contiene i soli elementi base del messaggio. Poi il dizionario viene via via costruito in modo incrementale durante la fase di compressione. Al termine del processo di compressione, il dizionario può essere grande; ma non è necessario avere quest’ultimo per decodificare il messaggio. 15 Informatica Generale (Prof. Luca A. Ludovico) Presentazione 9.1

Esempio di codifica LZW Messaggio iniziale M: xyx xyx xyx xyx Dizionario iniziale: x >> 1 y >> 2 >> 3 Messaggio compresso (non adattivo): 121312131213121 Messaggio compresso (adattivo): 121343434 in quanto al dizionario si aggiunge xyx >> 4 16 Informatica Generale (Prof. Luca A. Ludovico) Presentazione 9.1