I principali standard di codifica della voce in ambito ITU-T ed ETSI

Slides:

Advertisements

Presentazioni simili

Training On Line - CONP. 2 Richiesta Da Menu: Conferimenti ad inizio anno termico > Agosto > Pluriennali > Nuova Richiesta Si accede alla pagina di Richiesta.

Advertisements

Dipartimento di Ingegneria Idraulica e Ambientale - Universita di Pavia 1 Caduta non guidata di un corpo rettangolare in un serbatoio Velocità e rotazione.

Le distribuzioni di probabilità continue

TAV.1 Foto n.1 Foto n.2 SCALINATA DI ACCESSO ALL’EREMO DI SANTA CATERINA DEL SASSO DALLA CORTE DELLE CASCINE DEL QUIQUIO Foto n.3 Foto n.4.

1 Pregnana Milanese Assessorato alle Risorse Economiche Bilancio Preventivo P R O P O S T A.

Elaborazione numerica del suono

Elaborazione numerica del suono

Cenni sul campionamento

Frontespizio Economia Monetaria Anno Accademico

Architettura e modi di trasferimento

Fondamenti di TLC - F. Beritelli

Lez. 3 - Gli Indici di VARIABILITA’

La trasmissione fisica dei segnali

Digitalizzazione EMG: Valori Tipici

Implementazione dell algortimo di Viterbi attraverso la soluzione del problema di cammino minimo tramite software specifico. Università degli studi di.

Sistemi e Tecnologie della Comunicazione

GESTIONE DELLA PRODUZIONE

Esercitazioni su circuiti combinatori

1 Seconda ora Larchitettura di un sistema di e- government: parte seconda Un esempio di progetto di e-Government: il progetto servizi alle imprese Un esempio.

Politecnico di Milano Algoritmi e Architetture per la Protezione dellInformazione Multichannel Adaptive Information Systems Paolo Maistri Dipartimento.

Corso di Tecniche e Sistemi di trasmissione Fissi e Mobili

INTRODUZIONE AI CONVERTITORI ANALOGICO-DIGITALI (ADC)

Canale A. Prof.Ciapetti AA2003/04

1 Corso di Laurea in Biotecnologie Informatica (Programmazione) Problemi e algoritmi Anno Accademico 2009/2010.

Ufficio Studi UNIONCAMERE TOSCANA 1 Presentazione di Riccardo Perugi Ufficio Studi UNIONCAMERE TOSCANA Firenze, 19 dicembre 2000.

Test di ipotesi X variabile casuale con funzione di densità (probabilità) f(x; q) q Q parametro incognito. Test Statistico: regola che sulla base di un.

CONTROLLO DI SUPPLY CHAIN MEDIANTE TECNICHE H-INFINITO E NEGOZIAZIONE

Università degli Studi di Roma La Sapienza

Conversione Analogico/Digitale

La conversione analogico-digitale, campionamento e quantizzazione

Laboratorio di El&Tel Elaborazione numerica dei segnali: analisi delle caratteristiche dei segnali ed operazioni su di essi Mauro Biagi.

Master universitario di II livello in Ingegneria delle Infrastrutture e dei Sistemi Ferroviari Anno Accademico 2012/2013 Cultura dimpresa, valutazione.

Dipartimento di Ingegneria Idraulica e Ambientale - Universita di Pavia 1 Scritte scritte scritte scritte scritte scritte scritte Scritte scritte Titolo.

Dipartimento di Ingegneria Idraulica e Ambientale - Universita di Pavia 1 Simulazione di un esperimento di laboratorio: Caduta di un corpo quadrato in.

Cosa cambia con il DVB-T

Codifica e pacchettizzazione della voce. ADPCM Algoritmi LPC-LTP (GSM) Argomenti della lezione PCM Algoritmi CELP (Enhanced GSM) Valutazione qualità della.

10 Maggio 2008 I.T.C. A.Gentili - Macerata VOIP GENERATION David Domenico Rossi Responsabile Ricerca e Sviluppo.

Componenti e tecnologie multimediali

Num / 36 Lezione 9 Numerosità del campione.

Lezione 4 Probabilità.

Lezione 6 Encoder ottici

ADSL VOIP Voice Over IP.

IL MODEM Che cos’è? A cosa serve? Che problemi risolve? Come comunica?

19 Lezione 21/5/04 Composizione dell'immagine 1 COMPOSIZIONE DELLIMMAGINE.

Contatore: esempio di circuito sequenziale

2 3 4 RISERVATEZZA INTEGRITA DISPONIBILITA 5 6.

1 Negozi Nuove idee realizzate per. 2 Negozi 3 4.

POLITICHE URBANE E MOBILITÀ SOSTENIBILE: LE PROSPETTIVE PER ROMA CAPITALE Qualità dei servizi pubblici a Roma: focus sul trasporto locale Roma, 20 settembre.

Scheda Ente Ente Privato Ente Pubblico. 2ROL - Richieste On Line.

UNIVERSITA’ DEGLI STUDI DI GENOVA

1 Guida per linsegnamento nei corsi per il conseguimento del CERTIFICATO DI IDONEITÀ ALLA GUIDA DEL CICLOMOTORE.

TRASMISSIONE DATI CON MODEM

Bando Arti Sceniche. Per poter procedere è indispensabile aprire il testo del Bando 2ROL - Richieste On Line.

Tecniche di compressione segnali audio:

Applicazioni mediche degli ultrasuoni

Digitalizzazione Un segnale viene digitalizzato, se il suo stato originario analogico viene tradotto e rappresentato mediante un insieme numerabile di.

LE SAI LE TABELLINE? Mettiti alla prova!.

Dinamiche caotiche nei Laser a Semiconduttore

1 Applicazione di videoconferenza in ambiente Multicast con supporto per il protocollo di controllo di congestione RLC Giansalvo Gusinu Relatori: Prof.

La natura duale della luce

Bando di Residenza Cap Scheda ENTE 3ROL - Richieste On Line.

Sviluppare un programma in C che, dato un array da 100 elementi interi caricato con numeri casuali compresi tra [10,100], sia in grado di cercare il valore.

TRASFORMATA DI FOURIER

Laurea Ing EO/IN/BIO;TLC D.U. Ing EO 9

Laurea Ing EO/IN/BIO;TLC D.U. Ing EO 4

Alessio Gandolfi Laurea interdipartimentale in Comunicazione, Innovazione, Multimedialità Relatore: Prof. Marco Porta Correlatore: Prof. Paolo Costa.

IL GIOCO DEL PORTIERE CASISTICA. Caso n. 1 Il portiere nella seguente azione NON commette infrazioni.

Laurea Ing EO/IN/BIO;TLC D.U. Ing EO 6 PULSE CODE MODULATION (PCM)

Networks: Data Encoding

Modulazione digitale 1. Sistemi di elaborazione dell’informazione Modulo - Tecniche di comunicazione digitale Unità didattica – Standard di rete locale.

Transcript della presentazione:

I principali standard di codifica della voce in ambito ITU-T ed ETSI Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania

Tecniche di codifica della voce Tecniche e algoritmi di compressione/decompressione del segnale vocale in forma digitale che riducono il bit rate sul canale di comunicazione, garantendo una riproduzione trasparente, ovvero una qualità quanto più simile a quella del segnale originario non compresso, con il minimo ritardo introdotto e calcolo computazionale richiesto Tecniche di codifica della voce - Francesco Beritelli

Tecniche di codifica della voce - Francesco Beritelli Motivazioni Migliore utilizzo delle risorse di canale Incremento del numero di conversazioni Migliore qualità della voce (es. MCR limitati) Riduzione della memoria nei sistemi di registrazione o archiviazione audio Riduzione costi e tempi di trasmisisone Tecniche di codifica della voce - Francesco Beritelli

Tecniche di codifica della voce - Francesco Beritelli Contesti applicativi Comunicazioni radiomobili e via satellite Telefonia VoIP Riproduttori audio Registratori digitali Segreterie telefoniche Sistemi di infonavigazione Dispositivi per guide audio turistiche Ecc. Tecniche di codifica della voce - Francesco Beritelli

Tecniche di codifica della voce - Francesco Beritelli Le varie codifiche … S Codifica di sorgente Codifica della voce Cifratura dei dati Codifica di canale Codifica di linea Tecniche di codifica della voce - Francesco Beritelli

Compressione/Decompressione del segnale vocale bit rate rb=fc*b, La frequenza di campionamento fc (NB o WB) e la risoluzione b determinano la qualità del segnale originale non compresso Fattore di compressione = input bit rate/output bit rate (es. 64/8=8) Tecniche di codifica della voce - Francesco Beritelli

Algoritmi di compressione con e senza perdita con perdita senza perdita Nei sistemi con perdita ovviamente in ricezione non è possibile riprodurre fedelmente la forma d’onda originaria ma una versione degradata. Tutti i sistemi di compressione utilizzati nelle tecniche di codifica del segnale vocale sono con perdita Tecniche di codifica della voce - Francesco Beritelli

Tecniche di codifica della voce - Francesco Beritelli L’informazione nel segnale vocale (10 car/sec x 6 bit = 60 bit/sec) ASR TTS voce testo Oltre al testo: identità, emozione, accento, intonazione, area di appartenenza, ecc Tecniche di codifica della voce - Francesco Beritelli

RIDONDANZA STATISTICA RIDONDANZA PERCETTIVA Principali cause di ridondanza RIDONDANZA STATISTICA - disuniformità della distribuzione statistica delle ampiezze (gaussiana a breve termine): è possibile ridurre la risoluzione del quantizzatore (quindi il numero dei livelli) per gli intervalli di minor interesse. - variabilità nel tempo delle ampiezze: è conveniente utilizzare estremi di quantizzazione che non siano costanti ma che si adattino alla dinamica corrente. - correlazione fra i campioni: un campione è correlato con la serie di campioni precedente per cui non è conveniente codificarli isolatamente. - disuniformità della distribuzione dell’energia in frequenza: è possibile adottare caratteristiche di quantizzazione differenti per ciascuna porzione dello spettro. RIDONDANZA PERCETTIVA - fenomeni di mascheramento dell’udito: è possibile adottare tecniche di quantizzazione che mascherino tramite il segnale il rumore di quantizzazione. Tecniche di codifica della voce - Francesco Beritelli

Caratteristiche del segnale vocale Banda 20-10000 Hz Banda standardizzata ITU-T: Narrowband (20÷4000 Hz, qualità telefonica) Wideband (20÷7000 Hz, qualità audioconferenza) Media nulla, distribuzione non uniforme Segnale non stazionario con correlazione a breve e lungo termine Struttura “on-off” nel tempo con il 40 % di attività vocale e circa il 60 % di pause di silenzio Suoni vocalizzati, non vocalizzati e misti Tecniche di codifica della voce - Francesco Beritelli

Valutazione delle prestazioni Fattore di compressione Riferimento ITU-T G.711 a 64kbit/s Valori tipici 2 ÷ 32 Qualità percepita Ritardo introdotto Robustezza alla degradazione del canale Robustezza ai rumori ambientali Complessità computazionale Trasparenza alla trasmissione dati in banda fonica Tecniche di codifica della voce - Francesco Beritelli

Metodi di valutazione della qualità Soggettivi: MOS (Mean Opinion Scores): metrica definita dalla ITU-T P.800 con scala a 5 valori, da 1 (qualità pessima) a 5 (qualità eccellente). Metodo complesso e costoso. Oggettivi: SNR (rumore di codifica: r(n)=y(n)-x(n)) E-model (SNR, degradazione codec, ritardo, perdite): valori tra 0 e 100 mappati con MOS PESQ (ITU-T P.862): predice il MOS effettuando una comparazione tra sequenza codificata e originale basata su modelli matematici psico-acustici Tecniche di codifica della voce - Francesco Beritelli

Perceptual Evaluation of Speech Quality (PESQ) Tecniche di codifica della voce - Francesco Beritelli

Tecniche di codifica della voce - Francesco Beritelli Principali tecniche di codifica codifica di forma d’onda: sfrutta le caratteristiche statistiche del segnale vocale nel dominio del tempo quali: la distribuzione non uniforme delle ampiezze del segnale la non stazionarietà la correlazione dei campioni Buona qualità se non si scende sotto i 24 kbit/s, un basso ritardo e bassa complessità. codifica parametrica (o per modelli): tale codifica non è relativa ai campioni della forma d’onda, ma ai parametri di un modello matematico della sorgente che ha generato il segnale (sistema fonatorio umano). Con questo tipo di codifica necessito di un buffer per l’analisi delle trame e quindi introduco ritardi. Di contro riesco a raggiungere un bassissimo bit rate (fino a 2 kbit/s) a scapito dell’intellegibilità del segnale. -codifica di analisi per sintesi: tale codifica sfrutta i vantaggi delle due tecniche precedenti raggiungendo un buon compromesso fra compressione e qualità del segnale vocale (4÷16kbit/s) Tecniche di codifica della voce - Francesco Beritelli

Metodi di compressione della voce (MOS vs Bit-rate) Tecniche di codifica della voce - Francesco Beritelli

Codifica di forma d’onda Sfruttano le caratteristiche statistiche del segnale indipendentemente dalle specifiche del sistema che lo ha generato Distribuzione non uniforme delle ampiezze → Log PCM Non stazionarietà (varianza) → APCM Correlazione del segnale → DPCM Tecniche di codifica della voce - Francesco Beritelli

Quantizzazione uniforme/non uniforme Tecniche di codifica della voce - Francesco Beritelli

Leggi di compressione A e µ Tecniche di codifica della voce - Francesco Beritelli

SNRq uniforme vs non unif. Tecniche di codifica della voce - Francesco Beritelli

Standard ITU-T G.711 Log PCM a 64 kbit/s Banda telefonica 0÷4kHz Frequenza di campionamento 8kHz Distribuzione non uniforme Compressione della dinamica (legge A o µ) 12 bit lineari/campione → 8 bit logaritmi/campione Compressione da 96kbit/sec → 64kbit/sec Qualità MOS 4.3 Standard per l’accesso base ISDN Tecniche di codifica della voce - Francesco Beritelli

Standard ITU-T G.721 ADPCM a 32 kbit/sec Adattamento backward per ridurre il ritardo Codifica del segnale differenza a 16 livelli (4bit) Banda 0÷4 kHz Toll quality (MOS 4.1) Bassa complessità Robusto al BER rispetto al PCM Sensibile alla perdita di diverse trame Molto diffuso per la rete fissa (PSTN e VoIP) ITU-T G.726 ADPCM 16, 24, 32, 40 kbit/s Tecniche di codifica della voce - Francesco Beritelli

Standard di Codifica WideBand ITU-T G.722 a 64 kbit/sec Tecniche di codifica della voce - Francesco Beritelli

Predizione a lungo termine LTP M rappresenta il periodo di vibrazione delle corde vocali (il suo inverso è il pitch o frequenza fondamentale) Tecniche di codifica della voce - Francesco Beritelli

Esempio di analisi del pitch Per una stima accurata servono algoritmi di analisi del pitch molto complessi L’ordine del predittore può variare (1÷3) e anche l’ampiezza della finestra di analisi (2÷4 sottotrame di analisi) M viene codificato in genere con 7 bit (128 valori) b viene codificato in genere con 3 bit Tecniche di codifica della voce - Francesco Beritelli

CODIFICHE PARAMETRICHE Estrazione e codifica dei parametri del modello analitico associato al sistema che ha prodotto il segnale (sistema fonatorio) Modello a due stati del residuo di predizione a lungo termine r(n) Vantaggi: basso bit-rate (2,4 kbit/sec) Svantaggi: alto ritardo e qualità metallica Applicazioni in ambito militare (LPC10 DoD) Tecniche di codifica della voce - Francesco Beritelli

Sistema fonatorio umano e relativo diagramma a blocchi Tecniche di codifica della voce - Francesco Beritelli

Vocoder a predizione lineare Decisione V/UV Buffer 20 ms Analisi Pitch Analisi LPC Stima del Guadagno C A N L E G P ai LPC X Noise x^(n) x(n) CODIFICATORE DECODIFICATORE Tecniche di codifica della voce - Francesco Beritelli

Caratteristiche Vocoder LPC Parametri Numero bit / trama Coefficienti LPC 40 Decisione V/UV 1 Pitch 7 Guadagno 6 Totale bit/trama 54 Bit-rate 54 bit/22,5ms = 2400 bit/sec Tecniche di codifica della voce - Francesco Beritelli

CODIFICHE IBRIDE DI ANALISI PER SINTESI (AbS) x^(n)=d^(n)+x~LPC(n)=r(n)+ x~LTP(n)+ x~LPC(n) Utilizzo di un modello più raffinato per la codifica del residuo di predizione a lungo termine r(n) Superano i limiti dei più semplici modelli parametrici Richiedono per r(n) un numero di bit meno elevato delle tecniche DPCM con LTP Utilizzano in fase di codifica la sintesi per ricavare i parametri ottimi (o sub-ottimi) che minimizzano un indice errore dopo un filtro di pesatura percettiva Tecniche che richiedono un elevato calcolo computazionale Tecniche di codifica della voce - Francesco Beritelli

Tecniche di codifica della voce - Francesco Beritelli VAD & Comfort Noise Generation How are you? …... Speech As no information is transmitted in DTX systems during inactivity periods, a CNG (Comfort Noise Generator) is needed to ensure continuity in the reproduction of background noise. Recently both IETF and ITU-T have realised the need to define a system of Comfort Noise (CN) that will provide an acceptable level of quality even when the codecs used did not originally have a built-in CNG algorithm, e.g. G.711, G.722,G.726, G.727, and G.728. Comfort Noise Tecniche di codifica della voce - Francesco Beritelli

Voice Activity Detection (VAD) Talkspurt Decoding Talkspurt Coding Channel High Bit-rate 1 VAD Decision Speech Background Noise Coding Very Low Bit-rate Noise LPC G Comfort Noise Generator (CNG) Tecniche di codifica della voce - Francesco Beritelli

Parametri di valutazione prestazionale di un VAD OGGETTIVI: - FEC (Front End Clipping) - MSC (Mid Speech Clipping) - OVER - NDS (Noise Detected as Speech) SOGGETTIVI: - MOS Tecniche di codifica della voce - Francesco Beritelli

Tecniche di codifica della voce - Francesco Beritelli Codifica ON-OFF A ON OFF B OFF ON Utilizzo di un codec CBR + VAD (source driven) Codifica CBR dei tratti di ON (Talkspurt) Trasmissione periodica dei SID nei tratti di OFF (silenzio o rumore ambientale) Sintesi dei tratti di OFF in Rx tramite un CFG Prestazioni dipendono dal rumore ambientale Tecniche di codifica della voce - Francesco Beritelli

Modalità di codifica AMR Tecniche di codifica della voce - Francesco Beritelli

Prestazioni AMR vs. GSM EFR Tecniche di codifica della voce - Francesco Beritelli

Robustezza iLBC alla packet loss Tecniche di codifica della voce - Francesco Beritelli

Tecniche di codifica della voce - Francesco Beritelli Codifica audio SILK E’ uno codec audio royalty free adottato in Skype 4.0 (2009) E’ scalabile in banda, bit rate e complessità: Tecniche di codifica della voce - Francesco Beritelli

Tecniche di codifica della voce - Francesco Beritelli Codifica audio SILK Il ritardo algoritmo è di 25 ms = frame size (20ms) + look-ahead (5ms) Prestazioni MOS al variare del bit-rate e del packet-loss: Tecniche di codifica della voce - Francesco Beritelli

Tecniche di codifica della voce - Francesco Beritelli Standard di codifica vocale ITU-T Standard Description Bit rate Mos (Ber=0) ITU-T G.711 Log PCM 64 kbit/s 4.3 ITU-T G.723.1 Dual rate speech coder for multimedia applications (MP-MLQ/ACELP) 6.3/ 5.3 kbit/s 3.8 / 3.6 ITU-T G.726 Adaptive Differential Pulse Code Modulation (ADPCM); contains obsolete Rec. G.721, G.723 16,24,32,40 kbit/s 4.0 ITU-T G.727 5-, 4-, 3-, and 2 bits per sample embedded Adaptive Differential Pulse Code Modulation (ADPCM) N.D. ITU-T G.728 Low Delay CELP (LD-CELP) 16 kbit/s 4.2 ITU-T G.729 Conjugate Structure Algebraic CELP (CS-ACELP) Annex A:Reduced complexity algorithm at 8 kbit/s Annex D:Low-Rate extension at 6.4 kbit/s AnnexE : High-Rate extension at 11.8 kbit/s 8 kbit/s (6.4, 11.8 kbit/s) 3.9 ITU-T G.722 Wideband (7 kHz) audio codec by Subband ADPCM (SB-ADPCM) 64 (56, 48) kbit/s Il primo std risale agli anni 70 log Pcm (G 711) 8 bit campione e quantizzazione non lineare. Il vecchio std g.721 (adpcm) a 32 K assieme allo g.723 è contenuto Nello g.726. Riduzione del bit rate fino a 16 k e qualità non distante dallo std di riferimento g.711.Anche lo g.727 è ADPCM,sono codifiche di forma d’onda. Il G.728 invece è una codifica CELP low delay mantiene solo 2 ms di ritardo con 16 kbit e qualità elevata. Il 729 dimezza il bit rate e si basa sempre su tecnica CELP. IL 722 è usato per la Codifica della voce in applicaz tipo video conferenza. 2 ADPCM a 32, uno fra 0-4 KHz e l’altro fra 4-7 KHz. Contemporaneo del g.729 è il g.723.1 (usato sul voice over IP) con 2 diverse velocità e qualità simile a quella della voce nel GSM.Ci sono standard a 4 (ITU 4) a cui si lavora e anche a 2 kbit/s Tecniche di codifica della voce - Francesco Beritelli

Tecniche di codifica della voce - Francesco Beritelli Standard di codifica vocale ETSI Standard Description Bit rate Mos (Ber=0) ETSI GSM 06.10 Full Rate (FR) speech transcoding (RPE-LTP:Regular Pulse Excitation- Long Term Prediction) 13 kbit/s 3.7 ETSI GSM 06.20 Half Rate (HR) speech transcoding (VSELP:Vector sum Excited Linear Prediction) 5.6 kbit/s 3.5 ETSI GSM 06.60 Enhanced Full Rate (EFR) speech transcoding (ACELP:Algebraic CELP) 12.2 kbit/s 3.9 ETSI GSM (AMR) Used in UMTS 4.75 kbit/s 3.3 In parallelo all’ITU t anche l’organismo EURopeo ETSI ha standardizzato fine anni 80 GSM full rate (prima tecnica ibrida di regular pulse excitation) a 13 kbit. Per raddoppiare la capacità Fu in seguito standardizzato l’Half rate. Infine l’enhanced full rate con circa 13 kbit ma qualità comparabile a quella della rete fissa a spese di una maggiore complessità. Il codec usato nell’UMTS ha invece un bit rate variabile a secondo delle condizioni del canale e si basa su tecnica CELP. Vengono anche riportati gli standard Iso Meglio conosciuti come MPEG dal nome di un gruppo di standardizzazione operante in ambito Iso con l’obiettivo di definire algoritmi di compressione Audio e video per applicazioni di videoconferenza e multimediali. Tecniche di codifica della voce - Francesco Beritelli

Tecniche di codifica della voce - Francesco Beritelli Reti radiomobili LTE Modulazioni avanzate (QAM, OFDMA) Tecniche di diversità di antenna (MIMO) Multi accesso (3GPP, WiFi, Wi-Max) Incremento della velocità di trasmissione in UL e DL Riduzione dei ritardi (RTT da 60ms a 25ms) grazie alla riduzione dei nodi di rete Commutazione di pacchetto -> VoIP Voce/dati integrati Tecniche di codifica della voce - Francesco Beritelli