La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce.

Presentazioni simili


Presentazione sul tema: "1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce."— Transcript della presentazione:

1

2 1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce in ambito ITU-T ed ETSI

3 Tecniche di codifica della voce - Francesco Beritelli 2 Tecniche di codifica della voce Tecniche e algoritmi di compressione/decompressione del segnale vocale in forma digitale che riducono il bit rate sul canale di comunicazione, garantendo una riproduzione trasparente, ovvero una qualità quanto più simile a quella del segnale originario non compresso, con il minimo ritardo introdotto e calcolo computazionale richiesto

4 Tecniche di codifica della voce - Francesco Beritelli 3 Motivazioni Migliore utilizzo delle risorse di canale Incremento del numero di conversazioni Migliore qualità della voce (es. MCR limitati) Riduzione della memoria nei sistemi di registrazione o archiviazione audio Riduzione costi e tempi di trasmisisone

5 Tecniche di codifica della voce - Francesco Beritelli 4 Contesti applicativi Comunicazioni radiomobili e via satellite Telefonia VoIP Riproduttori audio Registratori digitali Segreterie telefoniche Sistemi di infonavigazione Dispositivi per guide audio turistiche Ecc.

6 Tecniche di codifica della voce - Francesco Beritelli 5 Le varie codifiche … S Codifica di sorgente Codifica della voce Codifica di linea Cifratura dei dati Codifica di canale

7 Tecniche di codifica della voce - Francesco Beritelli 6 bit rate r b =f c *b, La frequenza di campionamento f c (NB o WB) e la risoluzione b determinano la qualità del segnale originale non compresso Fattore di compressione = input bit rate/output bit rate (es. 64/8=8) Compressione/Decompressione del segnale vocale

8 Tecniche di codifica della voce - Francesco Beritelli 7 Algoritmi di compressione con e senza perdita con perdita senza perdita Nei sistemi con perdita ovviamente in ricezione non è possibile riprodurre fedelmente la forma donda originaria ma una versione degradata. Tutti i sistemi di compressione utilizzati nelle tecniche di codifica del segnale vocale sono con perdita

9 Tecniche di codifica della voce - Francesco Beritelli 8 Linformazione nel segnale vocale (10 car/sec x 6 bit = 60 bit/sec) ASRTTS voce testo Oltre al testo: identità, emozione, accento, intonazione, area di appartenenza, ecc

10 Tecniche di codifica della voce - Francesco Beritelli 9 Principali cause di ridondanza RIDONDANZA STATISTICA - disuniformità della distribuzione statistica delle ampiezze (gaussiana a breve termine): è possibile ridurre la risoluzione del quantizzatore (quindi il numero dei livelli) per gli intervalli di minor interesse. - variabilità nel tempo delle ampiezze: è conveniente utilizzare estremi di quantizzazione che non siano costanti ma che si adattino alla dinamica corrente. - correlazione fra i campioni: un campione è correlato con la serie di campioni precedente per cui non è conveniente codificarli isolatamente. - disuniformità della distribuzione dellenergia in frequenza: è possibile adottare caratteristiche di quantizzazione differenti per ciascuna porzione dello spettro. RIDONDANZA PERCETTIVA - fenomeni di mascheramento delludito: è possibile adottare tecniche di quantizzazione che mascherino tramite il segnale il rumore di quantizzazione.

11 Tecniche di codifica della voce - Francesco Beritelli 10 Caratteristiche del segnale vocale Banda Hz Banda standardizzata ITU-T: –Narrowband (20÷4000 Hz, qualità telefonica) –Wideband (20÷7000 Hz, qualità audioconferenza) Media nulla, distribuzione non uniforme Segnale non stazionario con correlazione a breve e lungo termine Struttura on-off nel tempo con il 40 % di attività vocale e circa il 60 % di pause di silenzio Suoni vocalizzati, non vocalizzati e misti

12 Tecniche di codifica della voce - Francesco Beritelli 11 Valutazione delle prestazioni Fattore di compressione –Riferimento ITU-T G.711 a 64kbit/s –Valori tipici 2 ÷ 32 Qualità percepita Ritardo introdotto Robustezza alla degradazione del canale Robustezza ai rumori ambientali Complessità computazionale Trasparenza alla trasmissione dati in banda fonica

13 Tecniche di codifica della voce - Francesco Beritelli 12 Metodi di valutazione della qualità Soggettivi: –MOS (Mean Opinion Scores): metrica definita dalla ITU-T P.800 con scala a 5 valori, da 1 (qualità pessima) a 5 (qualità eccellente). Metodo complesso e costoso. Oggettivi: –SNR (rumore di codifica: r(n)=y(n)-x(n)) –E-model (SNR, degradazione codec, ritardo, perdite): valori tra 0 e 100 mappati con MOS –PESQ (ITU-T P.862): predice il MOS effettuando una comparazione tra sequenza codificata e originale basata su modelli matematici psico-acustici

14 Tecniche di codifica della voce - Francesco Beritelli 13 Perceptual Evaluation of Speech Quality (PESQ)

15 Tecniche di codifica della voce - Francesco Beritelli 14 Principali tecniche di codifica -codifica di forma donda: sfrutta le caratteristiche statistiche del segnale vocale nel dominio del tempo quali: - la distribuzione non uniforme delle ampiezze del segnale - la non stazionarietà - la correlazione dei campioni Buona qualità se non si scende sotto i 24 kbit/s, un basso ritardo e bassa complessità. -codifica parametrica (o per modelli): tale codifica non è relativa ai campioni della forma donda, ma ai parametri di un modello matematico della sorgente che ha generato il segnale (sistema fonatorio umano). Con questo tipo di codifica necessito di un buffer per lanalisi delle trame e quindi introduco ritardi. Di contro riesco a raggiungere un bassissimo bit rate (fino a 2 kbit/s) a scapito dellintellegibilità del segnale. -codifica di analisi per sintesi: tale codifica sfrutta i vantaggi delle due tecniche precedenti raggiungendo un buon compromesso fra compressione e qualità del segnale vocale (4÷16kbit/s)

16 Tecniche di codifica della voce - Francesco Beritelli 15 Metodi di compressione della voce (MOS vs Bit-rate)

17 Tecniche di codifica della voce - Francesco Beritelli 16 Codifica di forma donda Sfruttano le caratteristiche statistiche del segnale indipendentemente dalle specifiche del sistema che lo ha generato Distribuzione non uniforme delle ampiezze Log PCM Non stazionarietà (varianza) APCM Correlazione del segnale DPCM

18 Tecniche di codifica della voce - Francesco Beritelli 17 Quantizzazione uniforme/non uniforme

19 Tecniche di codifica della voce - Francesco Beritelli 18 Leggi di compressione A e µ

20 Tecniche di codifica della voce - Francesco Beritelli 19 SNRq uniforme vs non unif.

21 Tecniche di codifica della voce - Francesco Beritelli 20 Standard ITU-T G.711 Log PCM a 64 kbit/s Banda telefonica 0÷4kHz Frequenza di campionamento 8kHz Distribuzione non uniforme Compressione della dinamica (legge A o µ) 12 bit lineari/campione 8 bit logaritmi/campione Compressione da 96kbit/sec 64kbit/sec Qualità MOS 4.3 Standard per laccesso base ISDN

22 Tecniche di codifica della voce - Francesco Beritelli 21 Standard ITU-T G.721 ADPCM a 32 kbit/sec Adattamento backward per ridurre il ritardo Codifica del segnale differenza a 16 livelli (4bit) Banda 0÷4 kHz Toll quality (MOS 4.1) Bassa complessità Robusto al BER rispetto al PCM Sensibile alla perdita di diverse trame Molto diffuso per la rete fissa (PSTN e VoIP) ITU-T G.726 ADPCM 16, 24, 32, 40 kbit/s

23 Tecniche di codifica della voce - Francesco Beritelli 22 Standard di Codifica WideBand ITU-T G.722 a 64 kbit/sec

24 Tecniche di codifica della voce - Francesco Beritelli 23 Predizione a lungo termine LTP M rappresenta il periodo di vibrazione delle corde vocali (il suo inverso è il pitch o frequenza fondamentale)

25 Tecniche di codifica della voce - Francesco Beritelli 24 Esempio di analisi del pitch Per una stima accurata servono algoritmi di analisi del pitch molto complessi Lordine del predittore può variare (1÷3) e anche lampiezza della finestra di analisi (2÷4 sottotrame di analisi) M viene codificato in genere con 7 bit (128 valori) b viene codificato in genere con 3 bit

26 Tecniche di codifica della voce - Francesco Beritelli 25 CODIFICHE PARAMETRICHE Estrazione e codifica dei parametri del modello analitico associato al sistema che ha prodotto il segnale (sistema fonatorio) Modello a due stati del residuo di predizione a lungo termine r(n) Vantaggi: basso bit-rate (2,4 kbit/sec) Svantaggi: alto ritardo e qualità metallica Applicazioni in ambito militare (LPC10 DoD)

27 Tecniche di codifica della voce - Francesco Beritelli 26 Sistema fonatorio umano e relativo diagramma a blocchi

28 Tecniche di codifica della voce - Francesco Beritelli 27 Vocoder a predizione lineare Decisione V/UV Buffer 20 ms Analisi Pitch Analisi LPC Stima del Guadagno CANALECANALE G P aiai V/UV LPC G X Noise P aiai V/UV x^(n) x(n) CODIFICATORE DECODIFICATORE

29 Tecniche di codifica della voce - Francesco Beritelli 28 Caratteristiche Vocoder LPC ParametriNumero bit / trama Coefficienti LPC40 Decisione V/UV1 Pitch7 Guadagno6 Totale bit/trama54 Bit-rate54 bit/22,5ms = 2400 bit/sec

30 Tecniche di codifica della voce - Francesco Beritelli 29 CODIFICHE IBRIDE DI ANALISI PER SINTESI (AbS) x ^ (n)=d ^ (n)+x ~ LPC (n)=r(n)+ x ~ LTP (n)+ x ~ LPC (n) Utilizzo di un modello più raffinato per la codifica del residuo di predizione a lungo termine r(n) Superano i limiti dei più semplici modelli parametrici Richiedono per r(n) un numero di bit meno elevato delle tecniche DPCM con LTP Utilizzano in fase di codifica la sintesi per ricavare i parametri ottimi (o sub-ottimi) che minimizzano un indice errore dopo un filtro di pesatura percettiva Tecniche che richiedono un elevato calcolo computazionale

31 Tecniche di codifica della voce - Francesco Beritelli 30 How are you? …... Comfort Noise VAD & Comfort Noise Generation Speech

32 Tecniche di codifica della voce - Francesco Beritelli 31 Voice Activity Detection (VAD) VAD Decision Background Noise Coding Talkspurt Coding Talkspurt Decoding NoiseLPC Channel G High Bit-rate Very Low Bit-rate Speech Comfort Noise Generator (CNG) 0 1

33 Tecniche di codifica della voce - Francesco Beritelli 32 Parametri di valutazione prestazionale di un VAD OGGETTIVI: - FEC (Front End Clipping) - MSC (Mid Speech Clipping) - OVER - NDS (Noise Detected as Speech) SOGGETTIVI: - MOS

34 Tecniche di codifica della voce - Francesco Beritelli 33 Codifica ON-OFF A ON OFF B OFF ON Utilizzo di un codec CBR + VAD (source driven) Codifica CBR dei tratti di ON (Talkspurt) Trasmissione periodica dei SID nei tratti di OFF (silenzio o rumore ambientale) Sintesi dei tratti di OFF in Rx tramite un CFG Prestazioni dipendono dal rumore ambientale

35 Tecniche di codifica della voce - Francesco Beritelli 34 Modalità di codifica AMR

36 Tecniche di codifica della voce - Francesco Beritelli 35 Prestazioni AMR vs. GSM EFR

37 Tecniche di codifica della voce - Francesco Beritelli 36 Robustezza iLBC alla packet loss

38 Tecniche di codifica della voce - Francesco Beritelli 37 Codifica audio SILK E uno codec audio royalty free adottato in Skype 4.0 (2009) E scalabile in banda, bit rate e complessità:

39 Tecniche di codifica della voce - Francesco Beritelli 38 Codifica audio SILK Il ritardo algoritmo è di 25 ms = frame size (20ms) + look-ahead (5ms) Prestazioni MOS al variare del bit-rate e del packet-loss:

40 Tecniche di codifica della voce - Francesco Beritelli 39 StandardDescriptionBit rateMos (Ber=0) ITU-T G.711Log PCM64 kbit/s4.3 ITU-T G.723.1Dual rate speech coder for multimedia applications (MP-MLQ/ACELP) 6.3/ 5.3 kbit/s 3.8 / 3.6 ITU-T G.726Adaptive Differential Pulse Code Modulation (ADPCM); contains obsolete Rec. G.721, G ,24,32,40 kbit/s 4.0 ITU-T G.7275-, 4-, 3-, and 2 bits per sample embedded Adaptive Differential Pulse Code Modulation (ADPCM) 16,24,32,40 kbit/s N.D. ITU-T G.728Low Delay CELP (LD-CELP)16 kbit/s4.2 ITU-T G.729Conjugate Structure Algebraic CELP (CS- ACELP) Annex A:Reduced complexity algorithm at 8 kbit/s Annex D:Low-Rate extension at 6.4 kbit/s AnnexE : High-Rate extension at 11.8 kbit/s 8 kbit/s (6.4, 11.8 kbit/s)3.9 ITU-T G.722Wideband (7 kHz) audio codec by Subband ADPCM (SB-ADPCM) 64 (56, 48) kbit/sN.D. Standard di codifica vocale ITU-T

41 Tecniche di codifica della voce - Francesco Beritelli 40 StandardDescription Bit rate Mos (Ber=0) ETSI GSM 06.10Full Rate (FR) speech transcoding (RPE-LTP:Regular Pulse Excitation- Long Term Prediction) 13 kbit/s3.7 ETSI GSM 06.20Half Rate (HR) speech transcoding (VSELP:Vector sum Excited Linear Prediction) 5.6 kbit/s 3.5 ETSI GSM 06.60Enhanced Full Rate (EFR) speech transcoding (ACELP:Algebraic CELP) 12.2 kbit/s3.9 ETSI GSM (AMR)Used in UMTS12.2 kbit/s3.9 ETSI GSM (AMR)Used in UMTS4.75 kbit/s3.3 Standard di codifica vocale ETSI

42 Tecniche di codifica della voce - Francesco Beritelli 41 Reti radiomobili LTE Modulazioni avanzate (QAM, OFDMA) Tecniche di diversità di antenna (MIMO) Multi accesso (3GPP, WiFi, Wi-Max) Incremento della velocità di trasmissione in UL e DL Riduzione dei ritardi (RTT da 60ms a 25ms) grazie alla riduzione dei nodi di rete Commutazione di pacchetto -> VoIP Voce/dati integrati


Scaricare ppt "1 Francesco Beritelli Dipartimento di Ingegneria Elettronica Elettrica e Informatica Università di Catania I principali standard di codifica della voce."

Presentazioni simili


Annunci Google