Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy) www:

Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy) http://www.istc.cnr.it www: http://www.istc.cnr.it Sintesi vocale concatenativa per litaliano tramite modello sinusoidale Giacomo Sommavilla, Carlo Drioli, Piero Cosi SEZIONE DI PADOVA FONETICA E DIALETTOLOGIA Via G. Anghinoni, 10 35121 Padova (Italy) e-mail: cosi@pd.istc.cnr.it http://www.pd.istc.cnr.it www: http://www.pd.istc.cnr.it ANALISI PROSODICA teorie, modelli e sistemi di annotazione 2° Convegno Nazionale AISV – 30/11- 2/12 2005 Università degli Studi di Salerno, Campus di Fisciano - - "Aula delle Lauree

introduzione TTS SMS HNM - Harmonic + Noise Model SMS tools (CLAM) risultati conclusioni e sviluppi futuri introduzione TTS SMS HNM - Harmonic + Noise Model SMS tools (CLAM) risultati conclusioni e sviluppi futuri Riassunto

Sistema TTS per concatenazione TTS: un sistema hardware/software capace di riprodurre vocalmente un testo scritto x concatenazione: la sintesi viene realizzata per concatenazione di unità di base unità base, difoni: segmenti acustici che includono la transizione fra due fonemi consecutivi sintesi in frequenza: il sistema sviluppato esegue le trasformazioni sui difoni nel dominio frequenziale, adottando una rappresentazione sinusoidi + residuo TTS: un sistema hardware/software capace di riprodurre vocalmente un testo scritto x concatenazione: la sintesi viene realizzata per concatenazione di unità di base unità base, difoni: segmenti acustici che includono la transizione fra due fonemi consecutivi sintesi in frequenza: il sistema sviluppato esegue le trasformazioni sui difoni nel dominio frequenziale, adottando una rappresentazione sinusoidi + residuo

Match Prosody Elaborazione dei difoni Signal Synthesis TTS (concatenativo ): schema generale NLP + Prosody text Phonetic speech Digital Signal Processing FESTIVAL TTS.pho file

DSP – Digital Signal Processing Codifica dei parametri prosodici per ogni fonema nelle variabili di f0 e durata (pitch shifting e time stretching) Match Prosody Signal Synthesis Trasformazione e concatenazione in frequenza di difoni successivi Sintesi del segnale dal dominio frequenziale a quello temporale e creazione del file audio vocale Elaborazione dei difoni

SMS - Spectral Modeling Synthesis Il modello Spectral Modeling Synthesis (SMS) si basa sulla rappresentazione armoniche + residuo armoniche (parte armonica, deterministica) residuo (parte stocastica, rumore) Rappresentazione nel dominio della frequenza

Sinusoidal analysis/synthesis system

HNM - Harmonic + Noise Model

HNM synthesis si aggiorna dinamicamente Fm[n] sulla base di un test di armonicità il rumore (noise) ha un inviluppo sia nel dominio temporale e[n] che in quello frequenziale H n (k)

HNM synthesis PROCEDURA di SINTESI NLP fonemi, durata, pitch ricerca unità di base (difono) sul database sintesi HNM cross-fading di A k e 0 La chiave per una buona sintesi è la preparazione accurata del database delle unità di base (difoni) il modello sinusoidale consente lallineamento in fase di tutte le unità un database ricco migliora la sintesi

CLAM-SMS CLAM - C++ Library for Audio and Music http://www.iua.upf.es/mtg/clam/

Analisi del database di difoni d0.raw d1.raw d2.raw d3.raw … File audio d0.sdif d1.sdif d2.sdif d3.sdif … File SDIF analyzeDatabase.m File SDIF 1.frequenze, ampiezze e fasi delle parziali (comp. armonica) 2.inviluppo spettrale della comp. residuale MBROLA

Architettura del sistema C++ Match prosody Time Stretching Fonemi, prosodia (pitch e durate) Data Base di difoni (SDIF) Sintesi (IFFT + OLA).pho file.wav file Pitch Shifting (formant preserving) Concatenazione Parser

Risultati sperimentali 1) Sintesi MBROLA 2) Sintesi SMS 3) Sintesi SMS con trasformazione (1) 4) Sintesi SMS con trasformazione (2) 5) Sintesi MBROLA (T=1.5, F=2) 6) Sintesi SMS (T=1.5, F=2) Confronti con MBROLA (Mons, TCTS Lab.), programma TTS allo stato dellarte (trasf. e conc. dominio temporale, pitch sincrono )

Conclusioni i risultati ottenuti dimostrano come la rappresentazione scelta sia versatile e potente per elaborazioni di tempo, pitch e inviluppo spettrale la qualità della sintesi può essere migliorata applicando un algoritmo di ricostruzione delle fasi più adatto i risultati ottenuti dimostrano come la rappresentazione scelta sia versatile e potente per elaborazioni di tempo, pitch e inviluppo spettrale la qualità della sintesi può essere migliorata applicando un algoritmo di ricostruzione delle fasi più adatto Sviluppi Futuri residuo : concatenazione ad-hoc per fonemi unvoiced; parte armonica : residuo : concatenazione ad-hoc per fonemi unvoiced; parte armonica : I. morphing / voice conversion II. sintesi vocale emotiva ( E-TTS ) III. tecniche di voice quality

Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy) www:

Presentazioni simili

Presentazione sul tema: "Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy) www:"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy) www:

Presentazioni simili

Presentazione sul tema: "Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, 15 00137 Roma (Italy) www:"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back