2 dicembre 2005 AISV 2005 MODELLIZZAZIONE DELLA PROSODIA E DEL TIMBRO PER LA SINTESI DEL PARLATO EMOTIVO Mauro Nicolao, Carlo Drioli, Piero Cosi Copyright,

Slides:



Advertisements
Presentazioni simili
Valutazione d’Istituto A.S. 2008/2009
Advertisements

Processi Aleatori : Introduzione – Parte II
Restauro per sintesi Analogique B, Iannis Xenakis, GRM, 1959 “Ogni suono, come ogni musica, può essere considerato come una nuvola gigantesca di corpuscoli.
UNIVERSITÀ DEGLI STUDI DI PARMA
Elaborazione numerica del suono
Livelli sonori – operazioni sui decibel (1):
Sistema Uditivo e Analisi in Frequenza
Modulo 1 Unità didattica 2:
COMFORT ACUSTICO Condizione psicofisica di soddisfacimento delle esigenze acustiche espresse dallutente; può essere inteso come: E FUNZIONE DI: a.CARATTERISTICHE.
Copyright, 2006 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Piero Cosi SEZIONE DI PADOVA - FONETICA E DIALETTOLOGIA Via G. Anghinoni,
Riconoscimento del parlato Carlo Drioli Dipartimento di Informatica dellUniversità di Verona AISV Scuola Estiva Archivi di Corpora Vocali.
Analisi del segnale Carlo Drioli Dipartimento di Informatica dellUniversità di Verona AISV Scuola Estiva Archivi di Corpora Vocali.
Uno strumento per lannotazione e la modellizzazione prosodica di enunciati marcati per un sistema di sintesi vocale Andrea Panizza Francesca Tini Brunozzi.
LINDICE SPAZIO-TEMPORALE (STI): UN NUOVO STRUMENTO PER VALUTARE LA STABILITA ARTICOLATORIA NEL PARLATO. Zmarich C., Danelon L., Lonardi F. AISV 2004: 1°Convegno.
Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, Roma (Italy) www:
Digitalizzazione EMG: Valori Tipici
Stage ai Laboratori Nazionali di Frascati dell’INFN fase b 2005
Riconoscimento di forme
ANALISI DELLA COVARIANZA
Sistemi e Tecnologie della Comunicazione
Sistemi e Tecnologie della Comunicazione
PROGETTO DI FILTRI FIR CON IL METODO DELLE FINESTRE
Portate di piena Celada Chiara Matricola:
Laboratorio del 29/09/05 Processi AR
Processi Aleatori : Introduzione – Parte I
Canale A. Prof.Ciapetti AA2003/04
* licenziato in prima lettura dal Consiglio dei Ministri
Laurea Specialistica Chimica e Tecnologia Farmaceutiche Anno Accademico Università degli Studi di Firenze Facoltà di Farmacia.
Relatore: Dott. F. Avanzini Correlatore: Dott. C. Drioli
Dipartimento di Informatica e Sistemistica TECNOLOGIE DEI SISTEMI DI CONTROLLO CONTROLLO ROBUSTO Alessandro DE CARLI Anno Accademico
DATA PROCESSING UNIVERSITÀ DEGLI STUDI DI ROMA “LA SAPIENZA”
Apprendimento di movimenti della testa tramite Hidden Markov Model
Antonello DAguanno Music Information Retrieval - TOOLS.
Roma 19 Maggio 2008 IL LOUDNESS nr. 1 di 8 IL LOUDNESS nei segnali (radio) televisivi Mauro Falcone
I SEGNALI AUDIO nella frequenza
Tutto materiale sarà disponibile solamente sul sito Il vecchio sito non è più disponibile causa restiling del sito aziendale
I SEGNALI AUDIO nella frequenza
Introduzione all’algebra lineare
Laboratorio di El&Tel Elaborazione numerica dei segnali: analisi delle caratteristiche dei segnali ed operazioni su di essi Mauro Biagi.
Rappresentazione Spettrale Se nellintervallo [t 1, t 2 ] è possibile definire un insieme di funzioni [u 1,u 2,u 3 ….u n ] mutuamente ORTO-NORMALI : Cioè
1 Esempio : Utile per considerare limportanza delle ALTE FREQUENZE nella ricostruzione del segnale, in particolare dei FRONTI di SALITA e di DISCESA (trailing.
VALUTAZIONE FORMATIVA”
Universita' degli Studi di Torino Studio della reazione pp qqW L W L qq qq al rivelatore CMS ad LHC Gianluca CERMINARA.
Frequency Domain Processing Francesca Pizzorni Ferrarese 17/03/2010.
Le operazioni con i numeri
Frascati, 6 ottobre ANNI DALLA TEORIA DELLA RELATIVITÀ: Barbara Gallavotti Responsabile Ufficio Comunicazione Infn la sfida di raccontare la.
UNIVERSITA’ DEGLI STUDI DI GENOVA
GRANDEZZE ANALOGICHE E DIGITALI
Trasformata discreta di Fourier: richiami
Dinamiche caotiche nei Laser a Semiconduttore
Università degli studi di Padova Dipartimento di ingegneria elettrica
Università degli studi di Padova Dipartimento di ingegneria elettrica
Sviluppo di un sistema di monitoraggio
ITC - irst Trento AISV Emozioni & Prosodia Riconoscimento di emozioni nel parlato per mezzo di parametri prosodici Roberto Gretter – Dino Seppi.
TRASFORMATA DI FOURIER
LUCIDI dell'insegnamento di COMUNICAZIONI ELETTRICHE eo/in/bi
Copyright, 2005 © ISTC-SPFD-CNR Salerno 1 Dicembre 2005 Università degli Studi di Salerno Campus di Fisciano - "Aula delle Lauree di Ingegneria"
Andrea Paoloni Fondazione Ugo Bordoni
Sintesi ed analisi di suoni
Relatore: Prof. Vittorio Murino Correlatore: Dott. Andrea Fusiello Università degli Studi di Verona Facoltà di Scienze MM.FF.NN. Corso di Laurea in Informatica.
“Laboratorio di Fonetica Arturo Genre di Torino”
18 ottobre 2010Il Fenomeno Sonoro1 Misura della pressione acustica.
I LLUSTRAZIONE DEL PROGETTO Luca Anzilli – Tommaso Pirotti Dipartimento di Scienze dell’Economia Università del Salento 13 aprile 2016.
Nuove tecnologie e disabilità Il riconoscimento vocale Relatore: Dr Angelo Paglino.
FILTRI NUMERICI. Introduzione Nel campo nei segnali (analogici o digitali), un sistema lineare tempo-invariante è in grado di effettuare una discriminazione.
TRANFER DEFINITION FUNCTION G(s) I(s) U(s) Relationship between input and output of a system in the domain of the complex variable s s - complex variable.
Analisi spettrale numerica di segnali di misura Prof. Leopoldo Angrisani Dip. di Informatica e Sistemistica Università di Napoli Federico II.
POLITECNICO DI BARI Sicurezza informatica Prof. Giuseppe Mastronardi.
ANALISI DEI SEGNALI Si dice segnale la variazione di una qualsiasi grandezza fisica in funzione del tempo. Ad esempio: la pressione in un punto dello spazio.
Esercizio no 1 Si scriva un VI per:
Transcript della presentazione:

2 dicembre 2005 AISV 2005 MODELLIZZAZIONE DELLA PROSODIA E DEL TIMBRO PER LA SINTESI DEL PARLATO EMOTIVO Mauro Nicolao, Carlo Drioli, Piero Cosi Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, Roma (Italy) www: SEZIONE DI PADOVA FONETICA E DIALETTOLOGIA Via G. Anghinoni, Padova (Italy) www: ANALISI PROSODICA teorie, modelli e sistemi di annotazione 2° Convegno Nazionale AISV – 30/11- 2/ Università degli Studi di Salerno, Campus di Fisciano - - "Aula delle Lauree

Nicolao M., Drioli C., Cosi P. Modellizzazione della prosodia e del timbro per la sintesi del parlato emotivo 2 dicembre 2005 AISV 2005 Convertire un segnale vocale neutro (privo di caratterizzazioni emotive) in un segnale vocale emotivo Metodo Si utilizza una funzione di conversione dello spettro basata su un modello statistico a mistura di gaussiane (GMM) Obiettivo

Nicolao M., Drioli C., Cosi P. Modellizzazione della prosodia e del timbro per la sintesi del parlato emotivo 2 dicembre 2005 AISV 2005 Sintesi delle emozioni Il presente studio si colloca nellambito della sintesi vocale emotiva. Nei primi studi sulla sintesi vocale limportante era ottenere lintellegibilità, ora che questa è stata raggiunta, diventa oggetto di ricerca la qualità della voce (Voice Quality). La sfida più importante è fornire naturalezza alla voce sintetizzata. La sintesi delle emozioni può essere effettuata con buoni risultati soprattutto con i sintetizzatori a concatenazione di difoni perché si può agire sulla forma dello spettro di ogni singolo fonema.

Nicolao M., Drioli C., Cosi P. Modellizzazione della prosodia e del timbro per la sintesi del parlato emotivo 2 dicembre 2005 AISV 2005 Schema del progetto Acquisizione di un corpus di analisi Copy synthesis tramite Mbrola Calcolo dei parametri della trasformazione dello spettro Creazione del modello statistico Trasformazione con il modello

Nicolao M., Drioli C., Cosi P. Modellizzazione della prosodia e del timbro per la sintesi del parlato emotivo 2 dicembre 2005 AISV 2005 Corpus di analisi Con il termine corpus si intende linsieme di segnali audio da cui si è partiti per creare la funzione di conversione. È costituito da: –la voce di un parlatore che legge, in camera anecoica, il racconto Il Colombre di Dino Buzzati simulando lemozione della rabbia. –un segnale sintetizzato per copy synthesis Peculiarità: la voce è la stessa che è stata utilizzata per creare il database di difoni del sintetizzatore vocale.

Nicolao M., Drioli C., Cosi P. Modellizzazione della prosodia e del timbro per la sintesi del parlato emotivo 2 dicembre 2005 AISV 2005 Copy Synthesis Etichettatura dei fonemi tramite un riconoscitore vocale (HMM + ANN) Estrazione del pitch con un analizzatore di segnali (PRAAT) Creazione del file di istruzioni per il motore di sintesi (file.pho) Creazione della forma donda tramite il motore di sintesi Mbrola Processo che permette la creazione di un segnale sintetizzato uguale ad un originale, per –Testo pronunciato –Durata dei fonemi –Altezza del pitch Schema

Nicolao M., Drioli C., Cosi P. Modellizzazione della prosodia e del timbro per la sintesi del parlato emotivo 2 dicembre 2005 AISV 2005 Caratteristiche 1.nel dominio cepstrale la convoluzione diventa una somma 2.enfatizzano le frequenze a cui lorecchio umano è più sensibile 3.da essi si può ricavare linviluppo dello spettro del segnale Coefficienti Mel-Cepstrum Da entrambi i segnali del corpus vengono estratti i coefficienti cepstrali in scala Mel (MFCC) I coefficienti cepstrali si calcolano antitrasformando il logaritmo della trasformata di Fourier del segnale Scala Mel: Specifiche

Nicolao M., Drioli C., Cosi P. Modellizzazione della prosodia e del timbro per la sintesi del parlato emotivo 2 dicembre 2005 AISV 2005 Passo 1: creazione di un modello statistico a mistura di gaussiane (GMM, Gaussian Mixture Model) dello spazio acustico dei vettori rappresentanti il segnale synth (1 mistura da 312 gaussiane). Passo 2: divisione in classi C k. Il numero delle classi è lo stesso delle gaussiane del GMM. Funzione di conversione

Nicolao M., Drioli C., Cosi P. Modellizzazione della prosodia e del timbro per la sintesi del parlato emotivo 2 dicembre 2005 AISV 2005 Passo 3: estrazione dallinsieme dei vettori synth e target di allenamento dei parametri della funzione di conversione: Per ogni classe identificata dal GMM, si applica la formula e si ottengono tante funzioni di conversione quante le gaussiane della mistura Funzione di conversione

Nicolao M., Drioli C., Cosi P. Modellizzazione della prosodia e del timbro per la sintesi del parlato emotivo 2 dicembre 2005 AISV 2005 Trasformazione spettrale Metodo diretto esempio

Nicolao M., Drioli C., Cosi P. Modellizzazione della prosodia e del timbro per la sintesi del parlato emotivo 2 dicembre 2005 AISV 2005 Trasformazione spettrale Metodo diretto

Nicolao M., Drioli C., Cosi P. Modellizzazione della prosodia e del timbro per la sintesi del parlato emotivo 2 dicembre 2005 AISV 2005 Trasformazione spettrale Modello statistico

Nicolao M., Drioli C., Cosi P. Modellizzazione della prosodia e del timbro per la sintesi del parlato emotivo 2 dicembre 2005 AISV 2005 Conclusioni La trasformazione dello spettro è un metodo molto efficace. Il modello statistico (GMM) ben rappresenta lo spazio acustico del segnale synth La funzione di conversione è efficace. Anche se si introducono dei disturbi sullenergia del segnale, la voce prodotta è riconoscibile come arrabbiata. Questo metodo rappresenta quindi un miglioramento nello stato dellarte della sintesi delle emozioni.

Nicolao M., Drioli C., Cosi P. Modellizzazione della prosodia e del timbro per la sintesi del parlato emotivo 2 dicembre 2005 AISV 2005 Sviluppi futuri Inserire la funzione di conversione come modulo del sintetizzatore vocale di Mbrola. Verificare i parametri critici del modello statistico come il numero di classi. Sviluppare ulteriori modelli per le altre emozioni. Sviluppare il metodo anche in un sintetizzatore sinusoidale. Contestualizzare lanalisi di un frame conside- rando le informazioni relative i precedenti e i successivi.

Nicolao M., Drioli C., Cosi P. Modellizzazione della prosodia e del timbro per la sintesi del parlato emotivo 2 dicembre 2005 AISV 2005

Nicolao M., Drioli C., Cosi P. Modellizzazione della prosodia e del timbro per la sintesi del parlato emotivo 2 dicembre 2005 AISV 2005 Copy Synthesis Etichettatura dei fonemi: –riconoscimento vocale con sistema sviluppato dallIstituto di Fonetica e Dialettologia ISTC-CNR di Padova. –si basa su un modello ibrido di catene di Markov nascoste (HMM) e di rete neurale (ANN) –Creazione del file di testo.plab # v O L...

Nicolao M., Drioli C., Cosi P. Modellizzazione della prosodia e del timbro per la sintesi del parlato emotivo 2 dicembre 2005 AISV 2005 Copy Synthesis Estrazione del pitch: –Analisi tramite il software per i segnali audio PRAAT –Estrazione del pitch medio su finestre di 20 ms –Creazione del file di testo.pitch

Nicolao M., Drioli C., Cosi P. Modellizzazione della prosodia e del timbro per la sintesi del parlato emotivo 2 dicembre 2005 AISV 2005 Copy Synthesis Creazione della forma donda: –Creazione del file di testo.pho derivato dallunione delle informazioni contenute nel file.plab e nel.pitch... v 40 O L o

Nicolao M., Drioli C., Cosi P. Modellizzazione della prosodia e del timbro per la sintesi del parlato emotivo 2 dicembre 2005 AISV 2005 Schema del processo di Copy Synthesis

Nicolao M., Drioli C., Cosi P. Modellizzazione della prosodia e del timbro per la sintesi del parlato emotivo 2 dicembre 2005 AISV 2005 Analisi dei segnali nel tempo

Nicolao M., Drioli C., Cosi P. Modellizzazione della prosodia e del timbro per la sintesi del parlato emotivo 2 dicembre 2005 AISV 2005 Coefficienti MFCC

Nicolao M., Drioli C., Cosi P. Modellizzazione della prosodia e del timbro per la sintesi del parlato emotivo 2 dicembre 2005 AISV 2005 Coefficienti Mel-Cepstrum Specifiche: Finestra di analisi: 32 ms (512 punti) Incremento delle finestre: 2 ms (32 punti) Punti della FFT: 1024 Numero di filtri per il calcolo degli MFCC: 40 Numero di MFCC: 26