Relatore: Dott. F. Avanzini Correlatore: Dott. C. Drioli Università degli Studi di Padova Dipartimento di Ingegneria dell’Informazione TESI DI LAUREA INVERSIONE DI UN MODELLO FISICO DELL’APPARATO FONATORIO MEDIANTE PROGRAMMAZIONE DINAMICA E RETI RBF Relatore: Dott. F. Avanzini Correlatore: Dott. C. Drioli Laureando: Enrico Marchetto A.A. 785 – 2006/2007
Sommario Sintesi della voce mediante il calcolatore Modello fisico della glottide L’impulso glottale ed il codebook diretto Il problema inverso La programmazione dinamica Le Radial Basis Function Networks Realizzazione e risultati
La sintesi vocale Produzione di un segnale vocale mediante il calcolatore a partire da un testo scritto Obiettivi Parlato intelligibile Presenza di emotività nel parlato sintetico Sintesi per modelli fisici Usa esclusivamente segnali sintetici e non fa ricorso ad alcun tipo di sorgente registrata Synthesis-by-analysis Sintetizza un parlato il più simile possibile ad una registrazione di partenza
Il modello fisico Modellazione mediante equazioni del comportamento fisico di tutti gli organi legati al processo di fonazione Pro: Controllo accurato della sintesi Possibilità di riprodurre voice quality, identità del parlatore, ecc. Codifica efficiente del parlato Contro: Modelli ancora non del tutto soddisfacenti Costi computazionali più elevati Assenza di efficaci tecniche di controllo Complessità delle tecniche di inversione Motivazione al lavoro di tesi Contributo al problema aperto di inversione del modello
Il modello fisico Due parti principali: Il tratto vocale Sequenza di tubi acustici La glottide; sistema non lineare tempovariante Modello meccanico del moto delle corde vocali Descrizione fluidodinamica della colonna d’aria Lavoro incentrato sul solo modello della glottide No tratto vocale No consonanti Riferimento soli suoni vocalici Contengono la maggior parte dell’informazione sul parlatore e sulla voice quality/emotività
Il controllo del modello Attivazioni muscolari Crico-tiroideo Tiro-aritenoideo Crico-aritenoideo laterale Pressione subglottale Conversioni di dominio Attivazioni muscolari in parametri geometrici Par. geometrici in par. meccanici Parametri acustici misurati negli istanti critici dell’impulso f0, OQ, SQ, OingQ, CingQ, RQ Costruzione di un Codebook Vettori di attivazione muscolare Vettori di par. acustici misurati Coppie <attivazione, v. acustico> Spiegare a voce i parametri acustici: significato fondamentale, almeno di alcuni.
Il problema inverso E’ dato un impulso glottale i cui parametri acustici sono noti Stimare le attivazioni muscolari che portano alla sintesi di un impulso con parametri acustici “simili” a quelli dati Non-univocità del problema E’ noto che diverse impostazioni muscolari comportano la produzione del medesimo flusso glottale Approccio al problema proposto nel presente lavoro: Impiego di sequenze di impulsi glottali: il frame acustico Minimizzazione dello sforzo articolatorio mediante opportune funzioni di costo Simile a quanto accade fisiologicamente Applicazione delle funzioni di costo al frame acustico E’ possibile imporre la continuità delle attivazioni muscolari durante il frame e nella transizione tra frame adiacenti
La programmazione dinamica Costruzione di un codebook inverso Coppie <v. acustico, attivazione> Ciascun vettore acustico può essere associato a diverse attivazioni elevato numero di non-univocità Funzione di costo: Ricerca dell’ottimo globale della funzione di costo Problema con sottostruttura ottima Presenza di sottoproblemi ripetuti Programmazione dinamica Fase forward: calcolo della f. di costo Backtracking: minimizzazione Ascissa: sequenza di v. acustici Ordinata: vettori di attivazione associati a ciascun v. acustico ottenuti dalla ricerca nel codebook inverso Traccia: scelta ottima trovata con il backtracking Mettere la funzione esplicitamente
Le Radial Basis Function Networks Si tratta di reti neurali adatte a risolvere problemi di interpolazione Basate sulla pesatura di funzioni gaussiane radiali Teoria della regolarizzazione Il codebook inverso ha cardinalità finita e presenta problemi dovuti alla discretizzazione Le reti RBF permettono di interpolare lo spazio delle attivazioni del codebook inverso; interpolazione Necessità di preparare il codebook inverso per l’interpolazione Reti RBF efficaci solo con funzioni Presenza di non univocità il codebook non è descrivibile come funzione
Il codebook interpolato Per applicare le RBF al codebook inverso è essenziale che in ogni subcluster non ci siano non univocità Suddivisione dello spazio acustico (vettori acustici) in cluster e sottocluster Suddivisione dello spazio delle attivazioni in subcluster privi di non-univocità Realizzazione di un algoritmo ad-hoc per l’individuazione delle ipersuperfici in R4 Sottocluster Cluster Spazio acustico Subcluster attivazioni Spazio delle Inserire figura ipersuperfici e “insiemi”; ridurre il testo… Sequenza data di vettori acustici Sequenza ottima di vettori di attivazione N vett. di attivazione N vett. acustici Interpolazione con reti RBF Ottimizzazione con Prog. Dinamica NxM vett. di attivazione
Realizzazione e risultati Realizzazione di tutto il software in ambiente Matlab Creazione dei codebook diretto, inverso e con pesi delle RBF Inseguimento di un segnale fittizio per la taratura della f. di costo Lookup inverso con ottimizzazione mediante pro-grammazione dinamica Lookup nel codebook diretto per verificare le attivazioni trovate
Realizzazione e risultati Identico processo della precedente diapositiva, ma usando reti RBF Si noti la maggior continuità delle attivazioni muscolari Lookup inverso con ottimizzazione mediante pro-grammazione dinamica Lookup nel codebook diretto per verificare le attivazioni trovate
Realizzazione e risultati Risintesi di un segnale vocale registrato Procedura utilizzata Filtraggio inverso del segnale con estrazione formanti e flusso glottale Traslazione vettori acustici entro il range del codebook inverso Lookup inverso per ottenere i vettori di attivazione Risintesi del flusso glottale Convoluzione del flusso glottale sintetico con i formanti Vettori acustici: originali e della risintesi
Conclusioni L’approccio al problema si è rivelato corretto Le funzioni di costo portano ad un opportuno inseguimento dei vettori di ingresso, garantendo nel contempo buona continuità delle attivazioni Le programmazione dinamica riduce la complessità esponenziale del problema di minimizzazione ed evita i sottoproblemi ripetuti Le reti neurali portano ad interpolazioni corrette che, pur in misura minore rispetto alle aspettative, migliorano le prestazioni del codebook Corretto inseguimento del segnale fittizio di riferimento Risintesi di buona qualità di un suono vocalico registrato con variazioni di pitch e voice quality Realizzazione del pacchetto di algoritmi necessari Interfaccia utente grafica per l’inversione e per l’impiego del codebook Futuri sviluppi Procedure analiticamente corrette per tarare le reti neurali Necessità di un modello fisico di qualità migliore Introduzione del modello del tratto vocale ed ottimizzazione congiunta