La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

INVERSIONE DI UN MODELLO FISICO DELLAPPARATO FONATORIO MEDIANTE PROGRAMMAZIONE DINAMICA E RETI RBF Relatore: Dott. F. Avanzini Correlatore: Dott. C. Drioli.

Presentazioni simili


Presentazione sul tema: "INVERSIONE DI UN MODELLO FISICO DELLAPPARATO FONATORIO MEDIANTE PROGRAMMAZIONE DINAMICA E RETI RBF Relatore: Dott. F. Avanzini Correlatore: Dott. C. Drioli."— Transcript della presentazione:

1 INVERSIONE DI UN MODELLO FISICO DELLAPPARATO FONATORIO MEDIANTE PROGRAMMAZIONE DINAMICA E RETI RBF Relatore: Dott. F. Avanzini Correlatore: Dott. C. Drioli Laureando: Enrico Marchetto Università degli Studi di Padova Dipartimento di Ingegneria dellInformazione TESI DI LAUREA A.A. 785 – 2006/2007

2 Sommario Sintesi della voce mediante il calcolatore Modello fisico della glottide Limpulso glottale ed il codebook diretto Il problema inverso La programmazione dinamica Le Radial Basis Function Networks Realizzazione e risultati

3 La sintesi vocale Produzione di un segnale vocale mediante il calcolatore a partire da un testo scritto Obiettivi Parlato intelligibile Presenza di emotività nel parlato sintetico Sintesi per modelli fisici Usa esclusivamente segnali sintetici e non fa ricorso ad alcun tipo di sorgente registrata Synthesis-by-analysis Sintetizza un parlato il più simile possibile ad una registrazione di partenza

4 Modellazione mediante equazioni del comportamento fisico di tutti gli organi legati al processo di fonazione Pro: Controllo accurato della sintesi Possibilità di riprodurre voice quality, identità del parlatore, ecc. Codifica efficiente del parlato Contro: Modelli ancora non del tutto soddisfacenti Costi computazionali più elevati Assenza di efficaci tecniche di controllo Complessità delle tecniche di inversione Motivazione al lavoro di tesi Contributo al problema aperto di inversione del modello Il modello fisico

5 Due parti principali: Il tratto vocale Sequenza di tubi acustici La glottide; sistema non lineare tempovariante Modello meccanico del moto delle corde vocali Descrizione fluidodinamica della colonna daria Lavoro incentrato sul solo modello della glottide No tratto vocale No consonanti Riferimento soli suoni vocalici Contengono la maggior parte dellinformazione sul parlatore e sulla voice quality/emotività

6 Il controllo del modello Attivazioni muscolari Crico-tiroideo Tiro-aritenoideo Crico-aritenoideo laterale Pressione subglottale Conversioni di dominio Attivazioni muscolari in parametri geometrici Par. geometrici in par. meccanici Parametri acustici misurati negli istanti critici dellimpulso f0, OQ, SQ, OingQ, CingQ, RQ Costruzione di un Codebook Vettori di attivazione muscolare Vettori di par. acustici misurati Coppie

7 E dato un impulso glottale i cui parametri acustici sono noti Stimare le attivazioni muscolari che portano alla sintesi di un impulso con parametri acustici simili a quelli dati Non-univocità del problema E noto che diverse impostazioni muscolari comportano la produzione del medesimo flusso glottale Approccio al problema proposto nel presente lavoro: Impiego di sequenze di impulsi glottali: il frame acustico Minimizzazione dello sforzo articolatorio mediante opportune funzioni di costo Simile a quanto accade fisiologicamente Applicazione delle funzioni di costo al frame acustico E possibile imporre la continuità delle attivazioni muscolari durante il frame e nella transizione tra frame adiacenti Il problema inverso

8 Costruzione di un codebook inverso Coppie Ciascun vettore acustico può essere associato a diverse attivazioni elevato numero di non-univocità Funzione di costo: Ricerca dellottimo globale della funzione di costo Problema con sottostruttura ottima Presenza di sottoproblemi ripetuti Programmazione dinamica Fase forward: calcolo della f. di costo Backtracking: minimizzazione La programmazione dinamica Ascissa: sequenza di v. acustici Ordinata: vettori di attivazione associati a ciascun v. acustico ottenuti dalla ricerca nel codebook inverso Traccia: scelta ottima trovata con il backtracking

9 Le Radial Basis Function Networks Si tratta di reti neurali adatte a risolvere problemi di interpolazione Basate sulla pesatura di funzioni gaussiane radiali Teoria della regolarizzazione Il codebook inverso ha cardinalità finita e presenta problemi dovuti alla discretizzazione Le reti RBF permettono di interpolare lo spazio delle attivazioni del codebook inverso; interpolazione Necessità di preparare il codebook inverso per linterpolazione Reti RBF efficaci solo con funzioni Presenza di non univocità il codebook non è descrivibile come funzione

10 Il codebook interpolato Per applicare le RBF al codebook inverso è essenziale che in ogni subcluster non ci siano non univocità Suddivisione dello spazio acustico (vettori acustici) in cluster e sottocluster Suddivisione dello spazio delle attivazioni in subcluster privi di non-univocità Realizzazione di un algoritmo ad-hoc per lindividuazione delle ipersuperfici in R 4 Sequenza data di vettori acustici Interpolazione con reti RBF Ottimizzazione con Prog. Dinamica Sequenza ottima di vettori di attivazione NxM vett. di attivazione N vett. acustici N vett. di attivazione Sottocluster Cluster Spazio acustico Subcluste r Spazio delle attivazioni

11 Realizzazione e risultati Realizzazione di tutto il software in ambiente Matlab Creazione dei codebook diretto, inverso e con pesi delle RBF Inseguimento di un segnale fittizio per la taratura della f. di costo Lookup inverso con ottimizzazione mediante pro- grammazione dinamica Lookup nel codebook diretto per verificare le attivazioni trovate

12 Realizzazione e risultati Identico processo della precedente diapositiva, ma usando reti RBF Si noti la maggior continuità delle attivazioni muscolari Lookup inverso con ottimizzazione mediante pro- grammazione dinamica Lookup nel codebook diretto per verificare le attivazioni trovate

13 Realizzazione e risultati Risintesi di un segnale vocale registrato Procedura utilizzata Filtraggio inverso del segnale con estrazione formanti e flusso glottale Traslazione vettori acustici entro il range del codebook inverso Lookup inverso per ottenere i vettori di attivazione Risintesi del flusso glottale Convoluzione del flusso glottale sintetico con i formanti Vettori acustici: originali e della risintesi

14 Conclusioni Lapproccio al problema si è rivelato corretto Le funzioni di costo portano ad un opportuno inseguimento dei vettori di ingresso, garantendo nel contempo buona continuità delle attivazioni Le programmazione dinamica riduce la complessità esponenziale del problema di minimizzazione ed evita i sottoproblemi ripetuti Le reti neurali portano ad interpolazioni corrette che, pur in misura minore rispetto alle aspettative, migliorano le prestazioni del codebook Corretto inseguimento del segnale fittizio di riferimento Risintesi di buona qualità di un suono vocalico registrato con variazioni di pitch e voice quality Realizzazione del pacchetto di algoritmi necessari Interfaccia utente grafica per linversione e per limpiego del codebook Futuri sviluppi Procedure analiticamente corrette per tarare le reti neurali Necessità di un modello fisico di qualità migliore Introduzione del modello del tratto vocale ed ottimizzazione congiunta


Scaricare ppt "INVERSIONE DI UN MODELLO FISICO DELLAPPARATO FONATORIO MEDIANTE PROGRAMMAZIONE DINAMICA E RETI RBF Relatore: Dott. F. Avanzini Correlatore: Dott. C. Drioli."

Presentazioni simili


Annunci Google