Uno strumento per lannotazione e la modellizzazione prosodica di enunciati marcati per un sistema di sintesi vocale Andrea Panizza Francesca Tini Brunozzi.

Slides:



Advertisements
Presentazioni simili
*Claudio Zmarich °Barbara Gili Fivela * Emanuela Magno Caldognetto
Advertisements

LA SCUOLA E I DISTURBI SPECIFICI DI APPRENDIMENTO
Co.Me.Te Dott.ssa Ginetta Matracchi Dott.ssa Giuliana Lacrimini
2 dicembre 2005 AISV 2005 MODELLIZZAZIONE DELLA PROSODIA E DEL TIMBRO PER LA SINTESI DEL PARLATO EMOTIVO Mauro Nicolao, Carlo Drioli, Piero Cosi Copyright,
COMFORT ACUSTICO Condizione psicofisica di soddisfacimento delle esigenze acustiche espresse dallutente; può essere inteso come: E FUNZIONE DI: a.CARATTERISTICHE.
Istituzioni di linguistica
L’attività di ripetizione nella
La percezione degli accenti: il ruolo dellallineamento e dello scaling dei bersagli tonali Barbara Gili Fivela Università degli Studi di Lecce.
LINDICE SPAZIO-TEMPORALE (STI): UN NUOVO STRUMENTO PER VALUTARE LA STABILITA ARTICOLATORIA NEL PARLATO. Zmarich C., Danelon L., Lonardi F. AISV 2004: 1°Convegno.
Copyright, 2005 © ISTC-SPFD-CNR ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Viale Marx, Roma (Italy) www:
LA RA RIO BO TO FO LO CO GI NO
La scrittura Componente ortografica.
PARLIAMO DI… Proposte didattiche e strumenti per il recupero della
PARLIAMO DI… VALUTAZIONE.
cosapevolezza metafonologica
consapevolezza metafonologica
PARLIAMO DI… VALUTAZIONE.
Sistemi basati su conoscenza Comunicazione basata sul linguaggio naturale Prof. M.T. PAZIENZA a.a
Istituzioni di linguistica
Comprendere per riassumere, riassumere per comprendere
Linguaggio FONETICA SEMANTICA SINTASSI PRAGMATICA.
LETTURA e PROCESSI COGNITIVI
LABORATORIO DI LETTURA E SCRITTURA
Dallo sviluppo del linguaggio all’apprendimento della letto-scrittura
Leggere e scrivere Scuola dell’infanzia e Scuola primaria
Lingue media e pubblicità
Tabella di marcia e calendario
Tabella di marcia e calendario
MULTICULTURALITÁ E APPRENDIMENTO LINGUISTICO (M-Z)
Prosodia Giovanna Marotta Università di Pisa Dottorato - Aprile 08.
Dislessico..? Criteri diagnostici Si può porre diagnosi di disturbo specifico di apprendimento quando a tests standardizzati di lettura,scrittura e calcolo.
Linguaggio: sistema di comunicazione che permette di trasmettere informazioni (significati) attraverso dei comportamenti (segnali) che devono essere interpretati.
PROGETTO DISLESSIA Anno scolastico 2011/2012
GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.
Che cos’è l’annotazione di un corpus?
COMUNICAZIONE PUBBLICA La semplificazione del linguaggio 7° lezione 17 ottobre 2008 Anno Accademico 2008/2009.
STATISTICA PER LE DECISIONI DI MARKETING
STRUTTURAZIONE DI LABORATORI LINGUISTICI E META-FONOLOGICI
Strumenti tecnologici per compensare la disabilità
Aziende Sanitarie Percorso Base di Lingua Araba. 1 Finalità In particolare si propone di : introdurre allo studio della lingua araba, presentandone le.
Telecontrollo dei serbatoi Montecatini Terme, 29 aprile 2005.
COMMISSIONE VALUTAZIONE
IMMAGINE COORDINATA LOOK DISTINGUERSI FARSI RICONOSCERE abito che il grafico cuce addosso.
LA COMPETENZA FONOLOGICA: PRE-REQUISITO ALLA LETTURA
La fonetica La fonetica è la disciplina della linguistica che tratta la componente fisica della comunicazione verbale La fonetica si suddistingue.
CTRH MONZA DISAGI E DISTURBI SPECIFICI DELL’APPRENDIMENTO COSA PUO’ FARE LA SCUOLA? Percorso di formazione e aggiornamento per la SCUOLA DELL’INFANZIA.
Fabricatore 2012 Il Servizio Nazionale di Valutazione: quadri di riferimento, lettura dei dati e percorsi di lavoro PISTE DI LAVORO Vittorio Fabricatore.
DATA MINING PER IL MARKETING
Introduzione a Excel.
PROGRAMMAZIONE DISCIPLINARE DOCENTE: PELLEGRINETTI ENRICA
I DISTURBI SPECIFICI DI APPRENDIMENTO
“La scuola fa bene a tutti” 2° incontro: le basi teoriche 15/12/2014
Tic e disabilità visiva
MODELLO A DUE VIE DI LETTURA
SINTESI FUNZIONALI ALLA STESURA DEL LAVORO FINALE.
Come costruire una mappa concettuale
Università degli Studi di Pavia
Come costruire sistemi di elaborazione del linguaggio naturale Fornire le conoscenze necessarie per elaborare dati linguistici –Acustico-fonetiche (input.
PENSIERO SIMBOLICO. PRODURRE Parlare automatico, spontaneo Scrivere solo in seguito all’istruzione Dagli errori e le pause (esitazioni) di produzione.
PROGETTATO E REALIZZATO DALL’INSEGNANTE
Come costruire sistemi di elaborazione del linguaggio naturale (NLP) Due paradigmi di riferimento –Basato sulla conoscenza (Knowledge Engineering, KE)
Giovanna Marotta Università di Pisa
Istituzioni di linguistica
UNIVERSITÀ DEGLI STUDI DI MACERATA FACOLTÀ DI SCIENZE DELLA FORMAZIONE SCIENZE PEDAGOGICHE DISTURBI DI APRRENDIMENTO A.A. 2010/11 - I SEMESTRE Dott.ssa.
Come si impara a leggere e a scrivere? Ogni insegnante ha un suo metodo di insegnamento ed è convinto della sua efficacia. Certamente metodi appropriati.
Art. 3 – Linee guida 1. Gli Uffici Scolastici Regionali, le Istituzioni scolastiche e gli Atenei, per l’attuazione delle disposizioni del presente decreto,
Aneta Chmiel Università della Slesia Istituto di Filologia Romanza Cattedra di Italianistica.
1 Livello di benessere organizzativo, grado di condivisione del sistema di valutazione e valutazione dei superiori gerarchici. Sintesi dei risultati delle.
Lucrezia pedrali a.s.2007/2008 LINGUA ITALIANA Dalla scuola dell’infanzia alla scuola primaria.
AVVIO DEL SISTEMA NAZIONALE DI VALUTAZIONE USR dell’Emilia-Romagna Roberto Ricci INVALSI Salsomaggiore (PR), 4 marzo 2015.
Transcript della presentazione:

Uno strumento per lannotazione e la modellizzazione prosodica di enunciati marcati per un sistema di sintesi vocale Andrea Panizza Francesca Tini Brunozzi Enrico Zovato Fisciano (SA), 30 Novembre – 2 Dicembre 2005

2 Premesse del lavoro Ambito generale: ricerca di correlati acustico-prosodici tra stili di testo e stili di lettura per un sistema di sintesi vocale da testo scritto (TTS). –progettazione di un tool per lannotazione e lanalisi prosodica di enunciati marcati (focus contrastivi, atti illocutivi, parlato emozionale, ecc.). Ambito specifico: modellizzazione dei parametri acustici e degli andamenti prosodici di enunciati sintatticamente marcati. –migliorare la resa acustica della sintesi di frasi interrogative di tipo wh-.

3 Ambito generale La presenza di focus in enunciati marcati ha messo in evidenza particolari correlazioni tra il livello pragmatico e il livello acustico.

4 Ambito specifico Confronto tra gli andamenti di f0 di un enunciato interrogativo e dello stesso enunciato letto con intonazione dichiarativa.

5 Il tool Sybilla per lannotazione prosodica Sviluppo di un tool (con XWaves Entropic) per lannotazione prosodica che permette di: – descrivere qualitativamente e morfologicamente gli andamenti di f0. – fornire misure circa i parametri di energia e durata. Le informazioni vengono fornite dal tool a livello di segmentazione in sillabe, intese come unità acustiche e non grammaticali. Tutto a posto? t `u - t: o a - p `o s - t o Il tool è in grado di fornire in modo automatico, per ogni sillaba acustica, i valori di energia e durata, il valore medio di f0, e la visualizzazione dei confini dei fonemi. Lannotazione manuale prevede invece linserimento di etichette morfologiche atte a rappresentare landamento della curva di f0.

6 Interfaccia e livelli di annotazione Etichette prosodiche Unità sillabiche Valori di f0 Energia normalizzata Durata percentuale Segmentazione fonetica Curve di f0 e Energia (con esempio di stilizzazione)

7 Le etichette morfologiche per lannotazione Al fine di descrivere le caratteristiche della curva di f0, è stato definito un alfabeto di etichette morfologiche, che sono state inserite ad ogni cambiamento significativo della pendenza della curva intonativa: crescita moderataup crescita rapidaUP decrescita moderatadw decrescita rapidaDW andamento piattoFl non vocalizzatoNv silenzioSl

8 Le soglie di valore per lannotazione Il lavoro di annotazione prosodica ha suggerito la scelta di tre intervalli utili a discriminare gli andamenti in casi ambigui alla sola percezione visiva. Dato R=100*abs(f0_fine-f0_inizio)/(t_fine-t_inizio) [Hz/sec.] –per R<1,5 andamento Fl –per 1,5<R<20 andamento up/dw –per R>20 andamento UP/DW Il lavoro di etichettatura manuale della curva di f0 ha comportato la scelta di una finestra di analisi costante per la visualizzazione del segnale (circa 50 ms), allo scopo di uniformare la visualizzazione di segnali di durata diversa, al fine di garantire la maggior uniformità possibile tra i diversi annotatori.

9 Le caratteristiche tecniche del tool Sybilla Segmentazione automatica in unità fonetiche (HMM) e individuazione dei confini di sillaba in coincidenza dei fonemi che sono minimi relativi di sonorità. Calcolo della frequenza fondamentale: finestre di analisi di 10 ms e passo di avanzamento di 5 ms. Calcolo dellenergia RMS effettuato ad intervalli di tempo pari a 5 ms. Calcolo della durata percentuale a partire dalla segmentazione in sillabe.

10 Protocollo Sybilla 1.Analisi automatica e aggiornamento dati. 2.Intervento manuale: controllo fonetico (trascrizione e segmentazione automatica) ed etichettatura prosodica. 3.Aggiornamento dati in base a correzioni e annotazioni. 4.Elaborazione dei dati e delle etichette, modellizzazione. 4 Statistiche e modelli (report_syb_pros) Segnali + Trascrizione e segmentazione fonetica Energia F0 Durata 2 Calcolo parametri (get_syb_pros) Annotazione (sybillab) 1, 3

11 Esperimenti di prosody transplantation Lannotazione degli enunciati interrogativi con il tool, e la successiva analisi compiuta su di essi, hanno fornito i modelli utili alla produzione di frasi interrogative mediante la manipolazione dei parametri prosodici delle corrispondenti frasi dichiarative. Tramite il programma Praat, a scopo di studio e verifica, viene imposto a una frase dichiarativa un profilo di f0 stilizzato linearmente e manipolato coerentemente con le annotazioni prosodiche della corrispondente frase interrogativa (annotazioni Sybilla). La modifica di f0 avviente tramite tecniche di tipo PSOLA.

12 Esempi di prosody transplantation

13 La manipolazione di enunciati sintetici La generalizzazione della prosody transplantation è costituita dagli esperimenti di risintesi. Definiamo risintesi la possibilità di ottenere una frase interrogativa a partire da sintesi dichiarativa-neutra. A tale scopo, al segnale ottenuto in sintesi è stato imposto landamento di f0 di una frase del repertorio di frasi interrogative con stesso numero di sillabe e stessa posizione degli accenti. In questa fase del lavoro, quindi, si cerca di rendere applicabile alle frasi sintetizzate la tecnica di manipolazione di f0, con modelli ottenuti tramite comparazione di annotazioni.

14 Esempi di risintesi

15 Elaborazione dei dati e sviluppi futuri Lo scopo finale di questo lavoro è lutilizzo delle annotazioni per produrre modelli che predicano in modo semplice la struttura prosodica delle unità sillabiche, in modo da pilotare efficacemente la selezione di unità acustiche in un sistema di sintesi vocale da testo scritto. In prospettiva, lannotazione potrebbe essere automatizzata e potrebbero essere usati strumenti di classificazione (ad esempio CART) per la generazione di modelli prosodici. Semplici aggregazioni hanno comunque evidenziato, nel caso specifico delle frasi interrogative wh-, strutture comuni a sillabe aventi stesse caratteristiche posizionali e accentuali. Esempio: distribuzione etichette nel caso in cui la prima sillaba sia atona e la seconda tonica, in frasi wh-

16 Conclusioni E stato presentato uno strumento per lannotazione prosodica di enunciati, mediante la possibilità, sia di correggere la trascrizione e la segmentazione sillabica fornite automaticamente, sia di inserire etichette atte a descrivere la morfologia della curva intonativa. Nonostante la sinteticità delle etichette utilizzate, la simulazione di andamenti intonativi dedotti dallannotazione, ha fornito risultati interessanti e credibili a livello percettivo. Il naturale sviluppo di questo lavoro è il miglioramento dellannotazione prosodica per un suo efficace utilizzo in un sistema di sintesi vocale.