La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

1 Le Tecnologie Vocali come interfaccia semplice e naturale con i dispositivi della casa.

Presentazioni simili


Presentazione sul tema: "1 Le Tecnologie Vocali come interfaccia semplice e naturale con i dispositivi della casa."— Transcript della presentazione:

1 1 Le Tecnologie Vocali come interfaccia semplice e naturale con i dispositivi della casa

2 2 Le Tecnologie Vocali come interfaccia semplice e naturale con i dispositivi della casa.  La piattaforma Tecnomarche di AAL  Human Computer Interaction (HCI) Multimodalità.  Architetture per interazione vocale (speech, gesture, ecc.)  Tecnologie vocali  Speech Recognition  Speech Sintesys

3 BAITAH (2012-13) (Residenziale ->) Assistenza Medico - Sanitaria E.QUA.LI. (2012-13) (Residenziale ->) Assistenza Socio - Sanitaria A.T.R.O. (2012-13) Turismo e Lavoro I.B.A.D.H. (2010-11) Residenziale Piattaforma per Ambiente Assisted Living Rilevamento Presenze Controllo Ambientale Riconoscimento delle persone Interfacciamento e comando Universal Design Ambient Intelligence Monitoraggio Parametri ambientali Sistemi di fault detection Monitoraggio parametri fisiologici Smart TV & Mobile Comfort Voice Recognition Security & Privacy Tracking & Object Localization Gesture Recognition Sistemi di Riabilitazione

4 Multimodalità 4 La modalità vocale è una delle possibili interazioni tra utente e sistema sia in modalità input che output. Multimodalità: ovvero interagire in input e in output con la stessa interfaccia e applicazione in più modi: Speech, Gesture, Touch, ecc. Applicazione di Ambient Assisted Living Touch & Gestures Mouse & Keyboard Speech Recognition Sounds Images Speech Syntesis OUTPUT INPUT

5 5 Palmari e/o tastiera cap sense Smart TV Dispositivi mobile  L’ambiente si adatta alle diverse esigenze e modalità di interazione dell’utente (Universal Design)  Inclusione sociale (contatti con centri di assistenza, familiari, etc)  Servizi di assistenza socio-sanitaria (monitoraggio parametri vitali, eventi accidentali,.. )  Servizi alla persona (consegna medicinali, servizio trasporti, etc). Sensoristica ambientale e monitoraggio parametri vitali Multimodalità

6 Architetture della Piattaforma Vocale 6 1 2 3 4

7 7 AAL – Ambient Assisted Living - Obiettivi RICADUTE SOCIALI Invecchiamento attivo e indipendente Miglioramento della qualità della vita Inclusione sociale Accessibilità RICADUTE TECNOLOGICHE Interazione tecnologia/ambiente Tecnologie ICT abilitanti Soluzioni tecnologiche customizzate RICADUTE ECONOMICHE Nuovi servizi di assistenza Socio sanitaria Nuovi modelli di business interdisciplinarietà RICADUTE OCCUPAZIONALI Nuove figure professionali Maggior Know - how

8 Sistemi di Sintesi Vocale 8 Un sintetizzatore vocale o Text To Speech Engine (TTS) è un cosiddetto “lettore di testi”, ovvero un sistema in grado di riprodurre in uscita una versione vocale di un qualsiasi testo fornitogli in ingresso. Molteplici sono quindi gli impieghi di un sintetizzatore vocale: vocalizzazione di contenuti testuali pagine web contenuti di database libri enciclopedie..e molto altro…

9 Intonazione Sistemi di Sintesi Vocale 9 Normalizzazione Intonazione Durata Fasatura TESTO VOCE Generazione Suoni Fonemi Grafemi

10 Sistemi di Sintesi Vocale 10 MUSA 1975 Università di Padova, applicando la tecnica dei cosiddetti difoni (unione di una consonante ed una vocale, 150 in tutto per l'italiano) nel 1975 viene creato il primo sintetizzatore vocale con elevata intelligibilità; MUSA (MUltichannel Speaking Automaton) 1a Generazione Eloquens 1990 Negli anni novanta nasce ELOQUENS, sintetizzatore vocale multi-piattaforma per diversi sistemi operativi (DOS, Windows, System 7, Unix, OS/2) o per schede telefoniche con elevatissimo numero di canali. 2a Generazione Actor 2000 la tecnica di sintesi cambia completamente, passando dall'approccio a difoni a quello di "selezione e concatenazioni di unità acustiche di lunghezza variabile. Nasce quindi ACTOR - The human sounding voice. 3a Generazione Loquendo Nuance Acapela Google Microsoft

11 Sistemi di Riconoscimento Vocale 11 Il riconoscimento vocale è il processo di conversione di segnali acustici, costituiti da voce e rumore, in un insieme corrispondente di parole. Un riconoscitore vocale riceve in ingresso un segnale acustico e restituisce la stringa di testo corrispondente. L’output del processo di riconoscimento vocale, potrà essere utilizzato dalle applicazioni per immettere dati nel sistema, ad esempio la dettatura di un testo ad un programma di videoscrittura, per controllare sistemi informatici o come input per sistemi più complessi come, ad esempio, i sistemi di comprensione dei testi, i quali utilizzano sofisticati algoritmi di intelligenza artificiale per desumere il significato di una frase o di un testo.

12 Milestones in Speech Recognition 196219671972197719821987199219972003 Isolated Words Filter-bank analysis Time- normalization Dynamic programming Isolated Words Connected Digits Continuous Speech Pattern recognition LPC analysis Clustering algorithms Level building Continuous Speech Speech Understanding Stochastic language understanding Finite-state machines Statistical learning Small Vocabulary, Acoustic Phonetics-based Medium Vocabulary, Template-based Large Vocabulary; Syntax, Semantics, Connected Words Continuous Speech Large Vocabulary, Statistical-based Hidden Markov models Stochastic Language modeling Spoken dialog; Multiple modalities Very Large Vocabulary; Semantics, Multimodal Dialog Concatenative synthesis Machine learning Mixed-initiative dialog

13 Sistemi di Riconoscimento Vocale 13 Speaker Dependent e Speaker Independent Capacità Computazionali Mobile Devices Desktop PC Server & Cloud Computing Dimensione dei Vocabolari Language Models (grandi vocabolari) Grammatiche BNF Acoustic Models Architetture HW e SW On device Desktop PC Server & Cloud

14 Input Vocale “Ciao Mondo” (0.9) (0.8) Sistemi di Riconoscimento Vocale: Processo Modello Acustico Estrazione Features Confidece (Punteggio) Modello del Linguaggio Grammatica BNF Lessico Classificazione Pattern Ricerca del Risultato

15 Sistemi di Sintesi e Riconoscimento Vocale 15 Il W3C ha definito degli standard per le tecnologie vocali: VoiceXML (a dicembre 2007, alla versione 2.1) e CCXML. Speech Recognition Grammar Specification (SRGS) Speech Synthesis Markup Language (SSML) Pronunciation Lexicon Specification (PLS) Semantic Interpretation for Speech Recognition (SISR).

16 16

17 CCXML e VXML 17

18 CCXML e VXML 18

19 Grammatiche SRGS 19 Sintassi: XML oppure ABNF Possono essere create e attivate o disattivate a Runtime #ABNF 1.0 UTF-8; language it; mode voice; root $basicCmd; public $basicCmd = $command $command = $azione $oggetto; $action = "open" | "close" | "cancella" | "muovi”; $object = [la | il] (finestra | file | menu);... open OPEN close CLOSE la il window file menu

20 SSML Speech Sintesys Markup Language 20 <!DOCTYPE speak PUBLIC "-//W3C//DTD SYNTHESIS 1.0//EN" "http://www.w3.org/TR/speech-synthesis/synthesis.dtd"> <speak version="1.0"... xml:lang="en-US"> Today we preview the latest romantic music from Example. Hear what the Software Reviews said about Example's newest hit. He sings about issues that touch us all. Here's a sample. Would you like to buy it?

21 Sistemi di Sintesi e Riconoscimento Vocale 21 Risorse:... Disponibili anche per la lingua italiana Microsoft Speech Platform (Desktop, Server) Disponibile con Kinect SDK http://www.microsoft.com/download/en/details.aspx?id=27225 http://www.microsoft.com/download/en/details.aspx?id=27226 Google (Android SDK) – Cloud Based ASR, On Device TTS http://developer.android.com/sdk/index.html Nuance NDEV – Cloud Based ASR & TTS http://dragonmobile.nuancemobiledeveloper.com/public/index.php?task=home

22 Conclusioni 22 Le tecnologie vocali sono mature per essere utilizzate in applicazioni su larga scala sia in ambienti domestici (domotica e AAL) in mobilità in ambienti di lavoro Turismo Entertinement.. E molto altro Le applicazioni vocali possono migliorare la vita e l’accesso ad informazioni e servizi per tutti (Inclusione Sociale) La voce è una efficace modalità aggiuntiva che favorisce l’accessibilità a contenuti e servizi di ogni tipo.

23 23 Polo di Ascoli Piceno, 63100 Zona Servizi Collettivi – Marino del Tronto Tel. (+39) 0736 343644 Fax (+39) 0736 383288 Polo di Civitanova Marche, 62012 Via Einaudi, 176 Tel. (+39) 0733 818011 Fax (+39) 0733 777785


Scaricare ppt "1 Le Tecnologie Vocali come interfaccia semplice e naturale con i dispositivi della casa."

Presentazioni simili


Annunci Google