UNIVERSITA’ DEGLI STUDI DI GENOVA Corso di Laurea in Ingegneria Elettronica STUDIO E REALIZZAZIONE DI TECNICHE PER IL RICONOSCIMENTO VOCALE Relatore : Prof. Francesco Curatelli Studente : Lorenzo Banderali
MOTIVAZIONI I sistemi di riconoscimento vocale sono sempre più diffusi ed importanti. Possono essere impiegati in: - Telefonia mobile - Stazioni telefoniche - Refertazione automatica - Interazione facilitata uomo-macchina Università degli Studi di Genova – Facoltà di Ingegneria
ACQUISIZIONE E’ necessario acquisire il segnale vocale e trasformarlo in un segnale tempo discreto tramite un appropriato campionamento Università degli Studi di Genova – Facoltà di Ingegneria
MODELLO PLP Il modello PLP simula la percezione dell’udito umano e stima con accuratezza i parametri del parlato in modo veloce
MEMORIA ASSOCIATIVA Associa i parametri del parlato ottenuti con il modello PLP ad un set predefinito di caratteristiche Adatta per una rappresentazione vettoriale dei dati Rende possibile il riconoscimento della forma d’onda Università degli Studi di Genova – Facoltà di Ingegneria
SISTEMA DI RICONOSCIMENTO Fase di Apprendimento (training) Analisi del segnale vocale per ogni frame Costruzione database con i vettori PLP Fase di riconoscimento Analisi del segnale vocale (PLP) Calcolo score rispetto al database di training Stima parola con algoritmo DTW Università degli Studi di Genova – Facoltà di Ingegneria
OBIETTIVI Rendere il sistema di riconoscimento più rapido e meno costoso Mettere a punto un sistema software che permetta di minimizzare i tempi di calcolo senza provocare un significativo peggioramento del risultato finale Università degli Studi di Genova – Facoltà di Ingegneria
OTTIMIZZAZIONE Riduzione del file di training - Algoritmo di Lloyd - Algoritmo K-Means - Disattivazione Università degli Studi di Genova – Facoltà di Ingegneria
Lloyd & K-Means Si muovono ripetitivamente tutti i valori di riferimento alla media del loro Voronoi set (L) o considerando il punto vincitore (K) Il riferimento si posiziona come un centroide per un insieme di punti
DISATTIVAZIONE Elimina i punti “sparsi” attratti più da altre classi che da quella di appartenenza Può essere effettuata prima o dopo la riduzione tramite Lloyd & K-Means Riduce ulteriormente il file di training
DIAGRAMMA DI VORONOI Permette di dividere il piano assegnando a ciascun punto il seme più vicino
PROVE EFFETTUATE Utilizzo di un database di registrazioni composto da parole pronunciate da differenti parlatori in più sessioni Addestramento con files di training completi e ridotti Riconoscimento di parole dello stesso o di altri parlatori nelle varie sessioni Università degli Studi di Genova – Facoltà di Ingegneria
Riduzione Lloyd e nessuna disattivazione ulteriore (XV) RISULTATI Riduzione Lloyd e nessuna disattivazione ulteriore (XV) Ancos01 Ancos01.10 Ancos01.100 Parlatore Parola R % R % R % 0#1 S 100 S 83.5 S 68.5 2#3 S 78.8 S 59 Ancos02 S 60 S 60 S 38.6 S 70.4 S 70.4 Lucas01 5#3 S 52 S 50 S 54.6 9#4 S 47 S 47 S 39.4 Cabos03 6#1 N 33.7 N 36.6 S 31.1 0#3 N 26.4 S 22.9 S 18.4 Università degli Studi di Genova – Facoltà di Ingegneria
Riduzione Lloyd e disattivazione ulteriore (XV V*) RISULTATI Riduzione Lloyd e disattivazione ulteriore (XV V*) Ancos01 Ancos01.10 Ancos01.100 Parlatore Parola R % R % R % 0#1 S 100 S 57.5 S 30.1 2#3 S 65 S 28 Ancos02 S 60 S 54.6 S 70.4 S 58.7 S 62.1 Lucas01 5#3 S 52 S 50.2 S 42.5 9#4 S 47 S 39.3 S 29 Cabos03 6#1 N 33.7 N 24.5 S 20.9 0#3 N 26.4 N 16.6 N 14.2 Università degli Studi di Genova – Facoltà di Ingegneria
Riduzione Lloyd e disattivazione ulteriore (XX* V) RISULTATI Riduzione Lloyd e disattivazione ulteriore (XX* V) Ancos01 Ancos01.10 Ancos01.100 Parlatore Parola R % R % R % 0#1 S 100 S 73.9 S 68.4 2#3 S 72.3 S 52.8 Ancos02 S 60 S 57.3 S 61.3 S 70.4 S 66.1 S 62.5 Lucas01 5#3 S 52 S 45.9 S 49.1 9#4 S 47 S 45 S 35.9 Cabos03 6#1 N 33.7 N 32.7 S 28.5 0#3 N 26.4 S 18.3 S 16.5 Università degli Studi di Genova – Facoltà di Ingegneria
CONCLUSIONI Significativa riduzione dei file di training Diminuzione dei tempi di esecuzione del programma di riconoscimento “Spear” Pochi errori nel riconoscimento delle parole Università degli Studi di Genova – Facoltà di Ingegneria