Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoLuciano Lorenzi Modificato 11 anni fa
1
La refertazione vocale assistita al computer: quali sviluppi
Cortina d’Ampezzo – Venerdì 25 maggio, 2007
2
La tecnologia ASR Concettualmente semplice da comprendere ed utilizzare: un software di riconoscimento vocale riconosce ciò che già conosce, tramite un’operazione di confronto tra ciò che ascolta e quanto aveva già ascoltato. È altrettanto complesso e sofisticato per produrre risultati eccellenti in tempo reale Gestisce un alto grado di variabilità del segnale audio “speech” Si basa sul confronto di entità analogiche da parte di strumenti digitali
3
Architettura di un motore ASR
Context o Topic Input vocale Conversione A/D & Feature Calculation Ricerca o Classificazione Referenze acustiche Vocabolario (Lexicon) Modello statistico di linguaggio (Language model) Frase riconosciuta
4
Feature calculation L’alta variabilità del segnale audio costringerebbe all’utilizzo di un numero di variabili enorme: Si utilizza una procedura di semplificazione e combinazione delle variabili, pur descrivendo i dati con una accuratezza sufficiente. Context o Topic Input vocale Conversione A/D & Feature Calculation Ricerca o Classificazione Referenze acustiche Vocabolario (Lexicon) Modello statistico di linguaggio (Language model) Frase riconosciuta Generalizzazione e impoverimento dati acquisiti Elaborazione molto lenta
5
Referenze Acustiche Il modello acustico contiene le informazioni sulla pronuncia dei fonemi. Serve per calcolare la distanza tra i vettori calcolati ed i vettori campione contenuti nel modello. I moderni sistemi di riconoscimento vocale analizzano i fonemi in un contesto destro-sinistro Context o Topic Input vocale Conversione A/D & Feature Calculation Ricerca o Classificazione Referenze acustiche Vocabolario (Lexicon) Modello statistico di linguaggio (Language model) Frase riconosciuta
6
Hidden Markov Models Modello statistico utilizzato per il riconoscimento delle sequenze di fonemi. Calcola la pronuncia di una unità acustica (triphone) oltre a velocità e frequenza. Modello semplice e robusto per il quale esistono potenti algoritmi di ottimizzazione. Context o Topic Input vocale Conversione A/D & Feature Calculation Ricerca o Classificazione Referenze acustiche Vocabolario (Lexicon) Modello statistico di linguaggio (Language model) Frase riconosciuta
7
ConText o Topic Language Model o modello statistico di linguaggio
Lexicon: tutte le parole che devono essere riconosciute con informazioni relative alla loro pronuncia. Context o Topic Input vocale Conversione A/D & Feature Calculation Ricerca o Classificazione Referenze acustiche Vocabolario (Lexicon) Modello statistico di linguaggio (Language model) Frase riconosciuta Language Model o modello statistico di linguaggio CORPUS Referto 1Mil. di parole Articolo “il”, occorrenze: 5% Preposizione “in”, occorrenze: 0,4% Lesioni lacunari ischemiche in corrispondenza di... Lesioni lacunari ischemiche il corrispondenza di...
8
Ricerca o classificazione
Intende trovare la sequenza di parole più probabile, all’interno di tutte le sequenze possibili. Analisi dei singoli fonemi, calcolando la distanza tra i vettori calcolati ed i vettori campione (referenze acustiche) Il Lexicon o vocabolario cerca le parole di senso compiuto tra le combinazioni possibili di fonemi Il Language Model utilizza i risultati per ricercare ipotesi di concatenazione di parole Durante il processo le numerose ipotesi ai vari livelli vengono valutate o ignorate, a seconda che siano ritenute valide o meno, mostrando al termine del processo l’ipotesi più probabile (e le n più probabili tra le alternative). Il tutto in tempo reale. Context o Topic Input vocale Conversione A/D & Feature Calculation Ricerca o Classificazione Referenze acustiche Vocabolario (Lexicon) Modello statistico di linguaggio (Language model) Frase riconosciuta
9
L’efficienza va oltre l’accuratezza
Un futuro in cui le tecnologie più sofisticate saranno controllate da interfacce naturali è già disponibile. Solo combinando ergonomia e tecnologia, è possibile il raggiungimento degli obiettivi che le soluzioni di refertazione vocale si prefiggono: riduzione dei costi e dei tempi con significativo aumento della produttività. Sovraccarico di lavoro per il medico, con la refertazione vocale diretta: 20 sec. max a referto. * La maggior parte del tempo è spesa nelle fasi precedenti alla dettatura dell’esame da refertare. L’ergonomia del sistema incide almeno quanto l’accuratezza. Alte prestazioni ed un'interfaccia ergonomica per una soluzione che si adatti alle proprie abitudini lavorative. (*) Tali valori diminuiscono in funzione dell’esperienza acquisita sul nuovo processo di refertazione.
10
Campi multipli Un futuro in cui le tecnologie più sofisticate saranno controllate da interfacce naturali è già disponibile.
11
Il futuro della refertazione è adesso
I professionisti offriranno un servizio migliore, quanto più i sistemi potranno consentire condivisione di informazioni e libertà di movimento. Le nuove tecnologie consentono questo cambiamento purché supportate da competenza ed esperienza nel settore.
12
Sistema phSyncro/phWare
Remote Site Nodo Remote Site Nodo WorkStations Intranet VPN WorkStations Disaster Recovery Server Database Control Panel WorkStation
13
Potenziali aree di sviluppo
Correzione del rumore. Database di possibili rumori di fondo (campionamento). Dispositivi di dettatura. Diverse aziende, tra cui Microsoft, concordano nell’affermare che utilizzando più microfoni (microphone array) aumentano le possibilità di distinzione tra rumori di fondo e parlato. Controllo del movimento delle corde vocali. Questa teoria in fase di studio presso i laboratori Laurence Livermore utilizza tecnologie radar per identificare il movimento delle corde vocali. Natural language understanding. L’unione del Natural Language Processing (NLP) e riconoscimento vocale in continuo rappresenta un interessante sviluppo per aggiungere valore al processo clinico tramite estrazione automatica di contenuti e dati clinici esatti da una dettatura in testo libero.
14
Un futuro luminoso: oltre il 100% dell’accuratezza?
Non più trascrizione letterale, ma interpretazione del significato. Grammatiche per la formattazione automatica di misure, numeri, date, ecc... Varianti ortografiche Gestione esitazioni Brevi ripetizioni Tosse Punteggiatura automatica Maggiore accuratezza + maggiore capacità di calcolo = maggiore capacità di disambiguazione, e quindi vocabolari più ampi, multidisciplinari.
15
Caveat emptor! “La tecnologia ASR dovrebbe riconoscere qualsiasi parola pronunciata.” - Chi crede che basti pronunciare una qualsiasi parola itaiana e questa verrà trascritta sarà deluso. Valutazione in ambiente reale dai reali utilizzatori. Leggere un referto e dettare un referto sono procedure diverse. Test in presenza di rumori di fondo. Disambiguazione di parole brevi (monosillabe) - The Short Word Phenomenom In generale i sistemi di riconoscimento vocale mostrano le prestazioni più alte nei domini in cui le applicazioni sono state create: se utilizziamo un vocabolario di Corrispondenza Generale per dettare un referto Radiologico, probabilmente i risultati saranno scarsi. Ma non si dimostra nulla.
16
Grazie Marco Biraghi Direttore Generale G.S.T. S.r.l. Via Maccani, 54
38100 TRENTO – Italy Phone Fax Filiale Centro Torri Bianche . Palazzo Quercia Via Torri Bianche, 9 20059 Vimercate (MI) – Italy Phone Marco Biraghi Direttore Generale mobile
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.