La refertazione vocale assistita al computer: quali sviluppi Cortina d’Ampezzo – Venerdì 25 maggio, 2007
La tecnologia ASR Concettualmente semplice da comprendere ed utilizzare: un software di riconoscimento vocale riconosce ciò che già conosce, tramite un’operazione di confronto tra ciò che ascolta e quanto aveva già ascoltato. È altrettanto complesso e sofisticato per produrre risultati eccellenti in tempo reale Gestisce un alto grado di variabilità del segnale audio “speech” Si basa sul confronto di entità analogiche da parte di strumenti digitali
Architettura di un motore ASR Context o Topic Input vocale Conversione A/D & Feature Calculation Ricerca o Classificazione Referenze acustiche Vocabolario (Lexicon) Modello statistico di linguaggio (Language model) Frase riconosciuta
Feature calculation L’alta variabilità del segnale audio costringerebbe all’utilizzo di un numero di variabili enorme: Si utilizza una procedura di semplificazione e combinazione delle variabili, pur descrivendo i dati con una accuratezza sufficiente. Context o Topic Input vocale Conversione A/D & Feature Calculation Ricerca o Classificazione Referenze acustiche Vocabolario (Lexicon) Modello statistico di linguaggio (Language model) Frase riconosciuta Generalizzazione e impoverimento dati acquisiti Elaborazione molto lenta
Referenze Acustiche Il modello acustico contiene le informazioni sulla pronuncia dei fonemi. Serve per calcolare la distanza tra i vettori calcolati ed i vettori campione contenuti nel modello. I moderni sistemi di riconoscimento vocale analizzano i fonemi in un contesto destro-sinistro Context o Topic Input vocale Conversione A/D & Feature Calculation Ricerca o Classificazione Referenze acustiche Vocabolario (Lexicon) Modello statistico di linguaggio (Language model) Frase riconosciuta
Hidden Markov Models Modello statistico utilizzato per il riconoscimento delle sequenze di fonemi. Calcola la pronuncia di una unità acustica (triphone) oltre a velocità e frequenza. Modello semplice e robusto per il quale esistono potenti algoritmi di ottimizzazione. Context o Topic Input vocale Conversione A/D & Feature Calculation Ricerca o Classificazione Referenze acustiche Vocabolario (Lexicon) Modello statistico di linguaggio (Language model) Frase riconosciuta
ConText o Topic Language Model o modello statistico di linguaggio Lexicon: tutte le parole che devono essere riconosciute con informazioni relative alla loro pronuncia. Context o Topic Input vocale Conversione A/D & Feature Calculation Ricerca o Classificazione Referenze acustiche Vocabolario (Lexicon) Modello statistico di linguaggio (Language model) Frase riconosciuta Language Model o modello statistico di linguaggio CORPUS Referto 1Mil. di parole Articolo “il”, 50.000 occorrenze: 5% Preposizione “in”, 4.000 occorrenze: 0,4% Lesioni lacunari ischemiche in corrispondenza di... Lesioni lacunari ischemiche il corrispondenza di...
Ricerca o classificazione Intende trovare la sequenza di parole più probabile, all’interno di tutte le sequenze possibili. Analisi dei singoli fonemi, calcolando la distanza tra i vettori calcolati ed i vettori campione (referenze acustiche) Il Lexicon o vocabolario cerca le parole di senso compiuto tra le combinazioni possibili di fonemi Il Language Model utilizza i risultati per ricercare ipotesi di concatenazione di parole Durante il processo le numerose ipotesi ai vari livelli vengono valutate o ignorate, a seconda che siano ritenute valide o meno, mostrando al termine del processo l’ipotesi più probabile (e le n più probabili tra le alternative). Il tutto in tempo reale. Context o Topic Input vocale Conversione A/D & Feature Calculation Ricerca o Classificazione Referenze acustiche Vocabolario (Lexicon) Modello statistico di linguaggio (Language model) Frase riconosciuta
L’efficienza va oltre l’accuratezza Un futuro in cui le tecnologie più sofisticate saranno controllate da interfacce naturali è già disponibile. Solo combinando ergonomia e tecnologia, è possibile il raggiungimento degli obiettivi che le soluzioni di refertazione vocale si prefiggono: riduzione dei costi e dei tempi con significativo aumento della produttività. Sovraccarico di lavoro per il medico, con la refertazione vocale diretta: 20 sec. max a referto. * La maggior parte del tempo è spesa nelle fasi precedenti alla dettatura dell’esame da refertare. L’ergonomia del sistema incide almeno quanto l’accuratezza. Alte prestazioni ed un'interfaccia ergonomica per una soluzione che si adatti alle proprie abitudini lavorative. (*) Tali valori diminuiscono in funzione dell’esperienza acquisita sul nuovo processo di refertazione.
Campi multipli Un futuro in cui le tecnologie più sofisticate saranno controllate da interfacce naturali è già disponibile.
Il futuro della refertazione è adesso I professionisti offriranno un servizio migliore, quanto più i sistemi potranno consentire condivisione di informazioni e libertà di movimento. Le nuove tecnologie consentono questo cambiamento purché supportate da competenza ed esperienza nel settore.
Sistema phSyncro/phWare Remote Site Nodo Remote Site Nodo WorkStations Intranet VPN WorkStations Disaster Recovery Server Database Control Panel WorkStation
Potenziali aree di sviluppo Correzione del rumore. Database di possibili rumori di fondo (campionamento). Dispositivi di dettatura. Diverse aziende, tra cui Microsoft, concordano nell’affermare che utilizzando più microfoni (microphone array) aumentano le possibilità di distinzione tra rumori di fondo e parlato. Controllo del movimento delle corde vocali. Questa teoria in fase di studio presso i laboratori Laurence Livermore utilizza tecnologie radar per identificare il movimento delle corde vocali. Natural language understanding. L’unione del Natural Language Processing (NLP) e riconoscimento vocale in continuo rappresenta un interessante sviluppo per aggiungere valore al processo clinico tramite estrazione automatica di contenuti e dati clinici esatti da una dettatura in testo libero.
Un futuro luminoso: oltre il 100% dell’accuratezza? Non più trascrizione letterale, ma interpretazione del significato. Grammatiche per la formattazione automatica di misure, numeri, date, ecc... Varianti ortografiche Gestione esitazioni Brevi ripetizioni Tosse Punteggiatura automatica Maggiore accuratezza + maggiore capacità di calcolo = maggiore capacità di disambiguazione, e quindi vocabolari più ampi, multidisciplinari.
Caveat emptor! “La tecnologia ASR dovrebbe riconoscere qualsiasi parola pronunciata.” - Chi crede che basti pronunciare una qualsiasi parola itaiana e questa verrà trascritta sarà deluso. Valutazione in ambiente reale dai reali utilizzatori. Leggere un referto e dettare un referto sono procedure diverse. Test in presenza di rumori di fondo. Disambiguazione di parole brevi (monosillabe) - The Short Word Phenomenom In generale i sistemi di riconoscimento vocale mostrano le prestazioni più alte nei domini in cui le applicazioni sono state create: se utilizziamo un vocabolario di Corrispondenza Generale per dettare un referto Radiologico, probabilmente i risultati saranno scarsi. Ma non si dimostra nulla.
Grazie Marco Biraghi Direttore Generale G.S.T. S.r.l. Via Maccani, 54 38100 TRENTO – Italy Phone +39 0461 431333 Fax +39 0461 431334 Filiale Centro Torri Bianche . Palazzo Quercia Via Torri Bianche, 9 20059 Vimercate (MI) – Italy Phone +39 039 608 4252 http://www.gsttn.it Marco Biraghi Direttore Generale mobile +39 335 7272911 e-mail: mbiraghi@gsttn.it