La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

SOFTWARE E METODOLOGIE per lanalisi e lannotazione linguistica ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Piero Cosi SEZIONE DI PADOVA - FONETICA.

Presentazioni simili


Presentazione sul tema: "SOFTWARE E METODOLOGIE per lanalisi e lannotazione linguistica ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Piero Cosi SEZIONE DI PADOVA - FONETICA."— Transcript della presentazione:

1 SOFTWARE E METODOLOGIE per lanalisi e lannotazione linguistica ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Piero Cosi SEZIONE DI PADOVA - FONETICA E DIALETTOLOGIA Via G. Anghinoni, Padova (Italy) www: Copyright, 2006 © ISTC-SPFD-CNR

2 Introduzione metodologie hardware e software Descrizione di alcuni sistemi pro & contro Considerazioni finali Introduzione metodologie hardware e software Descrizione di alcuni sistemi pro & contro Considerazioni finali sommario Dimostrazioni Interattive

3 Copyright, 2006 © ISTC-SPFD-CNR Con il termine Annotazione Linguistica" ci si riferisce ad ogni notazione descrittiva o analitica che possa essere applicata a dati linguistici raccolti sotto forma di dati testuali o di dati espressi come funzioni temporali (registrazioni audio, video e/o di dati articolatori o fisiologici). Le notazioni possono includere le trascrizioni di ogni tipo (dalle caratteristiche fonetiche o prosodiche alle strutture della frase, del discorso o del dialogo), part-of-speech e altre specifiche annotazioni, analisi sintattiche, annotazioni incrociate con multi-riferimenti, e così via. Con il termine Annotazione Linguistica" ci si riferisce ad ogni notazione descrittiva o analitica che possa essere applicata a dati linguistici raccolti sotto forma di dati testuali o di dati espressi come funzioni temporali (registrazioni audio, video e/o di dati articolatori o fisiologici). Le notazioni possono includere le trascrizioni di ogni tipo (dalle caratteristiche fonetiche o prosodiche alle strutture della frase, del discorso o del dialogo), part-of-speech e altre specifiche annotazioni, analisi sintattiche, annotazioni incrociate con multi-riferimenti, e così via. Annotazione Linguistica

4 Copyright, 2006 © ISTC-SPFD-CNR Metodologia manuale parole fonemi formanti f0f0 energia toni

5 Copyright, 2006 © ISTC-SPFD-CNR Metodologia automatica trascrizione fonetica # i s t i t u 1 t o # allineamento forzato sistema di riconoscimento automatico # i s t i t u1 t o # segmentazione automatica

6 Copyright, 2006 © ISTC-SPFD-CNR Emu

7 Copyright, 2006 © ISTC-SPFD-CNR Emu EMU è una collezione di strumenti software per la creazione, la manipolazione e lanalisi di database vocali. Il cuore di EMU e rappresentato da un sistema di ricerca nel database che consente di trovare vari segmenti vocali a seconda della loro struttura sequenziale e/o gerarchica allinterno della frase in cui occorrono. EMU include un sistema interattivo per letichettatura su vari livelli (parola, fonemi, toni…) che può visualizzare, oltre alla forma donda, anche spettrogrammi, formanti e andamenti di f0, e consente la creazione di etichette sequenziali e/o gerarchicamente organizzate. EMU è una collezione di strumenti software per la creazione, la manipolazione e lanalisi di database vocali. Il cuore di EMU e rappresentato da un sistema di ricerca nel database che consente di trovare vari segmenti vocali a seconda della loro struttura sequenziale e/o gerarchica allinterno della frase in cui occorrono. EMU include un sistema interattivo per letichettatura su vari livelli (parola, fonemi, toni…) che può visualizzare, oltre alla forma donda, anche spettrogrammi, formanti e andamenti di f0, e consente la creazione di etichette sequenziali e/o gerarchicamente organizzate. Emu - SourceForge free service to Open Source Steve Cassidy SHLRC Speech Hearing and Language Research Centre, Macquarie University, Sydney, Australia

8 Copyright, 2006 © ISTC-SPFD-CNR WaveSurfer

9 Copyright, 2006 © ISTC-SPFD-CNR WaveSurfer è uno strumento Open Source per la visualizzazione e la manipolazione del segnale. E adatto a qualsiasi tipo di utenti specializzati o meno, infatti, ha uninterfaccia semplicissima e funzionale Può essere usato in modalità stand-alone ma può anche essere integrato in altre applicazioni ed è estendibile medianti opportuni plug-ins. Consente letichettatura e la segmentazione su multilivelli WaveSurfer è uno strumento Open Source per la visualizzazione e la manipolazione del segnale. E adatto a qualsiasi tipo di utenti specializzati o meno, infatti, ha uninterfaccia semplicissima e funzionale Può essere usato in modalità stand-alone ma può anche essere integrato in altre applicazioni ed è estendibile medianti opportuni plug-ins. Consente letichettatura e la segmentazione su multilivelli WaveSurfer WaveSurfer: Jonas Beskow Kåre Sjölander Centre for Speech Technology (CTT) at KTH in Stockholm, Sweden WaveSurfer per CLIPS Massimo Petrillo Francesco Cutugno CIRASS

10 Copyright, 2006 © ISTC-SPFD-CNR Aneto

11 Copyright, 2006 © ISTC-SPFD-CNR Aneto è uno strumento per lanalisi prosodica oltre che per la visualizzazione e la manipolazione del segnale E adatto a qualsiasi tipo di utenti specializzati o meno Si puo modificare il contorno stilizzato di f0 e risintetizzare il segnale con la nuova prosodia Consente letichettatura e la segmentazione Aneto funziona su Windows 9x e NT ed è disponibile liberamente a scopi di ricerca e su licenza per scopi commerciali Aneto è uno strumento per lanalisi prosodica oltre che per la visualizzazione e la manipolazione del segnale E adatto a qualsiasi tipo di utenti specializzati o meno Si puo modificare il contorno stilizzato di f0 e risintetizzare il segnale con la nuova prosodia Consente letichettatura e la segmentazione Aneto funziona su Windows 9x e NT ed è disponibile liberamente a scopi di ricerca e su licenza per scopi commerciali Aneto Aneto: Miquel Febrer, Albert Febrer, Antonio Bonafonte e Ignasi Esquerra Department of Signal Theory and Communications Universitat Politècnica de Catalunya Signal Processing Group

12 Copyright, 2006 © ISTC-SPFD-CNR SFSWin &WASP

13 Copyright, 2006 © ISTC-SPFD-CNR SFSWin SFSWin (WASP) è simile a WaveSurfer, con la differenza che può essere usato solo in modalità stand-alone, anche se cè la possibilità di utilizzare degli script per automatizzare le procedure. Consente letichettatura e la segmentazione su multilivelli SFSWin (WASP) è simile a WaveSurfer, con la differenza che può essere usato solo in modalità stand-alone, anche se cè la possibilità di utilizzare degli script per automatizzare le procedure. Consente letichettatura e la segmentazione su multilivelli SFSWin: Mark Huckvale University College London:

14 Copyright, 2006 © ISTC-SPFD-CNR SpeechAnalyzer

15 Copyright, 2006 © ISTC-SPFD-CNR SpeechAnalyzer SpeechAnalyzer è simile a WaveSurfer, con la differenza che può essere usato solo in modalità stand-alone. E possibile utilizzarlo assieme a Speech Manager, un programma per la gestione di database vocali, specificatamente progettato per consentire ai linguisti lanalisi di più linguaggi parlati. Consente letichettatura (anche IPA da tastiera ) e la segmentazione su più livelli SpeechAnalyzer è simile a WaveSurfer, con la differenza che può essere usato solo in modalità stand-alone. E possibile utilizzarlo assieme a Speech Manager, un programma per la gestione di database vocali, specificatamente progettato per consentire ai linguisti lanalisi di più linguaggi parlati. Consente letichettatura (anche IPA da tastiera ) e la segmentazione su più livelli SpeechAnalyzer: SIL International (Summer Institute of Linguistics):

16 Copyright, 2006 © ISTC-SPFD-CNR SpeechViewer

17 Copyright, 2006 © ISTC-SPFD-CNR SpeechViewer SpeechViewer è uno strumento Open Source integrato nel software Cslu Speech Toolkit (http://www.cse.ogi.edu/CSLU/toolkit/supported.html ) per la visualizzazione e la manipolazione del segnale. Come WaveSurfer è adatto a qualsiasi tipo di utenti specializzati o meno, infatti, ha uninterfaccia semplicissima e funzionale E disponibile il sorgente, quindi, oltre a poter essere usato in modalità stand-alone può anche essere integrato in altre applicazioni. Consente letichettatura e la segmentazione su multilivelli SpeechViewer è uno strumento Open Source integrato nel software Cslu Speech Toolkit (http://www.cse.ogi.edu/CSLU/toolkit/supported.html ) per la visualizzazione e la manipolazione del segnale. Come WaveSurfer è adatto a qualsiasi tipo di utenti specializzati o meno, infatti, ha uninterfaccia semplicissima e funzionale E disponibile il sorgente, quindi, oltre a poter essere usato in modalità stand-alone può anche essere integrato in altre applicazioni. Consente letichettatura e la segmentazione su multilivelli SpeechViewer, Cslu Speech Toolkit: Centre for Spoken Language OGI, Portland OR, USA

18 Copyright, 2006 © ISTC-SPFD-CNR Praat

19 Copyright, 2006 © ISTC-SPFD-CNR Praat PRAAT è un potentissimo strumento per lanalisi, la sintesi, la visualizzazione e la manipolazione del segnale. E ottimo soprattutto per lanalisi e la sintesi del segnale, ma è principalmente adatto ad utenti specializzati, infatti, linterfaccia non è semplicissima. È disponibile il sorgente, quindi può esserepersonalizzato e si possono inoltre creare utilissimi script di lavoro per automatizzare le procedure di analisi Consente letichettatura e la segmentazione su più livelli PRAAT è un potentissimo strumento per lanalisi, la sintesi, la visualizzazione e la manipolazione del segnale. E ottimo soprattutto per lanalisi e la sintesi del segnale, ma è principalmente adatto ad utenti specializzati, infatti, linterfaccia non è semplicissima. È disponibile il sorgente, quindi può esserepersonalizzato e si possono inoltre creare utilissimi script di lavoro per automatizzare le procedure di analisi Consente letichettatura e la segmentazione su più livelli PRAAT: Paul Boersma Institute of Phonetic Sciences of the University of Amsterdam:

20 Copyright, 2006 © ISTC-SPFD-CNR SegWin

21 Copyright, 2006 © ISTC-SPFD-CNR SegWin SegWin è uno software di ausilio alla costruzione della base di dati ed alla segmentazione del corpus AVIP La sequenza di etichettatura è particolarmente rigida essendo le dipendenze dei livelli di etichettatura automaticamente determinate Consente letichettatura e la segmentazione su multilivelli PHN: fonetico stretto, PHB: fonetico largo o fonologico della varietà, WRD: ortografico, PHM: citation form (conversione automatica grafema-fonema), TON: intonativo Attualmente è specifico al corpus AVIP ma è adattabile anche ad altre basi di dati SegWin è uno software di ausilio alla costruzione della base di dati ed alla segmentazione del corpus AVIP La sequenza di etichettatura è particolarmente rigida essendo le dipendenze dei livelli di etichettatura automaticamente determinate Consente letichettatura e la segmentazione su multilivelli PHN: fonetico stretto, PHB: fonetico largo o fonologico della varietà, WRD: ortografico, PHM: citation form (conversione automatica grafema-fonema), TON: intonativo Attualmente è specifico al corpus AVIP ma è adattabile anche ad altre basi di dati SegWin M. Refice M. Savino, M. Altieri, R. Altieri e A. Enriquez - DEE - Politecnico di Bari

22 Copyright, 2006 © ISTC-SPFD-CNR Transcriber

23 Copyright, 2006 © ISTC-SPFD-CNR Transcriber è uno strumento distribuito come free software, su licenza GNU General Public License, che consente la creazione, lorganizzazione ed il mantenimento di corpora vocali. Transcriber è uno strumento rivolto principalmente alla trascrizione di registrazioni di lunga durata, come quelle, ad esempio, relative alle notizie radio televisive. Consente letichettatura di parlanti diversi e lindicazione degli argomenti del dialogo. E stato progettato per essere il più semplice possibile ed è facilmente configurabile dallutente. Transcriber è sviluppato in Tcl/Tk con estensioni in C++ e si basa sul software Snack/WaveSurfer (KTH) Transcriber è uno strumento distribuito come free software, su licenza GNU General Public License, che consente la creazione, lorganizzazione ed il mantenimento di corpora vocali. Transcriber è uno strumento rivolto principalmente alla trascrizione di registrazioni di lunga durata, come quelle, ad esempio, relative alle notizie radio televisive. Consente letichettatura di parlanti diversi e lindicazione degli argomenti del dialogo. E stato progettato per essere il più semplice possibile ed è facilmente configurabile dallutente. Transcriber è sviluppato in Tcl/Tk con estensioni in C++ e si basa sul software Snack/WaveSurfer (KTH) Transcriber Transcriber - Copyright (C) , DGA Mathieu Manta, Fabien Antoine, Sylvain Galliano, DGA/CEP/GIP Claude Barras, CNRS/LIMSI

24 Copyright, 2006 © ISTC-SPFD-CNR MultiSpeech

25 Copyright, 2006 © ISTC-SPFD-CNR MultiSpeech Multi-Speech (Model 3700), è un programma di analisi del segnale low-cost per Windows®. Utilizza gli hardware multimediali standard (Sound Blaster) per acquisire, analizzare e riprodurre il segnale. Validissimo per lanalisi non altrettanto per letichettatura e la segmentazione Multi-Speech (Model 3700), è un programma di analisi del segnale low-cost per Windows®. Utilizza gli hardware multimediali standard (Sound Blaster) per acquisire, analizzare e riprodurre il segnale. Validissimo per lanalisi non altrettanto per letichettatura e la segmentazione Kay Elemetrics

26 Copyright, 2006 © ISTC-SPFD-CNR Scicon: Pc/MacQuirer,PitchWorks

27 Copyright, 2006 © ISTC-SPFD-CNR Scicon: Pc/MacQuirer,PitchWorks Programmi di analisi (Pc/MacQuirer) ed etichettatura (PitchWorks) del segnale low-cost per Windows®. Utilizza gli hardware multimediali standard (Sound Blaster) per acquisire, analizzare e riprodurre il segnale. Utilizza le ultime convenzioni in fatto di etichettatura su multilivelli, soprattutto per quanto riguarda lintonazione (TOBI) e dispone di unottimo algoritmo per lestrazione di f0 Programmi di analisi (Pc/MacQuirer) ed etichettatura (PitchWorks) del segnale low-cost per Windows®. Utilizza gli hardware multimediali standard (Sound Blaster) per acquisire, analizzare e riprodurre il segnale. Utilizza le ultime convenzioni in fatto di etichettatura su multilivelli, soprattutto per quanto riguarda lintonazione (TOBI) e dispone di unottimo algoritmo per lestrazione di f0 Scicon

28 Copyright, 2006 © ISTC-SPFD-CNR ANVIL: Annotation of Video and Language Data

29 Copyright, 2006 © ISTC-SPFD-CNR ANVIL: ANnotation of VIdeo and Language data Anvil è uno strumento per lannotazione di dati audio/video. Anvil consente unannotazione gerarchica multi-livello con oggetti definibili dallutente e, di conseguenza, di natura arbitraria. La visualizzazione sincronizzata delle immagini video con le annotazioni rendono la codifica assai intuitiva. Sono consentiti legami fra livelli ed è stato realizzato un project manager di ausilio alle procedure di ricerca. Anvil è scritto in Java e utilizza il linguaggio XML per la memorizazione dei dati. Anvil è uno strumento per lannotazione di dati audio/video. Anvil consente unannotazione gerarchica multi-livello con oggetti definibili dallutente e, di conseguenza, di natura arbitraria. La visualizzazione sincronizzata delle immagini video con le annotazioni rendono la codifica assai intuitiva. Sono consentiti legami fra livelli ed è stato realizzato un project manager di ausilio alle procedure di ricerca. Anvil è scritto in Java e utilizza il linguaggio XML per la memorizazione dei dati. Anvil: Michael Oliver Kipp German Research Center for Artificial Intelligence GmbH DFKI GmbH, Stuhlsatzenhausweg 3, D Saarbrücken Phone: +49 (0) , Fax: +49 (0) ,

30 Copyright, 2006 © ISTC-SPFD-CNR sono ormai disponibili molti buoni sistemi per lannotazione linguistica vi sono, per ognuno, pro e contro visto che, non sempre rispondono a tutte le esigenze, sono da preferirsi sistemi aperti, (basati su Tcl/tk, Java, ecc.) per consentire una facile interazione qualora sia necessaria una qualche modifica scelte IFD (…………..da prendersi con le pinze!) EMU (etichettatura) o allineamento automatico (mediante ASR allenato su APASCI) PRAAT (analisi) buona annotazione! sono ormai disponibili molti buoni sistemi per lannotazione linguistica vi sono, per ognuno, pro e contro visto che, non sempre rispondono a tutte le esigenze, sono da preferirsi sistemi aperti, (basati su Tcl/tk, Java, ecc.) per consentire una facile interazione qualora sia necessaria una qualche modifica scelte IFD (…………..da prendersi con le pinze!) EMU (etichettatura) o allineamento automatico (mediante ASR allenato su APASCI) PRAAT (analisi) buona annotazione! considerazioni finali

31 Copyright, 2006 © ISTC-SPFD-CNR WWW Annotazione Linguistica (Steven Bird, Mark Liberman, LDC) versione italiana (P. Cosi) zione-linguistica.htm WWW Annotazione Linguistica (Steven Bird, Mark Liberman, LDC) versione italiana (P. Cosi) zione-linguistica.htm


Scaricare ppt "SOFTWARE E METODOLOGIE per lanalisi e lannotazione linguistica ISTITUTO DI SCIENZE E TECNOLOGIE DELLA COGNIZIONE Piero Cosi SEZIONE DI PADOVA - FONETICA."

Presentazioni simili


Annunci Google