La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Corpora e strumenti d’analisi non prodotti in Dipartimento

Presentazioni simili


Presentazione sul tema: "Corpora e strumenti d’analisi non prodotti in Dipartimento"— Transcript della presentazione:

1 Corpora e strumenti d’analisi non prodotti in Dipartimento

2 Corpora a cui si ha accesso
Italiano Inglese Inglese antico e medio Tedesco Provenzale Spagnolo

3 Strumenti d’analisi Programmi di concordanze
- MonoConc versione 1.0 (Lombardi Vallauri) - DBT Programmi di gestione del suono e analisi acustica - Goldwave - Winpitch (Mereu) - Wavesurfer

4 Corpora di italiano Archivio API (Frascarelli)
Corpus Coris (Nuccorini) Corpus Lablita

5 Corpora di inglese contemporaneo
The Bank of English (Nuccorini) The British National Corpus (Nuccorini) The International Corpus of English (Nuccorini)

6 Corpora di inglese antico e medio
The Helsinki Corpus of English Texts: Diachronic and Dialectal (Hart)

7 Corpora di tedesco Corpus Koesters
Kiel Corpus of Read and Spontaneous Speech

8 Corpora di spagnolo Corpus oral de referencia del español contemporáneo

9 Corpora di provenzale Trobadors (Giannetti)

10 L’Archivio API L’Archivio di Parlato Italiano) è il prodotto di un progetto cofinanziato iniziato nel 1999 e conclusosi nel 2001, coordinato da Federico Albano Leoni dell’Università di Napoli. L’API è costituito da un corpus di italiano parlato, l’AVIP (Archivio delle Varietà di Italiano Parlato) analizzato da strumenti software per l'etichettatura fonetica, morfosintattica e pragmatico-testuale. Il corpus AVIP è costituito da testi di parlato semi-spontaneo raccolto attraverso la tecnica del Map Task e di italiano parlato elicitato mediante immagini in bambini udenti e sordi, per un totale di 3,5 ore. I dati sono stati raccolti a Pisa, Napoli e Bari. Le trascrizioni e le annotazioni, nonché le registrazioni delle sessioni di elicitazione sono raccolte in un DVD di cui il dipartimento ha diverse copie. Per altre informazioni e per accedere all’API ci si può rivolgere alla dottoressa Paola Pietrandrea.

11 Il Corpus Coris Il CORpus di Italiano Scritto (CORIS), nato da un progetto dell’Università di Bologna coordinato a partire dal 1998 da Rema Rossini Favretti, è un corpus generale di italiano scritto che contiene 100 milioni di parole ed è aggiornato tramite un corpus di monitoraggio inglobato con cadenza biennale. E' costituito da una raccolta di testi, autentici e ricorrenti nell'uso, in formato elettronico, selezionati come rappresentativi dell'italiano attuale. Il corpus include testi tratti dalla nazionale e locale, specialistica e non specialistica, testi di narrativa italiana o tradotta in italiano, per adulti, per ragazzi, testi di prosa accademica, di prosa giuridico-amministrativa, miscellanea e ephemera. Il corpus è accessibile su Internet e interrogabile attraverso un programma di concordanze. Il dipartimento dispone di diverse password di accesso al corpus. Per altre informazioni e per accedere al corpus ci si può rivolgere alla professoressa Stefania Nuccorini.

12 Il Corpus LABLITA Il LABoratorio Linguistico del Dipartimento di ITAlianistica dell’Università di Firenze diretto da Emanuela Cresti, raccoglie dal 1973 corpora di italiano parlato da adulti e da bambini e corpora di italiano trasmesso. In particolare ha: - 5 corpora di monologhi, dialoghi e conversazioni tra adulti con presa di turno libera o regolata per un totale di 62 ore di registrazione e 130 testi di lunghezza variabile dalle 2 ore ai 5 minuti; - 3 corpora di dialoghi tra adulti e bambini di età compresa tra i 12 e i 36 mesi, per un totale di circa 95 ore di registrazione e 293 testi; - 2 corpora di parlato trasmesso, uno dei quali costituito dalla trascrizione integrale di 12 film per un totale di 21 ore e l’altro dal costituito dal campionamento di 20 ore di lingua radiofonica e televisiva.

13 Il Corpus LABLITA I corpora di LABLITA sono consultabili presso il laboratorio dietro accettazione di condizioni esplicite relative alle modalità di citazione e di utilizzo all'interno di programmi di ricerca formalizzati. Il dipartimento dispone, però di un accesso diretto ad una selezione dei corpora LABLITA, quella pubblicata nel libro “Corpus di Italiano Parlato” di Emanuela Cresti, Accademia della Crusca, Firenze, Si tratta di un’antologia di monologhi, dialoghi e conversazioni, raccolte per lo più a Firenze, per un totale di 7 ore, 11 minuti e 54 secondi. Il corpus è disponibile nella trascrizione in un formato CHAT implementato per la rappresentazione dell’articolazione dell’informazione. Di alcuni testi è disponibile anche la registrazione audio su CD-ROM. Per altre informazioni e per accedere al corpus ci si può rivolgere alla dottoressa Paola Pietrandrea.

14 The Bank of English E’ un corpus di inglese contemporaneo scritto e parlato. Conta ad oggi circa 450 milioni di parole, ma è continuamente aggiornato ed ampliato. Il progetto è stato lanciato nel 1991 da COBUILD (una divisione di Harper Collins Publishers) e dalla University of Birmingham. Ed è diretto da John Sinclair della University of Birmingham e Fred Karlsson dell’università di Helsinki. I testi scritti sono tratti da giornali, riviste, libri di narrativa o saggistica, brochures, volantini, relazioni, lettere, ecc. I testi parlati sono rappresentati da trascrizioni di conversazioni spontanee, trasmissioni radiofoniche, riunioni, interviste, discussioni, ecc. La gran parte dei testi sono stati raccolti dopo il Il corpus è etichettato a livello morfologico e sintattico. E’ possibile accedere all’intero corpus solo a Birmingham, esiste però una versione on-line ridotta e non etichettata che conta 52 milioni di parole a cui il dipartimento ha accesso. E’ possibile interrogare ciascuno dei 12 sottocorpora che formano la versione ridotta, selezionare varietà diverse di lingua, ottenere stringhe con circa 5 o 6 righe di contesto. Per altre informazioni e per accedere al corpus ci si può rivolgere alla professoressa Stefania Nuccorini.

15 The British National Corpus
E’ un corpus di inglese contemporaneo scritto e parlato. Conta parole. Creato da un consorzio tra Oxford University Press, Addison-Wesley Longman, Larousse Kingfisher Chambers e i centri di ricerca Oxford University Computing Services, Centre for Computer Research on the English Language della Lancaster University e il Research and Innovation Centre della British Library, il corpus è stato completato nel 1994 e pubblicato nel Scopo del corpus è rappresentare il maggior numero possibile di varietà dell’inglese contemporaneo. La parte scritta (90%) include, fra gli altri, estratti di giornali regionali e nazionali, periodici specialistici per ogni età ed interesse, libri accademici, lettere pubblicate e non pubblicate, note, saggi scolastici ed universitari.

16 The British National Corpus
La parte parlata (10%) include conversazioni spontanee tra parlanti di diverse età e classi sociali, accanto a produzioni parlate raccolte in contesti che vanno da incontri politici o di affari, a trasmissioni radiofoniche e conversazioni telefoniche. I 4124 testi da cui è composto sono etichettati per classe di parola. E’ integrato con il sofisticato software di ricerca SARA. Il dipartimento dispone di una copia in CD da utilizzarsi su piattaforma Linux. E’ inoltre disponibile la guida di G. Aston e L. Burnard, The BNC Handbook. Exploring the British National Corpus with SARA, Edinburgh Textbooks in Empirical Linguistics, Cambridge Per altre informazioni e per accedere al corpus ci si può rivolgere alla professoressa Stefania Nuccorini.

17 The International Corpus of English
The International Corpus of English nasce nel 1990 da un progetto coordinato da Gerard Nelson dell’University College di Londra che, sviluppando il precedente Survey of English Usage, si prefigge confrontare le varietà di inglese scritte e parlate in 15 diversi paesi. Sono per ora disponibili su CD i corpora raccolti in India, Filippine, Singapore, Kenya e Tanzania, Gran Bretagna, Nuova Zelanda. Ciascuna componente raccoglie 500 testi di circa 2000 parole, per un totale di circa di parole. Autori e parlanti dei testi hanno dai 18 anni in su, sono uomini e donne che hanno ricevuto la loro istruzione scolastica in lingua inglese. I corpora di parlato includono dialoghi e monologhi di vario registro (conversazioni private telefoniche o prodotte in contesti faccia a faccia , dibattiti pubblici, trasmissioni televisive, incontri d’affari, ecc. ). I corpora di scritto includono testi di prosa accademica, divulgativa, giornalistica, narrativa, opuscoli di istruzioni e testi non pubblicati come saggi di studenti, lettere, ecc. I corpora di lingua parlata sono trascritti ortograficamente con annotazioni che indicano pause, sovrapposizioni, esitazioni, false partenze e turni I testi sono etichettati a livello morfologico e sintattico.Il dipartimento dispone di copia del British Component su CD. Per altre informazioni e per accedere al corpus ci si può rivolgere alla professoressa Stefania Nuccorini.

18 The Helsinki Corpus of English Texts
E’ un corpus nato da un progetto avviato nel 1984 e diretto da Matti Rissanen e Ossi Ihalainen dell’università di Helsinki, che raccoglie varietà diacroniche e dialettali della lingua inglese. La parte diacronica è composta da testi scritti dal 750 al La parte dialettale è composta da trascrizioni di interviste con parlanti di dialetti britannici rurali raccolte a partire dagli anni 70. La lunghezza dei testi raccolti nella parte diacronica varia tra le 2000 e le parole, per un totale di parole. Il numero di testi è bilanciato per provenienza regionale, registro, caratteristiche sociolinguistiche. La parte dialettale conta parole e comprende interviste raccolte nell’East-Anglia, nel South-West, nello Yokshire e nella regione iralndese del Clare. Il dipartimento dispone di copia della parte diacronica su CD. Per altre informazioni e per accedere al corpus ci si può rivolgere al professor David Hart.

19 Il Corpus Koesters Il corpus è stato raccolto nel 1996 da Sabine Koesters per la sua tesi di dottorato “La morfologia flessionale nel substandard tedesco: forma e funzione. Analisi di un corpus parlato” discussa presso l’Università Roma Tre nel 1997, relatore il professor Raffaele Simone e rielaborata nella monografia “Die Flexionsmorphologie im gesprochenen deutschen Substandard” pubblicata da Gunter Narr Verlag nel 2004. E’ costituito da 4 ore di parlato per un totale di parole grafiche. Obiettivo del corpus è rappresentare una varietà substandard di tedesco prodotto in condizioni quanto più possibile naturali. Per questo sono stati registrati dialoghi tra l’osservatrice e 5 donne e 3 uomini di età compresa tra 28 e i 35 anni, con una bassa scolarizzazione. I dialoghi hanno tutti carattere autobiografico, sono stati registrati solo dopo che si era creata una certa familiarità tra l’osservatrice e i parlanti, ai quali è stato comunque taciuto l’interesse linguistico della ricerca. I rari interventi dell’osservatrice danno un carattere monologico alle produzioni. Il corpus è composto dalle trascrizioni fonetiche delle registrazioni. Per altre informazioni e per accedere al corpus ci si può rivolgere alla dottoressa Paola Pietrandrea.

20 The Kiel Corpus of Read and Spontaneous Speech
Il Kiel Corpus è costituito da campioni di tedesco letto e spontaneo raccolti a partire dal 1990 presso l’Institut für Phonetik und digitale Sprachverarbeitung dell’Univeristà di Kiel. Il corpus di lingua letta è costituito dalla lettura di 500 frasi (per un totale di 5000 parole grafiche) da parte di 27 uomini e 26 donne. Le registrazioni sono campionate a una frequenza di 16 Hz e ad una risoluzione di 16 bit. I testi sono trascritti con una trascrizione ortografica, una trascrizione fonemica canonica ed etichettati per caratteristiche di produzione fonetica. Il corpus di lingua spontanea è costituito da 31 dialoghi spontanei ed elicitati prodotti da 26 parlanti, articolati in complessivi521 turni per circa 9300 parole grafiche. Le registrazioni sono campionate a una frequenza di 16 Hz e ad una risoluzione di 16 bit. I testi sono trascritti con una trascrizione ortografica, una trascrizione fonemica canonica ed etichettati per caratteristiche di produzione fonetica. Per altre informazioni e per accedere al corpus ci si può rivolgere alla dottoressa Paola Pietrandrea.

21 Corpus oral de referencia del español contemporáneo
Il corpus è stato raccolto tra il 1991 e 1992 presso l’Università Autonoma di Madrid, sotto la direzione di Francisco Marcos Marín grazie ad un contributo di IBM España. E’ costituito da produzioni orali di vario genere: dalle conversazioni familiari, a conversazioni in contesti educativi, a dibattiti pubblici, interviste, fino a monologhi di carattere scientifico, umanistico, politico, religioso, ecc. Raccoglie un totale di parole grafiche. I testi sono classificati per tipologia testuale e caratteristiche del parlante, trascritti ortograficamente ed etichettati per caratteristiche fonetiche della produzione. Per altre informazioni e per accedere al corpus ci si può rivolgere alla dottoressa Paola Pietrandrea.

22 Trobadors (dalla prefazione di Rocco Distilo)
“Trobadors” contiene l'intero corpus della lingua trobadorica così come definito dal «Répertoire mètrique» di Frank. I testi sono desunti dalle edizioni più recenti o maggiormente accreditate e i dati testuali sono stati integrati da una serie di informazioni complementari circa il genere, la cronologia, lo schema metrico e i manoscritti relatori, in modo che i risultati delle ricerche lessicali possono essere incrociati con ogni categoria extra-testuale. Il software di interrogazione, corredato di una guida in linea in italiano, inglese e francese, consente ogni tipo di ricerca lessicale, e dedica particolare attenzione alla individuazione delle co-occorrenze. Il corpus è attualmente interrogabile per forma grafica. L'interrogazione, che è prevista in due modalità, rapida e avanzata, può essere condotta selezionando: - l'intero corpus di testi - i testi appartenenti ad un genere (canso/vers, cobla, descort, lai, partimen, pastorela, planh, sirvantes, tenso) - i testi di un solo autore

23 Trobadors Il programma di ricerca, oltre a fornire i riferimenti topografici essenziali e la frequenza diciascuna forma, consente di visualizzare altri dati complementari concernenti ogni singola occorrenza: - il testo della strofe in cui la forma è compresa, della strofe precedente e di quella seguente - l'incipit e l'explicit del componimento - lo schema metrico (da Frank o dall'edizione di riferimento) - i dati bibliografici dell'edizione di riferimento - le sigle dei manoscritti con la relativa attribuzione (da BdT) Il cd-rom contiene inoltre il collegamento diretto con le maggiori banche dati della lirica europea presenti in Internet. Il dipartimento dispone di copia del CD. Per altre informazioni e per accedere al corpus ci si può rivolgere al dottor Andrea Giannetti.

24 DBT Il DBT, Data Base Testuale, è un software di analisi testuale e di interrogazione "full-text" sviluppato da Eugenio Picchi presso l’Istituto di Linguistica Computazionale del CNR di Pisa. E’ costituito da un componente di interrogazione, il DBT- Corpus, che permette di creare banche dati testuali costituite da insiemi omogenei di testi. Con DBT-corpus è possibile operare sull'intero corpus di testi contemporaneamente anche definendone interattivamente sotto-corpora secondo le esigenze della ricerca da effettuare. Permette di ottenere liste di concordanze, dispone di procedure di supporto alla lemmatizzazione. Per altre informazioni e per l’accesso al programma rivolgersi alla dottoressa Paola Pietrandrea.

25 Goldwave E’ un software che gira su piattaforme Windows utile alla digitalizzazione di segnale audio analogico e alla gestione di file audio. Permette di digitalizzare il segnale proveniente da microfoni, audiocasette o da vinile. Una volta acquisiti, i file possono essere convertiti in uno dei seguenti formati audio: wav, wma, mp3, ogg, aiff, au, vox. I file possono inoltre essere tagliati e campionati alla frequenza e risoluzione volute. Il software permette infine di osservare rapidamente la qualità del segnale audio e l’eventuale utilizzabilità per analisi acustiche. Per informazioni rivolgersi alla dottoressa Paola Pietrandrea.

26 Winpitch E’ un programma di analisi acustica specializzato nell’estrazione della frequenza fondamentale, sviluppato da Philippe Martin. Gira su piattaforme Windows. Permette di condurre analisi spettrografiche e prosodiche in tempo reale, di condurre analisi statistiche dei risultati e di ottenere sintesi dei segnali analizzati. L’installazione di Winpitch è vincolata da una chiave hardware. Di conseguenza il software si può utilizzare solo su 3 postazioni pc del Dipartimento. Per informazioni ci si può rivolgere alla professoressa Lunella Mereu.

27 Wavesurfer E’ un software libero di visualizzazione e manipolazione dei suoni, creato presso il centro per la tecnologia del discorso del KTH di Stoccolma, Svezia. E’ stato creato per adattarsi alle esigenze di utenti più o meno esperti. Permette di condurre analisi spettrografiche e della frequenza fondamentale attraverso un’interfaccia semplice e intuitiva. Può essere impiegato nell’analisi e sintesi dei segnali. Garantisce un versatile strumento di annotazione della curva. Dialoga con applicazioni più avanzate. Può essere liberamente configurato in maniera adattarsi alle esigenze di ricerca dell’utente. Per informazioni su come scaricare e utilizzare il software ci si può rivolgere alla dottoressa Paola Pietrandrea.

28 MonoConc versione 1.0 MonoConc è un software commerciale (© 1995 Michael Barlow) che permette sia di ricercare, unità linguistiche (morfemi, parole o sintagmi) all’interno dei testi di un corpus e di visualizzare poi l’elenco dei contesti di occorrenza di tali unità, sia di condurre analisi della frequenza delle unità ricercate. Supporta testi in formato ascii (solo testo), quindi può essere usato per l’analisi di tutti i corpora raccolti in dipartimento. Per altre informazioni e per accedere al programma ci si può rivolgere al professor Edoardo Lombardi Vallauri.


Scaricare ppt "Corpora e strumenti d’analisi non prodotti in Dipartimento"

Presentazioni simili


Annunci Google