Linguistic corpus / corpus linguistico

Slides:



Advertisements
Presentazioni simili
LA MISURA IN PSICOLOGIA. Scopo del corso Il corso si propone di offrire allo studente:  un’introduzione alle tematiche connesse alla misura in psicologia.
Advertisements

Scienza Politica a.a Marco Di Giulio. Informazioni (I) Orario delle lezioni Lunedì 9-10 e Mercoledì 8-11 Contatti
CORSO DI SOCIOLOGIA GENERALE Cos’è la Sociologia Marco Ingrosso.
INTERVENTO Educativo-riabilitativo-di crescita. Essere una persona con autismo significa avere, tra gli altri, problemi di comunicazione, e questi problemi.
Sociologia dei Consumi Prof.ssa Maura Franchi AA Le abitudini: come euristiche Come possono essere utilizzate per l’analisi del consumatore?
L’indice d’uso nei corpora linguistici Salvatore De Masi
Stima della qualità dei classificatori per l’ analisi dei dati biomolecolari Giorgio Valentini
Economia agroalimentare
I diversi tipi di validità delle indagini empiriche
Vegetable garden in a wooden box
Pensiero Computazionale
Linguistica computazionale, treebank e altre risorse
LETTERATURA ARABA: UN’INTRODUZIONE
Lingua comunitaria lesson 8
The English Language Centre 20/07/ /07/2015 Brighton
PIANO DI FORMAZIONE POSEIDON
Valutazione del servizio scolastico Caratteristiche dell'informazione
La ricerca in campo educativo. Problemi e metodi
Oggi è venerdì il diciotto ottobre 2013
Attivita’ gruppo GE sul top
Supporto statistico online
JetWalk: Agenda e review committee
Studente/i Relatore Correlatore Committente Aris Piatti
Cos’è la comunicazione?
Frequenza di fallimento della terapia di prima linea basata su INI vs
Linguistica e treebank
Standard e Formati di Documento Aperti
Conoscenze, abilità, competenze
Evoluzione degli sportelli: la centralizzazione
X. Specifications (IV).
Margarita Borreguero Zuloaga Annamaria Cacchione
QUALI CONCETTI PER UNA TEORIA DELLA COMUNICAZIONE?
INTERVENTO EDUCATIVO SUL COMPORTAMENTO PROBLEMA - 1
giovedì, 12 ottobre matrimonio o convivenza?
Gestione Informatica dei Dati Aziendali Sistemi Informativi Gestionali
Corpora Giuseppe Palumbo
IL TESTO ESPOSITIVO - INFORMATIVO
Che cos’e’ l’Informatica
LA PSICOLOGIA DEL MARKETING Strategie di marketing Pubblicità ingannev ole Influencer Social Network Italo Svevo – La Psicoanalisi Mihaela Pirlog – A.S.
I 7 strumenti della qualità
Textbook Language to Language, 2009, Christopher Taylor
PRESENTAZONE DEL CORSO A CURA DI
LA SOCIOLOGIA DELL’AMBIENTE
MADEsmart: un sistema in ambiente web per l’accesso a dati e indicatori sanitari Situazione e prospettive Torino, martedì 6 giugno 2017 Marco Dalmasso,
La relazione - Giulio Colecchia
Corpora & co. Giuseppe Palumbo
Metodologia della Ricerca Scelta del Disegno di Ricerca
Come si sviluppa un’indagine
La ricerca in campo educativo. Problemi e metodi
Per un conto satellite sulla produzione familiare di Monica Montella*
Bisogni, mete e obiettivi
Sistemi informativi statistici
La Ricerca in Didattica delle Matematiche
Conoscenze, abilità, competenze
IL BILANCIO DELLE COMPETENZE
Come si sviluppa un’indagine
Laboratorio II, modulo “Skype”.
Come si sviluppa un’indagine
Macchine Parlanti A.A. 2018/19 Titolo progetto (es. orologio parlante senza display) template per il progetto finale del corso di Documentazione Linguistica.
Come si sviluppa un’indagine
Questo corso Che cosa Come Quali contenuti
Risultati invalsi a.s. 2017/18 I.C. Mazzi
Dalle prove INVALSI alla didattica
Ing. Maurizio Bassani LOGISTICA - Capitolo 3 - Modulo 1
La ricerca in campo educativo. Problemi e metodi
Questo corso Che cosa Come Quali contenuti
Giorgio Giacinto (Università di Cagliari) Fabio Cocurullo (Loanardo)
La metodologia del nostro curricolo di italiano: principi generali
Algoritmi.
RELAZIONE SUI RISULTATI DELLE PROVE INVALSI DI LINGUA ITALIANA
Transcript della presentazione:

Linguistic corpus / corpus linguistico «is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research» (John Sinclair, 2005) Corpus Linguistics / Linguistica dei corpora studio delle lingue che usa i corpora come dati su cui basare la ricerca (e le sue applicazioni)

la linguistica (teorica, descrittiva o applicativa) svolge sempre le proprie ricerche a partire dall’osservazione della lingua e dei comportamenti linguistici (i dati, appunto); 2. la linguistica (teorica, descrittiva o applicativa) può svolgere le proprie ricerche anche usando lo strumento informatico ma a partire da osservazioni (i dati, appunto) che non siano in forma di corpora.

Specificità della corpus linguistics la caratteristica della corpus linguistics è la definizione di un atteggiamento empirico corretto per la ricerca e le applicazioni linguistiche

Una definizione di empiricità per la CL «(…) il suo punto di partenza, come per ogni altro tipo di ricerca scientifica, sono i dati (…) lo scopo della linguistica dei corpora può essere definito come l’analisi e la descrizione dell’uso linguistico, riscontrabile in testi autentici» (E. Tognini Bonelli, 2000)

«La sillaba “comune” si forma in tre modi: o quando termina con una vocale lunga e la [sillaba] seguente comincia per vocale, come in: oú tí moi aitíe essí, theoí nú moi aítioí eisi («non certo tu sei colpevole davanti a me, gli dèi sono colpevoli») [Iliade. 3.164] o quando (…)» (Dionisio Trace, sec II, Tekhné grammatiké, § 10)

1949 Claude SHANNON - Wendell WEAVER, The Mathematical Theory of Communication, Urbana (Ill.) (informatica per analisi quantitative, caratteristiche statistiche dei codici) 1950 A. TURING, Computing Machinery and Intelligence, Mind LIX (informatica per implementare modelli della produzione e riconoscimento di frasi).

Estensione dei corpora «The main virtue of being large in a corpus is that the underlying regularities have a better chance of showing through the superficial variations, and there is a lot of variations in the surface realization of linguistic units in a corpus» (J. Sinclair, 2000)

autenticità dei dati di un corpus la CL ha a che fare con esempi reali dell’uso linguistico ne raccoglie quantità significativamente grandi ma, soprattutto, tratta ogni singolo dato linguistico senza mai separarlo dal contesto in cui è stato originariamente prodotto, ossia marcando le condizioni contestuali dei dati

tagging metodologicamente, è la fase in cui la CL usa/elabora il proprio metalinguaggio, adottando il punto di vista metalinguistico sui fenomeni linguistici che intende studiare

Aspetti della marcatura scelta di marcatori; possibilità della loro standardizzazione; consapevolezza che obiettivi di analisi diversi richiedano l’uso, o l’invenzione di marcatori diversi, cosa che pone il problema di un livello base di marcatura che preservi un formato standard per il corpus, lasciandolo disponibile per analisi multiple, successive; ecc. Il tagging è avvertito, attualmente, come uno dei punti delicati della evoluzione della CL

A ben guardare, è piano della riflessione metalinguistica determina la capacità di trattare l’autenticità dei dati empirici su cui lavora la CL, specialmente in ambiti di ricerca linguistica non incentrati sul lessico. E per questo il piano metalinguistico (elaborazione, formalizzazione e standardizzazione delle catagorie di analisi) è intrinseca alla CL, motivandone la novità, cioè la scientificità rispetto alla linguistica del passato.

Corpus di parlato Occuparsi di testi parlati significa mettere in evidenza, tra le altre cose, fenomeni discorsivi, che in parte coincidono con i fenomeni trattati dalla pragmatica (speech acts). Occuparsi di un corpus di parlato significa praticare il tipo di CL che noto come corpus-driven: procedura si soluzione dei problemi di descrizione e modellizzazione linguistica basata sull’analisi di corpora rappresentativi.

Corpus di parlato Obiettivi della ricerca Raccolta/trascrizione dei testi Descrisione Marcatura Annotazione