La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Linguistic corpus / corpus linguistico

Presentazioni simili


Presentazione sul tema: "Linguistic corpus / corpus linguistico"— Transcript della presentazione:

1 Linguistic corpus / corpus linguistico
«is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research» (John Sinclair, 2005) Corpus Linguistics / Linguistica dei corpora studio delle lingue che usa i corpora come dati su cui basare la ricerca (e le sue applicazioni)

2 la linguistica (teorica, descrittiva o applicativa) svolge sempre le proprie ricerche a partire dall’osservazione della lingua e dei comportamenti linguistici (i dati, appunto); 2. la linguistica (teorica, descrittiva o applicativa) può svolgere le proprie ricerche anche usando lo strumento informatico ma a partire da osservazioni (i dati, appunto) che non siano in forma di corpora.

3 Specificità della corpus linguistics
la caratteristica della corpus linguistics è la definizione di un atteggiamento empirico corretto per la ricerca e le applicazioni linguistiche

4 Una definizione di empiricità per la CL
«(…) il suo punto di partenza, come per ogni altro tipo di ricerca scientifica, sono i dati (…) lo scopo della linguistica dei corpora può essere definito come l’analisi e la descrizione dell’uso linguistico, riscontrabile in testi autentici» (E. Tognini Bonelli, 2000)

5 «La sillaba “comune” si forma in tre modi:
o quando termina con una vocale lunga e la [sillaba] seguente comincia per vocale, come in: oú tí moi aitíe essí, theoí nú moi aítioí eisi («non certo tu sei colpevole davanti a me, gli dèi sono colpevoli») [Iliade ] o quando (…)» (Dionisio Trace, sec II, Tekhné grammatiké, § 10)

6 1949 Claude SHANNON - Wendell WEAVER, The Mathematical Theory of Communication, Urbana (Ill.) (informatica per analisi quantitative, caratteristiche statistiche dei codici) 1950 A. TURING, Computing Machinery and Intelligence, Mind LIX (informatica per implementare modelli della produzione e riconoscimento di frasi).

7 Estensione dei corpora
«The main virtue of being large in a corpus is that the underlying regularities have a better chance of showing through the superficial variations, and there is a lot of variations in the surface realization of linguistic units in a corpus» (J. Sinclair, 2000)

8 autenticità dei dati di un corpus
la CL ha a che fare con esempi reali dell’uso linguistico ne raccoglie quantità significativamente grandi ma, soprattutto, tratta ogni singolo dato linguistico senza mai separarlo dal contesto in cui è stato originariamente prodotto, ossia marcando le condizioni contestuali dei dati

9 tagging metodologicamente, è la fase in cui la CL usa/elabora il proprio metalinguaggio, adottando il punto di vista metalinguistico sui fenomeni linguistici che intende studiare

10 Aspetti della marcatura
scelta di marcatori; possibilità della loro standardizzazione; consapevolezza che obiettivi di analisi diversi richiedano l’uso, o l’invenzione di marcatori diversi, cosa che pone il problema di un livello base di marcatura che preservi un formato standard per il corpus, lasciandolo disponibile per analisi multiple, successive; ecc. Il tagging è avvertito, attualmente, come uno dei punti delicati della evoluzione della CL

11 A ben guardare, è piano della riflessione metalinguistica determina la capacità di trattare l’autenticità dei dati empirici su cui lavora la CL, specialmente in ambiti di ricerca linguistica non incentrati sul lessico. E per questo il piano metalinguistico (elaborazione, formalizzazione e standardizzazione delle catagorie di analisi) è intrinseca alla CL, motivandone la novità, cioè la scientificità rispetto alla linguistica del passato.

12 Corpus di parlato Occuparsi di testi parlati significa mettere in evidenza, tra le altre cose, fenomeni discorsivi, che in parte coincidono con i fenomeni trattati dalla pragmatica (speech acts). Occuparsi di un corpus di parlato significa praticare il tipo di CL che noto come corpus-driven: procedura si soluzione dei problemi di descrizione e modellizzazione linguistica basata sull’analisi di corpora rappresentativi.

13 Corpus di parlato Obiettivi della ricerca Raccolta/trascrizione dei testi Descrisione Marcatura Annotazione


Scaricare ppt "Linguistic corpus / corpus linguistico"

Presentazioni simili


Annunci Google