Linguistica e treebank Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2016-2017
Risorse e LC Tutte le risorse linguistiche servono a fornire informazioni ai sistemi che trattano in modo automatico il linguaggio (in seguito parleremo di risorse per la Computer Assisted Translation, che non sono sistemi automatici). I treebank però servono anche per altri scopi. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.
A cosa servono i treebank? I corpora annotati contengono conoscenza che può essere utilizzata per sviluppare e valutare teorie linguistiche. Sulla base dei dati annotati si possono infatti formulare ipotesi e trovare smentite e conferme per esse. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.
A cosa servono i treebank? Le analisi più o meno complesse condotte sui corpora annotati sono compatibili con un’ampia gamma di teorie sul linguaggio e possono quindi essere utilizzate per dimostrarle ovvero per smentirle. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.
Esempio: corpora per SA Un corpus costruito per la SA è costituito da un insieme di post ad ognuno dei quali sono associati dei metadati e delle annotazioni. Mettendo insieme le due cose possiamo trovare l’autore che ha espresso le opinioni più retwittate (opinion leader), quale quelle più negative … e possiamo vedere la rete di comunicazione. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.
Competence e performance Definire i metodi sperimentali in opposizione a quelli basati sull’intuizione introspettiva è in realtà fuorviante. Un’indagine basata su corpora prende l’avvio ed è guidata dall’intuizione stessa che sta alla base dell’introspezione del ricercatore. L’introspezione è l’avvio del processo che culmina nella verifica sperimentale. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.
Competence e performance Posizione nominalista: il linguista deve studiare gli eventi linguistici codificati nelle parole frasi ecc., nei campioni di dati e non cose astratte. Posizione esternalista: all’opposto il linguista deve studiare oggetti astratti come classi e tipi che danno senso a parole frasi ecc., e non gli eventi in se’. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.
Competence e performance Posizione di Chomsky: rifiuta la posizione nominalista e esternalista proponendo una posizione internalista e mentalista per cui l’oggetto di studio è la capacità mentale di apprendere e usare il linguaggio. Come nella posizione nominalista non si studiano categorie astratte, non perchè non esistono ma perchè sono irrilevanti. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.
Competence e performance Nella corpus linguistics moderna si supera la posizione nominalista in quanto si da importanza all’inferenza e astrazione che si può fare sui dati del corpus. In questo senso il corpus serve per fare previsioni sui nuovi dati (e proprio questo avviene nei sistemi statistici che apprendono dai corpora!), non interessa di per se’ ma in quanto fonte di conferme. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.
Competence e performance Nella corpus linguistics moderna si supera la posizione esternalista in quanto si ha maggiore libertà nella scelta del corpus. Un corpus consente di fare astrazioni su una popolazione linguistica, ma anche su un singolo individuo, a seconda del corpus. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.
Competence e performance Tra le motivazioni delle critiche di Chomsky c’era il fatto che i corpora sono raccolte di specifiche occorrenze di espressioni linguistiche che contengono quindi fattori di distrazione e rumore. In realtà la psicolinguistica oggi ha dimostrato che anche nel giudizio introspettivo entrano in gioco fattori di rumore, come in qualunque situazione sperimentale. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.
Competence e performance La soluzione di problemi come il rumore è la cura estrema nel raccogliere e trattare i dati, siano essi derivanti da competence o performance. Inoltre l’errore è fonte di conoscenza perchè molto sovente non è casuale. I corpora spesso, mostrando la sistematicità dell’errore, aprono uno spiraglio sulla conoscenza della competence. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.
Competence e performance Un esempio sono i corpora di apprendimento della seconda lingua dove diversi errori sistematici caratterizzano i madrelingua di diverse lingue. Tra questi il corpus VALICO sviluppato presso il Dipartimento di Lingue dell’Università di Torino. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.
Corpora e statistica I corpora mostrano prove caratterizzate da gradualità non categoricità. Questo viene sfruttato dagli approcci statistici, mentre in quelli non statistici tutte le sfumature intermedie vanno perse. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.