Linguistica e treebank

Slides:



Advertisements
Presentazioni simili
Scienza Politica a.a Marco Di Giulio. Informazioni (I) Orario delle lezioni Lunedì 9-10 e Mercoledì 8-11 Contatti
Advertisements

Davidson La traduzione incomincia a casa. Due idee centrali e un problema 1.Olismo semantico (da Quine) 2.Teoria del significato (da Tarski) il problema.
Linee Guida per i Tesisti. La tesi ● La tesi è un lavoro di ricerca quindi ha una parte teorica che porta alla definizione di una ipotesi verificata empiricamente.
Fondamenti di Informatica - D. Talia - UNICAL 1 Fondamenti di Informatica FONDAMENTI DI INFORMATICA Domenico Talia
EduMeter Sistema per la valutazione della didattica dell’Università degli Studi di Torino.
Robert Merton Teorici ed empiristi. Robert Merton Merton è stato uno dei più influenti esponenti della corrente teorica del funzionalismo (le cui origini.
Fare storia con le fonti: archivio e memoria orale Carla Marcellini INSMLI Istituto Storia Marche.
IL RUOLO DELLA TECNOLOGIA NEL PROGETTO DI ARCHITETTURA “Progettazione dei Sistemi Costruttivi”
Il Parallel Turin University Treebank
Linguistica computazionale e approcci corpus-based
IL CORPO UMANO Il progetto si svolge settimanalmente, nei momenti di compresenza, vede coinvolti tutti i campi di esperienza in modo particolare l’aspetto.
Tratto da: Anna Labella (a cura), E questo tutti chiamano Informatica, Manuali Scienze e Tecnologie – Formazione, La Sapienza Roma.
Narratologia: storia e discorso
Pensiero Computazionale
Non è chiaro quali siano le azioni/ o gli insegnamenti che portano al raggiungimento di alcuni obiettivi Non è chiaro quali siano le azioni/gli insegnamenti.
La ricerca sociale di tipo quantitativo
Metodologia della ricerca in psicologia
Linguistica computazionale, treebank e altre risorse
Le norme editoriali Come si scrive e presenta la tesi?
Costruiamo il tuo portfolio!
LA MAPPA CONCETTUALE Istruzioni per l’uso
Statistica Prima Parte I Dati.
The English Language Centre 20/07/ /07/2015 Brighton
coordinate geografiche longitudine, latitudine
Algoritmi e soluzioni di problemi
Universal Dependencies e treebank
SITUAZIONE LINGUISTICA IDEALE
Basi di Dati: Introduzione
Lo strumento dell’intervista qualitativa
Computer assisted translation e terminologia
Robert Merton Teorici ed empiristi.
La Statistica si occupa dei modi
ALCUNI PRESUPPOSTI DI BASE metamappa delle caratteristiche
IL CODING e il Pensiero Computazionale
Universita’ di Milano Bicocca Corso di Basi di dati 1 in eLearning C
Statistica sociale Modulo B
Alcuni chiarimenti concettuali e metodologici
C’è un’inadeguatezza sempre più ampia
L’uso delle tecniche di animazione
TEOREMA DI BAYES: ESEMPI
Le norme editoriali Come si scrive e presenta la tesi?
Marzo 2017.
Il modello Puntoedu.
Smart City.
Dimensione "Avalutativa"
VIDEOGIOCHI A SCUOLA Andrea capitani e marco giorgini.
Introduzione al modello fattoriale
Corpora & co. Giuseppe Palumbo
VALUTAZIONE DEGLI OBIETTIVI DI APPRENDIMENTO (al termine del primo quadrimestre) Prove comuni A.S. 2017/2018.
Come si sviluppa un’indagine
Corso di Sociologia Generale
Sistemi informativi statistici
Corsi di Laurea in Biotecnologie
Come si sviluppa un’indagine
Che cos’è la valutazione
Alcuni chiarimenti concettuali e metodologici
Che cos’è la valutazione
Teoria della computabilità
Come si sviluppa un’indagine
Macchine Parlanti A.A. 2018/19 Titolo progetto (es. orologio parlante senza display) template per il progetto finale del corso di Documentazione Linguistica.
Come si sviluppa un’indagine
Tutto molto bello, tutto molto utile?
Ambienti di Apprendimento e TIC
MODALITA’ DI SOMMINISTRAZIONE
Dalle prove INVALSI alla didattica
«La teoria sociologia contemporanea»
Questo corso Che cosa Come Quali contenuti
Il questionario: progettazione e redazione II Modulo
La psicologia sociale I meccanismi attraverso i quali conosciamo gli altri sono fondamentalmente l’oggetto di studio della PSICOLOGIA SOCIALE.
APPRENDERE IN LINGUA 2 28/09/2019.
Transcript della presentazione:

Linguistica e treebank Cristina Bosco Corso di Informatica applicata alla comunicazione multimediale 2016-2017

Risorse e LC Tutte le risorse linguistiche servono a fornire informazioni ai sistemi che trattano in modo automatico il linguaggio (in seguito parleremo di risorse per la Computer Assisted Translation, che non sono sistemi automatici). I treebank però servono anche per altri scopi. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

A cosa servono i treebank? I corpora annotati contengono conoscenza che può essere utilizzata per sviluppare e valutare teorie linguistiche. Sulla base dei dati annotati si possono infatti formulare ipotesi e trovare smentite e conferme per esse. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

A cosa servono i treebank? Le analisi più o meno complesse condotte sui corpora annotati sono compatibili con un’ampia gamma di teorie sul linguaggio e possono quindi essere utilizzate per dimostrarle ovvero per smentirle. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Esempio: corpora per SA Un corpus costruito per la SA è costituito da un insieme di post ad ognuno dei quali sono associati dei metadati e delle annotazioni. Mettendo insieme le due cose possiamo trovare l’autore che ha espresso le opinioni più retwittate (opinion leader), quale quelle più negative … e possiamo vedere la rete di comunicazione. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Competence e performance Definire i metodi sperimentali in opposizione a quelli basati sull’intuizione introspettiva è in realtà fuorviante. Un’indagine basata su corpora prende l’avvio ed è guidata dall’intuizione stessa che sta alla base dell’introspezione del ricercatore. L’introspezione è l’avvio del processo che culmina nella verifica sperimentale. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Competence e performance Posizione nominalista: il linguista deve studiare gli eventi linguistici codificati nelle parole frasi ecc., nei campioni di dati e non cose astratte. Posizione esternalista: all’opposto il linguista deve studiare oggetti astratti come classi e tipi che danno senso a parole frasi ecc., e non gli eventi in se’. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Competence e performance Posizione di Chomsky: rifiuta la posizione nominalista e esternalista proponendo una posizione internalista e mentalista per cui l’oggetto di studio è la capacità mentale di apprendere e usare il linguaggio. Come nella posizione nominalista non si studiano categorie astratte, non perchè non esistono ma perchè sono irrilevanti. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Competence e performance Nella corpus linguistics moderna si supera la posizione nominalista in quanto si da importanza all’inferenza e astrazione che si può fare sui dati del corpus. In questo senso il corpus serve per fare previsioni sui nuovi dati (e proprio questo avviene nei sistemi statistici che apprendono dai corpora!), non interessa di per se’ ma in quanto fonte di conferme. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Competence e performance Nella corpus linguistics moderna si supera la posizione esternalista in quanto si ha maggiore libertà nella scelta del corpus. Un corpus consente di fare astrazioni su una popolazione linguistica, ma anche su un singolo individuo, a seconda del corpus. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Competence e performance Tra le motivazioni delle critiche di Chomsky c’era il fatto che i corpora sono raccolte di specifiche occorrenze di espressioni linguistiche che contengono quindi fattori di distrazione e rumore. In realtà la psicolinguistica oggi ha dimostrato che anche nel giudizio introspettivo entrano in gioco fattori di rumore, come in qualunque situazione sperimentale. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Competence e performance La soluzione di problemi come il rumore è la cura estrema nel raccogliere e trattare i dati, siano essi derivanti da competence o performance. Inoltre l’errore è fonte di conoscenza perchè molto sovente non è casuale. I corpora spesso, mostrando la sistematicità dell’errore, aprono uno spiraglio sulla conoscenza della competence. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Competence e performance Un esempio sono i corpora di apprendimento della seconda lingua dove diversi errori sistematici caratterizzano i madrelingua di diverse lingue. Tra questi il corpus VALICO sviluppato presso il Dipartimento di Lingue dell’Università di Torino. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.

Corpora e statistica I corpora mostrano prove caratterizzate da gradualità non categoricità. Questo viene sfruttato dagli approcci statistici, mentre in quelli non statistici tutte le sfumature intermedie vanno perse. L’annotazione di TUT consente di dare evidenza empirica a quanto definito in ARS in modo teorico.