Fondamenti di Linguistica 25 Novembre 2009

Fondamenti di Linguistica 25 Novembre 2009
Malvina Nissim

Parole nel contesto Firth (anni ‘50): you shall know a word by the company it keeps concordanze collocazioni liste di frequenza polisemia … Paradosso tra rinato interesse per la classicità e caduta del latino come ‘lingua franca’ e nascita nazionalismo linguistico

Rinascimento Petrus Ramus (grammatico rinascimentale):
Principio: piuttosto che speculare filosoficamente sulla grammatica, è necessario osservare: la lingua in uso nelle opere degli autori classici l’uso della lingua nei parlanti nativi Paradosso tra rinato interesse per la classicità e caduta del latino come ‘lingua franca’ e nascita nazionalismo linguistico

Storia

Storia PRIMA approcci abbastanza empirici, osservazione lingua in uso DOPO privilegiata astrazione, esempi ad hoc, piccoli frammenti

Inizi Computer non largamente disponibili e non potenti, quindi difficile acquisire e analizzare grandi collezioni di dati Studi su diari di bambini tenuti dai genitori per analisi lingua infantile Studi su carta su singoli testi (es. uso di certi termini in una data opera di un dato autore)

Chomsky Fine anni ‘50, primi anni ‘60: Chomsky sposta l’attenzione linguistica dall’empiricismo al razionalismo (e astrazione) “Any natural corpus will be skewed. Some sentences won’t occur because they are obvious, other because they are false, still others because they are impolite. The corpus, if natural, will be so wildly skewed that the description would be no more than a mere list” (Chomsky, 1962) Si privilegiano l’intuizione del parlante e la “creazione ad hoc” si può dire / non si può dire si trova, è frequente / non si trova, è raro

Problemi dell’intuizione
Testi che occorrono naturalmente sono osservabili e verificabili da chiunque. Frasi/testi creati ad hoc e basati sull’intuizione sono artificiali e potenzialmente soggettivi e discutibili (“secondo me non si dice…”) I parlanti hanno solo vaghe intuizioni relativamente alla (nozione di) frequenza di un’espressione o una costruzione.

Anni Sessanta Linguisticamente: Tecnologicamente: Economicamente:
critiche a linguistica formale ed esempi ad hoc interesse per linguistica testuale/discorso Tecnologicamente: Disk space costa sempre meno Testi digitali sempre più diffusi Economicamente: USA: fondi per valutazione sistemi su larga scala e su dati reali

Nascita di “grandi” corpora
1960s Brown Corpus, 1M di parole 1970s LOB corpus – British English 1980s COBUILD, 8M di parole 1990s BNC, 100M di parole …

Cos’è un corpus? “A corpus is a collection of naturally-occurring language text, chosen to characterize a state or variety of a language.” (Sinclair) Una collezione di materiale linguistico, che possono essere testi scritti o trascrizioni di registrazioni che può essere utilizzata come punto di partenza per una descrizione o analisi linguistica o come uno strumento per verificare una data ipotesi linguistica relativa ad una certa lingua (Dictionary of linguistics and phonetics)

Cos’è un corpus? Una grande quantità di dati solitamente composti da lingua attestata (McEnery) Solitamente un corpus è in formato elettronico e, idealmente, è visualizzabile e analizzabile attraverso un software apposito La parola corpus viene dal latino e il plurale è corpora (!)

Il valore dei corpora Anche parlanti nativi esperti hanno una conoscenza parziale/individuale di una lingua, un corpus può essere più esaustivo e bilanciato Anche parlanti nativi esperti tendono a notare aspetti meno usuali e pensare a ciò che potrebbe essere possibile, un corpus mostra ciò che è tipico e comune Anche parlanti nativi esperti non sono in grado di quantificare le loro conoscenze linguistiche, un corpus può fornire stastiche accurate

Il valore dei corpora Anche parlanti nativi esperti non possono ricordare tutto ciò che sanno, un corpus contiene e può richiamare tutta l’informazione che è stata immessa Anche parlanti nativi esperti possono essere in difficoltà nel creare esempi naturali, un corpus fornisce un gran numero di esempi realmente occorrenti Anche parlanti nativi esperti hanno pregiudizi e preferenze, connotazioni culturali e ideologiche, un corpus può fornire evidenza più oggettiva

Caratteristiche dell’analisi su corpora (Biber, 1998)
it is empirical, analysing the actual pattern of use in natural texts; it utilizes a large and principled collection of natural texts, known as a “corpus”, as the basis for analysis; it makes extensive use of computers for analysis, using both automatic and interactive techniques; it depends on both quantitative and qualitative techniques.

Cosa possiamo fare con un corpus?
International Journal of Corpus Linguistics Corpus Linguistics and Linguistic Theory

Campi in cui si usano corpora
Lessicografia -> dizionari Studi a tutti i livelli di analisi linguistica che abbiamo visto Linguistica computazionale (per esempio in apprendimento automatico) Language teaching (learner’s corpora) Sociolinguistica (variazioni di diversi tipi) …

Corpus-based e Corpus-driven
approcci corpus-based: ipotesi linguistiche preformulate su base teorica vengono verificate su un corpus approcci corpus-driven: ipotesi linguistiche vengono derivate direttamente dall’osservazione di dati

Parametri di un corpus (1)
Lingua: Monolingue Multilingui (corpora confrontabili) Paralleli Tipi di sorgenti: Scritto (generi) Parlato (radio, spontaneo, …) Misto

Parametri di un corpus (2)
Dimensioni corpus size (= numero di token) vocabulary size (= numero di type) Dinamicità: statico/monitor Informazione aggiuntiva (annotazione/markup) annotato/non annotato livello di annotazione tipo di codifica (testo, SGML/XML)

Modi di usare un corpus Concordanze Liste di frequenza (token/type)
Collocazioni Programmi appositi per la ricerca (specialmente laddove il corpus è annotato)

Concordanze mostrano le parole nel contesto in cui compaiono (estensione di norma personalizzabile) di norma si sfruttano programmi appositi che consentono di visualizzare e manipolare liste di concordanze KWIC (Key Word In Context) è lo strumento/formato più frequente

Dimensioni: type e token

Type e token Brown corpus: Birmingham/Cobuild corpora:
1M tokens 50,406 types Birmingham/Cobuild corpora: 1M tokens (spoken only) 36,807 types 17,459 occorrono una volta sola Times newspapers 4M tokens 122,773 types 54,144 occorrono una volta sola general corpus of English 18m tokens 228,323 types 131,299 occorrono una volta sola

Type e token 121m tokens 211m tokens 323m tokens 418m tokens
475,633 types 213,684 occorrenze singole 211m tokens 638,901 types 323m tokens 812,467 types 418m tokens 938,914 types 438,647 occorrenze singole

Liste di frequenza liste che indicano le parole che compaiono in un corpus e la loro frequenza danno un’immagine quantitativa del corpus una lista di frequenza ottenuta su un dato corpus può essere confrontata con quella ottenuta su dati diversi NB: ciascuna parola è isolata dal contesto

N-grammi gruppi di N parole che appaiono in sequenza nel testo
si presentano come liste di frequenza (a ciascun N-gramma è associato il numero di occorrenze) utili per identificare espressioni specifiche e ricorrenti in un corpus la parola non è completamente avulsa dal contesto

Collocazioni collocazione = N-gramma significativo (ricordate le misure di associazione?) collocati estratti data una cera finestra alla sinistra (w-x) e destra (w+x) di una data parola (w) utili per identificare espressioni polirematiche e per studiare l’immediato contesto di una parola (frames etc.)

Costruire corpora Modi di acquisire/costruire corpora:
Già in formato elettronico: conversione diretta Scansione da cartaceo Digitazione manuale Trascrizione di registrazioni (parlato)

Costruire corpora Lingua Dimensioni Genere (dominio, distribuzione, …)
Dinamicità (statico/monitor) Annotazione

Costruire corpora è impegnativo!
Selezione del materiale, permessi, acquisizione Pulizia, spell-checking, annotazione, indicizzazione Documentazione Valutazione Distribuzione

Web = corpus?

Web = corpus? Il Web può essere una sorgente di testi estremamente utile (enorme) Può essere di grande aiuto specialmente per lingue diverse dall’Inglese (e lingue per cui corpora controllati già esistono) Non è bilanciato, non è pulito, non si sa esattamente cosa c’è dentro…

Wacky! corpora creati dal Web ma “ripuliti” e annotati
circa 2% di materiale tenuto ItWac, UkWac, …

Annotazione Arricchimento di un corpus con informazione di vario tipo (sostanzialmente tutti i livelli di analisi linguistica che abbiamo discusso) speech (fonetica) parola: part of speech, classi, sensi, … frasi: confini, alberi sintattici, dipendenze, … discorso: segmenti, anafora, relazioni di coerenza, … oltre: variazioni, opinioni, sentimenti, …

Schema di annotazione rappresentazione di un dato fenomeno linguistico da annotare teorico + pratico accompagnato solitamente da un insieme di istruzioni per guidare l’annotatore nelle scelte

Esempio <P><S><W POS="PRON" NUM="PL“ LEMMA="we">We</W><W POS="V" LEMMA="have">have</W><W POS="EN" LEMMA="develop">developed</W><NP><W POS="DET" LEMMA="a">a</W><W POS="A“ LEMMA="computational"> computational</W><W POS="N" NUM="SG" LEMMA="paradigm"> paradigm</W><W POS="PUNCT">,</W> ...</NP> ... </S></P>

Esempio schema

Principi di annotazione (Leech 93)
l'annotazione deve poter essere rimossa lo schema per l'annotazione deve essere basato su regole precise ed essere anche a disposizione dell'utente deve essere sempre chiaro chi (quanti annotatori e con quali caratteristiche) e come (manualmente semi-automaticamente e con quali strumenti) ha annotato l'utente deve essere consapevole che l'annotazione non è ``oro" né infallibile e deve essere semplicemente considerata come strumento di lavoro lo schema di annotazione dovrebbe essere basato su principi il più possibile condivisi

Come annotare in pratica
manualmente, attraverso strumenti di sostegno appositi: sveltiscono il processo riducono l’errore umano automaticamente (per esempio POS) semi-automaticamente: primo passo automatico seguito da correzione (spesso di una porzione) manuale

Alcuni corpora esistenti
Brown Corpus/LOB corpus Bank of English Wall Street Journal, Penn Tree Bank, BNC, ANC, ICE, WBE, Reuters Corpus Canadian Hansard: corpus parallelo inglese-francese York-Helsinki Parsed corpus of Old Poetry Tiger corpus – tedesco Europarl - corpora paralleli (lingue della Comunità Europea) …

Distributori di corpora
LDC (Linguistic Data Consortium) ELRA (European Language Resources Association) TRACTOR (TELRI Research Archive of Computational Tools and Resources) ICAME (International Computer Archive of Modern and Medieval English)

Per l’Italiano CORIS/CODIS (POS) La Repubblica (POS+lemma)
ItWac (POS+lemma) TuT (Turin Treebank) VIT (Venice Italian Treebank) VENEX (anafora)

Riferimenti Karin Aijmer and Bengt Altenberg (1991) English corpus linguistics, Longman Tony McEnery and Andrew Wilson (1996) Corpus linguistics, Edinburgh University Press Geoff Barnbrook (1996) Language and Computers, Edinburgh University Press Michael Oates (1998) Statistics for Corpus Linguistics, Edinburgh University Press Duglas Biber, Susan Conrad and Randi Reppen (1998) Corpus linguistics, Cambridge University Press Graeme D. Kennedy (1998) An introduction to corpus linguistics, Longman Tony McEnery (2003) Corpus linguistics. In Ruslan Mitkov (ed.) The Oxford Handbook of Computational Linguistics, Oxford University Press

Fondamenti di Linguistica 25 Novembre 2009

Presentazioni simili

Presentazione sul tema: "Fondamenti di Linguistica 25 Novembre 2009"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

Fondamenti di Linguistica 25 Novembre 2009

Presentazioni simili

Presentazione sul tema: "Fondamenti di Linguistica 25 Novembre 2009"— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back