Fondamenti di Linguistica 25 Novembre 2009

Slides:

Advertisements

Presentazioni simili

Dizionari elettronici in glottodidattica: possibilità attuali e potenzialità future Isabella Chiari Dizionari elettronici in glottodidattica: possibilità.

Advertisements

INFORMATICA UMANISTICA MODULI B, C E D

Termodinamica Chimica

Proposte di attività. No man can reveal to you aught but that wich already lies half asleep in the dawning of our knowledges. (K. Gibran: Il Profeta)

Informatica umanistica: Moduli B, C e D

INFORMATICA UMANISTICA MODULI B, C E D Massimo Poesio (B, D) Marco Baroni (Lab D) Roberto Zamparelli (C)

Introduzione ad XML Mario Arrigoni Neri.

Problem solving Metodologia di lavoro.

1 Quale spazio per uneducazione plurilingue nella scuola di oggi? Firenze, 30 settembre 2011 Silvia Minardi.

1 Problemi e tecniche del testing online (parte III) Gianfranco Porcelli Pavia, 10 febbraio 2010.

Luso dei corpora nellinsegnamento dellitaliano per scopi speciali Gianfranco Porcelli Venezia, 19 luglio 2010.

VERSO UN CURRICOLO PLURILINGUE, il “P. E. L

Statistiche di stato civile Note tratte da: Handbook on Training in Civil Registration and Vital Statistics Systems, United Nations,2002.

Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, La rappresentazione dellinformazione testuale e i linguaggi di codifica.

"In Internet non siamo in grado di selezionare, almeno a colpo docchio, fra una fonte credibile e una folle. Abbiamo bisogno di una.

Università della Calabria Corso di laurea: Scienze della Formazione Primaria anno accademico Università della Calabria Corso di laurea: Scienze.

Tenendo conto della Finalità della scuola: Offrire un contributo significativo alla formazione delluomo e del cittadino che dovrà vivere ed operare nella.

TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di.

Apprendimento Automatico: Elaborazione del Linguaggio Naturale

Istituzioni di linguistica

INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER

Psicologia della scrittura manuale ed elettronica.

Data mining for e-commerce sites

Inserire i nuovi media nella scuola Certi rapporti dagli Usa, ma anche da Italia, dicono che i bambini trascorrono in media 5 ore al computer su Internet.

informatica di base per le discipline umanistiche

Universita’ Cattolica del Sacro Cuore, Milano

Presentazione a cura diSlide n.1 AVIPA 1. Presentazione generale dell'ambiente software Viterbo, 10 Dicembre 2008.

I paradigmi della ricerca sociale

Corso SSIS 2003 – Modulo lingue straniere Software per linsegnamento della lingua straniera Jeffrey Earp – ITD/CNR 2003.

Corso SSIS 2004 – Modulo lingue straniere Software per linsegnamento della lingua straniera Jeffrey Earp – ITD/CNR 2004.

GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.

Large linguistically-processed Web corpora for multiple languages Marco Baroni e Adam Kilgarrif in Proceedings of EACL 2006 presentazione Fantini - Inglese.

Che cos’è l’annotazione di un corpus?

Formare le Risorse umane nel tempo della Rete a cura di Alberto Quagliata.

Descrizione Semantica ad Alto Livello di Ambienti Virtuali in X3D

Espressione polirematica

Facoltà di Lettere e Filosofia Corso di Laurea in Scienze della Comunicazione LIBER Progettazione di un programma per la ricerca bibliotecaria ispirato.

DESCRIZIONE E PRESENTAZIONE DEL QUESTIONARIO MACARTHUR

Che cos’è Il Quadro comune europeo di riferimento?

Trattamento Automatico delle Lingue R. Basili a.a

L’insegnante ricercatore nella scuola laboratorio.

Fondamenti di Linguistica 1 Dicembre 2009

File e Funzioni Si possono distinguere tre tipi di file che vengono utilizzati in MATLAB: M-file: hanno estensione .m e in essi vengono memorizzati i.

Traduzione e computer (3) Cristina Bosco Informatica applicata alla comunicazione multimediale 2013.

Commenti all’esempio del treno Nell’esempio del treno si è iniziato dalle attività generiche e/o attività operative che tipicamente costituiscono i passi.

Corso di Laurea in Ingegneria per l’Ambiente e il Territorio Informatica per l’Ambiente e il Territorio Docente: Giandomenico Spezzano Tutor: Alfredo Cuzzocrea.

Metodologia come logica della ricerca

PROGRAMMA IL FUTURO Anno Scolastico 2014 / 2015

SPIRITO DI INIZIATIVA E IMPRENDITORIALITÀ

Il Parallel Turin University Treebank Cristina Bosco – Manuela Informatica applicata alla comunicazione multimediale

I portali Il termine “portale” indica un insieme di siti che hanno come obiettivo quello di essere un punto privilegiato di accesso al Web. La maggior.

L’analisi del contenuto Doppia funzione dell’analisi del contenuto: -Può essere un tipo di ricerca specifico -Può essere una tecnica di ricerca Come TECNICA.

Ontologia AA F. Orilia. Lez. 16 Discussione dell'approccio controfattualista di lewis condotta da Antonio De Grandis.

Linguistica computazionale: task sul linguaggio naturale Cristina Bosco 2015 Informatica applicata alla comunicazione multimediale.

Semantica approcci computazionali Maria Teresa PAZIENZA a.a

Introduzione al bilinguismo

Informatica Umanistica LM - Scienze del Testo Docente Alessia Scacchi.

TEORIE E TECNICHE DEL RICONOSCIMENTO

Tecnologie della lingua Human Language Technology (HLT)

Basi di dati distribuite Prof. M.T. PAZIENZA a.a

L’unità di acquisizione

  Lingua materna (LM o L1): la lingua che acquisiamo ‘inconsciamente’, del nostro vivere quotidiano  Lingua seconda (L2): la lingua che si impara in.

SI IMPERSONALE “One must pay attention if one wants to do well!”

MODELLO KRASHEN APPROCCIO NATURALE.

Corso di “Teorie e pratiche della traduzione” “La scrittura accademica attraverso le lingue e le culture: studio su corpus della voce autoriale” Dott.ssa.

V CIRCOLO DIDATTICO DI GIUGLIANO IN CAMPANIA (NA)

Computer assisted translation (CAT - 2) Cristina Bosco Informatica applicata alla comunicazione multimediale

Lucrezia Pedrali - Leno 2008 LINGUA ITALIANA Noi pensiamo un universo che è già pre-formato dalla nostra lingua E. Benveniste.

Dal problema al programma – ciclo di sviluppo del software La scrittura del programma è solo una delle fasi del processo di sviluppo di un'applicazione.

Transcript della presentazione:

Fondamenti di Linguistica 25 Novembre 2009 Malvina Nissim malvina.nissim@unibo.it

Parole nel contesto Firth (anni ‘50): you shall know a word by the company it keeps concordanze collocazioni liste di frequenza polisemia … Paradosso tra rinato interesse per la classicità e caduta del latino come ‘lingua franca’ e nascita nazionalismo linguistico

Rinascimento Petrus Ramus (grammatico rinascimentale): Principio: piuttosto che speculare filosoficamente sulla grammatica, è necessario osservare: la lingua in uso nelle opere degli autori classici l’uso della lingua nei parlanti nativi Paradosso tra rinato interesse per la classicità e caduta del latino come ‘lingua franca’ e nascita nazionalismo linguistico

Storia

Storia PRIMA approcci abbastanza empirici, osservazione lingua in uso DOPO privilegiata astrazione, esempi ad hoc, piccoli frammenti

Inizi Computer non largamente disponibili e non potenti, quindi difficile acquisire e analizzare grandi collezioni di dati Studi su diari di bambini tenuti dai genitori per analisi lingua infantile Studi su carta su singoli testi (es. uso di certi termini in una data opera di un dato autore)

Chomsky Fine anni ‘50, primi anni ‘60: Chomsky sposta l’attenzione linguistica dall’empiricismo al razionalismo (e astrazione) “Any natural corpus will be skewed. Some sentences won’t occur because they are obvious, other because they are false, still others because they are impolite. The corpus, if natural, will be so wildly skewed that the description would be no more than a mere list” (Chomsky, 1962) Si privilegiano l’intuizione del parlante e la “creazione ad hoc” si può dire / non si può dire si trova, è frequente / non si trova, è raro

Problemi dell’intuizione Testi che occorrono naturalmente sono osservabili e verificabili da chiunque. Frasi/testi creati ad hoc e basati sull’intuizione sono artificiali e potenzialmente soggettivi e discutibili (“secondo me non si dice…”) I parlanti hanno solo vaghe intuizioni relativamente alla (nozione di) frequenza di un’espressione o una costruzione.

Anni Sessanta Linguisticamente: Tecnologicamente: Economicamente: critiche a linguistica formale ed esempi ad hoc interesse per linguistica testuale/discorso Tecnologicamente: Disk space costa sempre meno Testi digitali sempre più diffusi Economicamente: USA: fondi per valutazione sistemi su larga scala e su dati reali

Nascita di “grandi” corpora 1960s Brown Corpus, 1M di parole 1970s LOB corpus – British English 1980s COBUILD, 8M di parole 1990s BNC, 100M di parole …

Cos’è un corpus? “A corpus is a collection of naturally-occurring language text, chosen to characterize a state or variety of a language.” (Sinclair) Una collezione di materiale linguistico, che possono essere testi scritti o trascrizioni di registrazioni che può essere utilizzata come punto di partenza per una descrizione o analisi linguistica o come uno strumento per verificare una data ipotesi linguistica relativa ad una certa lingua (Dictionary of linguistics and phonetics)

Cos’è un corpus? Una grande quantità di dati solitamente composti da lingua attestata (McEnery) Solitamente un corpus è in formato elettronico e, idealmente, è visualizzabile e analizzabile attraverso un software apposito La parola corpus viene dal latino e il plurale è corpora (!)

Il valore dei corpora Anche parlanti nativi esperti hanno una conoscenza parziale/individuale di una lingua, un corpus può essere più esaustivo e bilanciato Anche parlanti nativi esperti tendono a notare aspetti meno usuali e pensare a ciò che potrebbe essere possibile, un corpus mostra ciò che è tipico e comune Anche parlanti nativi esperti non sono in grado di quantificare le loro conoscenze linguistiche, un corpus può fornire stastiche accurate

Il valore dei corpora Anche parlanti nativi esperti non possono ricordare tutto ciò che sanno, un corpus contiene e può richiamare tutta l’informazione che è stata immessa Anche parlanti nativi esperti possono essere in difficoltà nel creare esempi naturali, un corpus fornisce un gran numero di esempi realmente occorrenti Anche parlanti nativi esperti hanno pregiudizi e preferenze, connotazioni culturali e ideologiche, un corpus può fornire evidenza più oggettiva

Caratteristiche dell’analisi su corpora (Biber, 1998) it is empirical, analysing the actual pattern of use in natural texts; it utilizes a large and principled collection of natural texts, known as a “corpus”, as the basis for analysis; it makes extensive use of computers for analysis, using both automatic and interactive techniques; it depends on both quantitative and qualitative techniques.

Cosa possiamo fare con un corpus? International Journal of Corpus Linguistics Corpus Linguistics and Linguistic Theory

Campi in cui si usano corpora Lessicografia -> dizionari Studi a tutti i livelli di analisi linguistica che abbiamo visto Linguistica computazionale (per esempio in apprendimento automatico) Language teaching (learner’s corpora) Sociolinguistica (variazioni di diversi tipi) …

Corpus-based e Corpus-driven approcci corpus-based: ipotesi linguistiche preformulate su base teorica vengono verificate su un corpus approcci corpus-driven: ipotesi linguistiche vengono derivate direttamente dall’osservazione di dati

Parametri di un corpus (1) Lingua: Monolingue Multilingui (corpora confrontabili) Paralleli Tipi di sorgenti: Scritto (generi) Parlato (radio, spontaneo, …) Misto

Parametri di un corpus (2) Dimensioni corpus size (= numero di token) vocabulary size (= numero di type) Dinamicità: statico/monitor Informazione aggiuntiva (annotazione/markup) annotato/non annotato livello di annotazione tipo di codifica (testo, SGML/XML)

Modi di usare un corpus Concordanze Liste di frequenza (token/type) Collocazioni Programmi appositi per la ricerca (specialmente laddove il corpus è annotato)

Concordanze mostrano le parole nel contesto in cui compaiono (estensione di norma personalizzabile) di norma si sfruttano programmi appositi che consentono di visualizzare e manipolare liste di concordanze KWIC (Key Word In Context) è lo strumento/formato più frequente

Dimensioni: type e token

Type e token Brown corpus: Birmingham/Cobuild corpora: 1M tokens 50,406 types Birmingham/Cobuild corpora: 1M tokens (spoken only) 36,807 types 17,459 occorrono una volta sola Times newspapers 4M tokens 122,773 types 54,144 occorrono una volta sola general corpus of English 18m tokens 228,323 types 131,299 occorrono una volta sola

Type e token 121m tokens 211m tokens 323m tokens 418m tokens 475,633 types 213,684 occorrenze singole 211m tokens 638,901 types 323m tokens 812,467 types 418m tokens 938,914 types 438,647 occorrenze singole

Liste di frequenza liste che indicano le parole che compaiono in un corpus e la loro frequenza danno un’immagine quantitativa del corpus una lista di frequenza ottenuta su un dato corpus può essere confrontata con quella ottenuta su dati diversi NB: ciascuna parola è isolata dal contesto

N-grammi gruppi di N parole che appaiono in sequenza nel testo si presentano come liste di frequenza (a ciascun N-gramma è associato il numero di occorrenze) utili per identificare espressioni specifiche e ricorrenti in un corpus la parola non è completamente avulsa dal contesto

Collocazioni collocazione = N-gramma significativo (ricordate le misure di associazione?) collocati estratti data una cera finestra alla sinistra (w-x) e destra (w+x) di una data parola (w) utili per identificare espressioni polirematiche e per studiare l’immediato contesto di una parola (frames etc.)

Costruire corpora Modi di acquisire/costruire corpora: Già in formato elettronico: conversione diretta Scansione da cartaceo Digitazione manuale Trascrizione di registrazioni (parlato)

Costruire corpora Lingua Dimensioni Genere (dominio, distribuzione, …) Dinamicità (statico/monitor) Annotazione

Costruire corpora è impegnativo! Selezione del materiale, permessi, acquisizione Pulizia, spell-checking, annotazione, indicizzazione Documentazione Valutazione Distribuzione

Web = corpus?

Web = corpus? Il Web può essere una sorgente di testi estremamente utile (enorme) Può essere di grande aiuto specialmente per lingue diverse dall’Inglese (e lingue per cui corpora controllati già esistono) Non è bilanciato, non è pulito, non si sa esattamente cosa c’è dentro…

Wacky! corpora creati dal Web ma “ripuliti” e annotati circa 2% di materiale tenuto ItWac, UkWac, …

Annotazione Arricchimento di un corpus con informazione di vario tipo (sostanzialmente tutti i livelli di analisi linguistica che abbiamo discusso) speech (fonetica) parola: part of speech, classi, sensi, … frasi: confini, alberi sintattici, dipendenze, … discorso: segmenti, anafora, relazioni di coerenza, … oltre: variazioni, opinioni, sentimenti, …

Schema di annotazione rappresentazione di un dato fenomeno linguistico da annotare teorico + pratico accompagnato solitamente da un insieme di istruzioni per guidare l’annotatore nelle scelte

Esempio <P><S><W POS="PRON" NUM="PL“ LEMMA="we">We</W><W POS="V" LEMMA="have">have</W><W POS="EN" LEMMA="develop">developed</W><NP><W POS="DET" LEMMA="a">a</W><W POS="A“ LEMMA="computational"> computational</W><W POS="N" NUM="SG" LEMMA="paradigm"> paradigm</W><W POS="PUNCT">,</W> ...</NP> ... </S></P>

Esempio schema

Principi di annotazione (Leech 93) l'annotazione deve poter essere rimossa lo schema per l'annotazione deve essere basato su regole precise ed essere anche a disposizione dell'utente deve essere sempre chiaro chi (quanti annotatori e con quali caratteristiche) e come (manualmente semi-automaticamente e con quali strumenti) ha annotato l'utente deve essere consapevole che l'annotazione non è ``oro" né infallibile e deve essere semplicemente considerata come strumento di lavoro lo schema di annotazione dovrebbe essere basato su principi il più possibile condivisi

Come annotare in pratica manualmente, attraverso strumenti di sostegno appositi: sveltiscono il processo riducono l’errore umano automaticamente (per esempio POS) semi-automaticamente: primo passo automatico seguito da correzione (spesso di una porzione) manuale

Alcuni corpora esistenti Brown Corpus/LOB corpus Bank of English Wall Street Journal, Penn Tree Bank, BNC, ANC, ICE, WBE, Reuters Corpus Canadian Hansard: corpus parallelo inglese-francese York-Helsinki Parsed corpus of Old Poetry Tiger corpus – tedesco Europarl - corpora paralleli (lingue della Comunità Europea) …

Distributori di corpora LDC (Linguistic Data Consortium) ELRA (European Language Resources Association) TRACTOR (TELRI Research Archive of Computational Tools and Resources) ICAME (International Computer Archive of Modern and Medieval English)

Per l’Italiano CORIS/CODIS (POS) La Repubblica (POS+lemma) ItWac (POS+lemma) TuT (Turin Treebank) VIT (Venice Italian Treebank) VENEX (anafora)

Riferimenti Karin Aijmer and Bengt Altenberg (1991) English corpus linguistics, Longman Tony McEnery and Andrew Wilson (1996) Corpus linguistics, Edinburgh University Press Geoff Barnbrook (1996) Language and Computers, Edinburgh University Press Michael Oates (1998) Statistics for Corpus Linguistics, Edinburgh University Press Duglas Biber, Susan Conrad and Randi Reppen (1998) Corpus linguistics, Cambridge University Press Graeme D. Kennedy (1998) An introduction to corpus linguistics, Longman Tony McEnery (2003) Corpus linguistics. In Ruslan Mitkov (ed.) The Oxford Handbook of Computational Linguistics, Oxford University Press