INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER

Slides:



Advertisements
Presentazioni simili
Dizionari elettronici in glottodidattica: possibilità attuali e potenzialità future Isabella Chiari Dizionari elettronici in glottodidattica: possibilità.
Advertisements

INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER
INFORMATICA UMANISTICA MODULI B, C E D
Informatica umanistica moduli B, C e D dit. unitn
Informatica umanistica: Moduli B, C e D
Informatica Generale Susanna Pelagatti
INFORMATICA UMANISTICA MODULI B, C E D Massimo Poesio (B, D) Marco Baroni (Lab D) Roberto Zamparelli (C)
INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER
ANNUNCI ORARI: RICEVIMENTO:
Sistemi di Classificazione usando NCD
Luso dei corpora nellinsegnamento dellitaliano per scopi speciali Gianfranco Porcelli Venezia, 19 luglio 2010.
Andrea Firpo – Voice XML: un linguaggio per la definizione di interazioni vocali 1 Voice XML: Un linguaggio per la definizione di interazioni vocali.
1 Informatica Generale Susanna Pelagatti Ricevimento: Mercoledì ore presso Dipartimento di Informatica, Via Buonarroti,
Informatica Generale Alessandra Di Pierro
Sistemi di supporto alle decisioni 2. Features space
Bioinformatica Prof. Mauro Fasano
TAPoR Text Analysis Portal for Research. Cosè Tapor Si tratta di un analizzatore testuale che prevede 3 set di strumenti per altrettante tipologie di.
Apprendimento Automatico: Elaborazione del Linguaggio Naturale
Istituzioni di linguistica
Testing e Debugging.
Digressione: il linguaggio di query CQP
INFORMATICA UMANISTICA B
INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Corpora e contesti Concordanze Collocazioni.
INFORMATICA UMANISTICA B
INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER
Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo.
Informatica Generale Susanna Pelagatti
Linguaggi di markup1 LINGUAGGI DI MARKUP. Linguaggi di markup2 Documenti su Internet Internet permette (tra laltro) di accedere a documenti remoti In.
informatica di base per le discipline umanistiche
Lezione 6 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università
informatica di base per le discipline umanistiche
informatica di base per le discipline umanistiche
Lezione 8 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università
Informatica giuridica Informatica e lingua del diritto Nicola Palazzolo Anno Accademico 2006/2007.
Modelli ed Applicazioni di Reti di Calcolatori L-S Anno Accademico Università degli Studi di Bologna Ing. Fabio Tarantino –
Punteggiatura.
Strategie d’uso del computer nella didattica
GEOFFREY LEECH A GUIDE TO GOOD PRACTICE ADDING LINGUISTIC ANNOTATION Federica Chierici.
Large linguistically-processed Web corpora for multiple languages Marco Baroni e Adam Kilgarrif in Proceedings of EACL 2006 presentazione Fantini - Inglese.
Che cos’è l’annotazione di un corpus?
Guida alluso del Dizionario Multilingue per lUtente Professionale.
A SCUOLA DI PODCASTING nell’era del web 2.0 Lecco
Corso di didattica della matematica
CORSO AVANZATO INFORMATICA
Espressione polirematica
Il World Wide Web Lidea innovativa del WWW è che esso combina tre importanti e ben definite tecnologie informatiche: Documenti di tipo Ipertesto. Sono.
Water is life - Water, our lives
NOZIONI DI LINGUAGGIO GIORNALISTICO
entra. Ricerca semplice inserire la parola click! Non occorre indicare la lingua !
Programma di Informatica Classi Prime
ELABORAZIONE DEL LINGUAGGIO NATURALE
Esame DSD I può essere sostenuto solo nella sua completezza
Come collaborare all'organizzazione di un corso in rete
Cinema e web: verso un ambiente formativo integrato Fondazione Ismu Milano, sabato 20 settembre 2008 ore Riccardo Triolo Laboratorio Itals Dipartimento.
Curriculum vitae multimediale di Anna Rossi Dati personali: Nata il 20 giugno 1978 a Palermo residente a Vicenza in via Pagliarino n62 Cod.Fisc. RSSNNO78H60G273D.
Creazione di pagine per Internet Brevi note a cura di Emanuele Lana
Il Parallel Turin University Treebank Cristina Bosco – Manuela Informatica applicata alla comunicazione multimediale
TEORIE E TECNICHE DEL RICONOSCIMENTO
INTRODUZIONE. Javascript è un linguaggio di scrittura che permette di aggiungere veri e propri programmi alle tue pagine web.
InternetInternet Sede: Salvo D’acquisto 2010/2011 Docente: Vito Monno.
Testi in inglese AA Semestre II
TW Asp - Active Server Pages Nicola Gessa. TW Nicola Gessa Introduzione n Con l’acronimo ASP (Active Server Pages) si identifica NON un linguaggio di.
1 Informatica Generale Alessandra Di Pierro Ricevimento: Giovedì ore presso Dipartimento di Informatica, Via Buonarroti,
Informatica Umanistica LM - Scienze del Testo Docente Alessia Scacchi.
Tecnologie della lingua Human Language Technology (HLT)
Informatica Lezione 3 Psicologia dello sviluppo e dell'educazione (laurea magistrale) Anno accademico:
Università degli studi di Modena e Reggio Emilia Facoltà di Scienze Fisiche, Informatiche e Matematiche Corso di Laurea in Informatica Progettazione e.
____________________________ Stefano Scarcella Prandstraller Relazioni istituzionali e Gestione della responsabilità sociale d’impresa Il focus group E’
Corso di “Teorie e pratiche della traduzione” “La scrittura accademica attraverso le lingue e le culture: studio su corpus della voce autoriale” Dott.ssa.
Programmazione orientata agli Oggetti Introduzione a Java.
Transcript della presentazione:

INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER LESSICI E CORPORA

USO DEI CORPORA NELLA LESSICOGRAFIA Where did the Encarta Concise English Dictionary’s editors find the information on which to base their definitions? The Bloomsbury Corpus of World English, which now has over 150 million words, provided the main evidence. We amplified this with a tailored reading programme in science, technology, business, and other key areas in order to find evidence of word use in varied fields. Lastly we used the Internet as a research source. Introduzione a ECED (citata da Jackson, p. 167)

ALTRI DIZIONARI BASATI SU CORPORA Collins COBUILD BANK OF ENGLISH (Birmingham) (400M) Oxford, Longman BRITISH NATIONAL CORPUS (150M) Cambridge CAMBRIDGE LANGUAGE SURVEY

ITALIANO Non esiste ancora un dizionario come CoBUILD Vocabolario Elettronico della Lingua Italiana, VELI (De Mauro / IBM, 1989) Lessico di Frequenza dell’Italiano Parlato (LIP) (De Mauro et al, 1993)

CORPORA Da lezioni Essex? Lenci Montemagni & Pirrelli

CORPORA CORPUS: una collezione di testi selezionati ed organizzati in maniera tale da soddisfare specifici criteri. Lenci, Montemagni & Pirrelli, p. 26

CORPORA & COMPUTERS I corpora esistevano prima dell’avvento dei calcolatori elettronici, ma le loro funzionalita’ e dimensioni erano limitate

TIPI DI CORPORA GENERALI (Brown, BNC) o SPECIFICI (Childes, ICONOCLAST, EuroParl) SCRITTO (BNC) o PARLATO (LIP) od ambedue SINCRONICO (Brown) o DIACRONICO (Italnet, Repubblica) MONOLINGUA, MULTILINGUE (Parole), o PARALLELI (Hansard, EuroParl)

ALCUNI CORPORA PER L’INGLESE Corpus # Tokens Comments Brown 1 000 000 Tagged, balanced British National Corpus (BNC) 100 000 000 POS tagged Penn Treebank 2 000 000 Parsed MapTask 150 000 Spoken dialogue, parsed, dialogue acts Bank Of English 450 000 000 Aperto

IL BROWN CORPUS Il primo corpus in formato elettronico moderno (Francis and Kucera, 1961) 500 testi, ognuno 2 000 parole Analisi SINCRONICA dell’Inglese Americano: testi di 15 generi (fantascienza, romanzi, articoli scientifici, reportage a stampa) Annotata la parte del discorso di tutte le parole (87 classi) Interesting because (i) balanced (ii) simple example of annotation

CORPORA MODERNI Includono scritto, parlato, & nuove forme (web, email, blogs) Tipicamente testi interi Sopra i 100 milioni di parole Marcatura standardizzata (tipicamente XML)

IL British National Corpus (BNC) Creato tra il 1991 ed il 1994 da un consorzio diretto da Oxford University Press Circa 100 milioni di parole Classificazione grammaticale automatica usando il classificatore CLAWS (parti corrette a mano successivamente) http://www.hcu.ox.ac.uk/BNC

FORMATO (SGML) <div1 complete=y org=seq> <head> <s n=00040> <w NN2>TROUSERS <w VVB>SUIT </head> <caption> <s n=00041> <w EX0>There <w VBZ>is <w PNI>nothing <w AJ0>masculine <w PRP>about <w DT0>these <w AJ0>new <w NN1>trouser <w NN2-VVZ>suits <w PRP>in <w NN1>summer<w POS>'s <w AJ0>soft <w NN2>pastels<c PUN>. <s n=00042> <w NP0>Smart <w CJC>and <w AJ0>acceptable <w PRP>for <w NN1>city <w NN1-VVB>wear <w CJC>but <w AJ0>soft <w AV0>enough <w PRP>for <w AJ0>relaxed <w NN2>days </caption>

REINTERPRETAZIONE XML <head> <s id=“n00040”> <w C=“NN2”>TROUSERS </w> <w C=“VVB”>SUIT </w> </head> <caption> <s id=“n00041”> <w C=“EX0”>There </w> <w C=“VBZ”>is </w> <w C=“PNI”>nothing </w> <w C=“AJ0”>masculine </w> …. </s> <s n=00042> … </s> ……. </caption>

BNC: INTERFACCIA Query tool: SARA Interfaccia WEB: http://sara.natcorp.ox.ac.uk/lookup.html

CORPORA PER L’ITALIANO Il termine ‘corpus’ usato perche’ il primo corpus elettronico e’ la raccolta dei testi di S. Tommaso d’Aquino creata da padre Busa negli anni ’50 Alcuni corpora: ITALNET (1849 testi anteriori a Boccaccio) LIP (de Mauro et al, 1993) REPUBBLICA

UN ESEMPIO: IL CORPUS DI REPUBBLICA Creato da SSMIT all’Universita’ di Bologna (Forli’) Annate di Repubblica dal 1985 al 2000 380 milioni di parole tokenizzate, classificate grammaticalmente, e lemmatizzate Codifica XML secondo lo standard TEI Disponibile a: http://sslmitdev-online.sslmit.unibo.it/corpora/corpus.php?path=&name=Repubblica (Occorre registrarsi)

CORPORA PER LA LESSICOGRAFIA Esempio del tipo di scelte che si devono fare Tipicamente includono sia parlato che scritto Diacronici

ANALISI LESSICOGRAFICA DI TESTI Identificazione dei LEMMI (e delle loro parti del discorso) Calcolo delle loro frequenze Costruzione di CONCORDANZE liste ordinate di parole che si trovano in un testo con il contesto Identificazione di COLLOCAZIONI “broken twig”

INFORMAZIONI CHE SI POSSONO ESTRARRE DA CORPORA Nuovi lemmi Nuovi usi di lemmi Frequenze Concordanze (= rimpiazzano le citazioni)

L’IDENTIFICAZIONE DEI LEMMI IN UN TESTO TOKENIZZAZIONE LEMMATIZZAZIONE CLASSIFICAZIONE GRAMMATICALE

TOKENIZZAZIONE C’ERA UNA VOLTA UN PEZZO DI LEGNO.

ALCUNI PROBLEMI CON IL PUNTO C’ERA UNA VOLTA UN PEZZO DI LEGNO. IL SIG. ROSSI TELEFONÓ A CASA. U.S.A. 9.45 WWW.GOOGLE.IT

MAIUSCOLE E MINUSCOLE Rossi / rossi Ciliegia / ciliegia

TOKEN COMPLESSI Los Angeles, La Spezia Di rado, fuori servizio Ad hoc Tagliare la corda GU L 161 del 26.6.1999

LEMMATIZZAZIONE DARGLIELO

LEMMATIZZAZIONE NEL LIP In Italiano, una volta nota la categoria grammaticale di una forma il lemma e’ solitamente univocamente determinato Eccezioni: 1.4% (CONTI: pl. di  CONTO o  CONTE) Processo in tre passi

LEMMATIZZAZIONE ANCORA LA DERIVA: ANCORA (N, V, CON) LA (ART, PRO) DERIVA N, V) ANCORA (V) LA (ART) DERIVA (N) ANCORA (V ANCORARE) LA (ART IL) DERIVA (N DERIVA)

LEMMATIZZAZIONE CON XELDA

XELDA: DEMO ONLINE Analisi morfologica in 14 lingue

CLASSIFICAZIONE GRAMMATICALE In molti dei corpora piu’ recenti (a partire dal Brown corpus), e particolarmente in quelli usati per la lessicografia, i lemmi vengono classificati con la loro parte di discorso Brown corpus: fatto a mano BNC, LIP: fatto automaticamente

CLASSIFICAZIONE GRAMMATICALE Molte forme di parola possono essere associate con parti del discorso diverse: STATO sia sostantivo (LO STATO ITALIANO) che verbo (NON SONO STATO IO)

CLASSIFICAZIONE GRAMMATICALE: BROWN CORPUS Television/NN has/HVZ yet/RB to/TO work/VB out/RP a/AT living/RBG arrangement/NN with/IN jazz/NN ,/, which/VDT comes/VBZ to/IN the/AT medium/NN more/QL as/CS an/AT uneasy/JJ guest/NN than/CS as/CS a/AT relaxed/VBN member/NN of/IN the/AT family/NN ./. One of the most basic levels of linguistic analysis A simple example of TAGGING (the most basic type of annotation)

AMBIGUITA’ NELLA CLASSIFICAZIONE GRAMMATICALE The AT man NN VB still NN VB RB saw NN VBD her PPO PP$

STATISTICHE SULL’AMBIGUITA’ NEL B.C. Unambiguous (1tag) 35,340 Ambiguous (2-7 tags) 4,100 2 tags 3,760 3 tags 264 4 tags 61 5 tags 12 6 tags 2 7 tags 1 (“still”)

METODI PER LA CLASSIFICAZIONE GRAMMATICALE Prevalentemente STATISTICI Combinano: Informazioni sulla FREQUENZA di una parola Con informazioni sul CONTESTO (specialmente parole precedenti) E sulla sua MORFOLOGIA (specialmente per parole sconosciute) POBILARE

CONCORDANZE Jackson, 168 ff Lenci et al, 7.2

CONCORDANZE In Pinocchio, la forma BUONO occorre 11 volte. Domande che si pone un lessicografo: Quali parti del discorso? Quali sensi? Usati in quali contesti? Soluzione: le CONCORDANZE

CONCORDANZE CONCORDANZA = forma + contesto 1   1,    1    |    uomini, sono stati e sono o repubbliche o principati. È principati 2   2,    1    |    indrieto el ragionare delle repubbliche, perché altra volta ne ragionai 3   5,    2    |  assicurarsi di loro. Ma nelle repubbliche è maggiore vita, maggiore 4   8,    1    |    dove si trattassi delle repubbliche. Questi sono quando, o per 5  12,    3   |     vede a' principi soli e repubbliche armate fare progressi grandissimi, 6  13,    6   | Alessandro Magno, e come molte repubbliche e principi si sono armati 7  15,    1   |       molti si sono immaginati repubbliche e principati che non si

RICERCHE E CONCORDANZE NEL CORPUS DI REPUBBLICA L’interfaccia Web al corpus puo’ essere usata per Query di vario tipo (ritrovano concordanze) Calcolare frequenze di parole

TOOLS PER L’ANALISI LESSICOGRAFICA Esistono oggi moltissimi tools che permettono di eseguire il tipo di analisi appena visto automaticamente Esempi: WORDSMITH distribuito da ICAME (a pagamento) TextSTAT (gratis) WORDSKETCH (a pagamento)

TextSTAT Sviluppato dal Dipartimento di Linguistica Olandese della Freie Universitaet Berlin Permette di estrarre FREQUENZE e CONCORDANZE da ‘CORPORA’ che includono testi in ASCII, HTML, e WORD Si puo’ scaricare da: http://www.niederlandistik.fu-berlin.de/textstat/software-en.html

TextSTAT

TEXTSTAT Visita al sito Creazione di nuovo corpus Aggiunta di file a corpus

CONCORDANZE: FORME DIVERSE DI CONTESTO e le colonne e i simulacri e l’ERME ch’abbella agli occhi tuoi quest’ERMO lido, Bruto per l’atra notte in ERMA sede, ERMA terrena sede! Oh quanto affanno Sempre caro mi fu quest’ERMO colle, l’ERMA terra contemplo, e di fanciulla de’ tuoi steli abbellir l’ERME contrade ERME Torri, I 2 ERMO lido, IV 4 ERMA sede, VI 11 ERMA terrena sede, VIII 36 ERMO colle, XII 1 L’ERMA terra contemplo, XVI 63 ERME contrade, XXXIV 8

TEXTSTRACT e CONCORDANZE Cambiamento contesto

COLLOCAZIONI Marello, 6.6.2 Lenci et al. 7.4 p. 196

COLLOCAZIONI NOTTE FONDA, LUNA PIENA, ALTA STAGIONE COLLOCAZIONE: sequenza di due o piu’ parole caratterizzate da un forte legame di associazione

TIPI DI COLLOCAZIONI TERMINI TECNICI: sistema operativo, corte d’Assise VERBO SUPPORTO: fare attenzione, prendersi un caffe’, dar manforte COSTRUZIONI IDIOMATICHE: tagliar la corda, tirare le cuoia

RICERCA DI COLLOCAZIONI Usando metodi statistici Intuizione: cercare di scoprire coppie la cui probabilita’ di occorrere in sequenza e’ molto maggiore di quel che ci si aspetterebbe date le relative probabilita’ di occorrenza

DAI LEMMI IN UN CORPUS AI LEMMI IN UN DIZIONARIO Durante la progettazione di un dizionario, si determinano Le DIMENSIONI del dizionario (numero di lemmi) Il bilanciamento tra le lettere dell’alfabeto La lunghezza delle definizioni L’uso dei dati estratti automaticamente per la compilazione richiede un passo non-automatico

CORPORA E LESSICOGRAFIA (AGAIN) De Mauro, 1980: VOCABOLARIO DI BASE (VDB) 2000 vocaboli fondamentali (“se usiamo solo … possiamo sperare di essere capiti dal 66% della popolazione Italiana che ha almeno la licenza elementare”) 2937 di alto uso, 1753 di ‘alta disponibilita’’ LIP e VDB: AMICO, CRITICO, ESPRESSO: VDB solo sostantivi, LIP anche verbi Non nel LIP: UNGHIA, BUGIA, PUGNO

CORPORA ALLINEATI E APPRENDIMENTO DELLE LINGUE I corpora allineati (Hansard, EUROPARL) sono una risorsa importante sia per la traduzione che per l’apprendimento Interfaccia a EuroParl (Portoghese / Francese): http://eremita.di.uminho.pt/albin/nat-search.cgi

DIZIONARI INVERSI Per trovare rime Per studi dei suffissi Marello, p. 173

CREAZIONE DI CORPORA Un impegno significativo Essenziale chiarire sin dall’inizio usi che si vogliono fare: Che linguaggio si vuol campionare Che tipi di analisi Decisioni tecniche: Codifica dei testi (ASCII, XML) (modulo C) Tokens, lemmi, etc.

IL LESSICO DI FREQUENZA DELL’ITALIANO PARLATO De Mauro, Mancini, Vedovelli e Voghera: LESSICO DI FREQUENZA DELL’ITALIANO PARLATO, ETAS libri, 1993 500 000 lemmi in totale (57 h di registrazione) Raccolti in ugual numero a Milano, Firenze, Roma e Napoli 100 000 occorrenze per ognuno di cinque ‘tipi di parlato’ (da conversazione a ‘scambio unidirezionale’ = discorsi politici)

CREAZIONE DEL CORPUS Raccolta dei materiali Trascrizione Trattamento automatico

RACCOLTA DEI MATERIALI Gruppo A: conversazioni bidirezionali faccia a faccia in casa / sul lavoro / a scuola / etc Gruppo B: conversazioni bidirezionali NON faccia a faccia (al telefono) Gruppo C: conversazioni bidirezionali faccia a faccia ma “con presa di parola non libera” (esami universitari / assemblee legislative / interviste) Gruppo D: scambio unidirezionale in presenza del destinatario (lezioni, relazioni, comizi, omelie) Gruppo E: scambio unidirezionale a distanza (trasmissioni televisive / radiofoniche)

CREAZIONE DEL CORPUS Raccolta dei materiali Trascrizione A mano Non IPA Vari simboli per pause, tenute vocaliche (ciao_), etc. Trattamento automatico

CREAZIONE DEL CORPUS Raccolta dei materiali Trascrizione Trattamento automatico: Tokenizzazione Lemmatizzazione Classificazione grammaticale Correttezza: tra il 91% ed il 94%

ALCUNE STATISTICHE il (Art) 37076 non (Av) 7752 di (Prep) 16721 in (Prep) 6879 essere (V) 15220 che (Pro) 6705 uno (Art) 12204 io (Pro) 5872 a (Prep) 11671 che (Cong) 5501 e (Cong.) 9858 avere 5396 egli (Pro) 8360 per (Prep) 4956

LA CURVA DI ZIPF

LIP e LIF Non emergono chiare regole Spostamenti di RANGO Mo’: 326 nel LIP, 3296 nel LIF Praticamente: 221 LIP, 3513 LIF Generalmente pero’ bilanciato (fare: 15 LIP, 16 LIF) Dimensioni troppo ridotte

LETTURE Jackson, cap. 13 Lenci et al: cap. 1, cap 4.1, cap. 7 Marello, cap. 5.3, 6.6 De Mauro et al 1993

ACKNOWLEDGMENTS Ringraziamenti a Marco Baroni (UniBo)