INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER

Slides:



Advertisements
Presentazioni simili
Primary Italian Saying How You Are.
Advertisements

Dizionari elettronici in glottodidattica: possibilità attuali e potenzialità future Isabella Chiari Dizionari elettronici in glottodidattica: possibilità.
INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER
INFORMATICA UMANISTICA MODULI B, C E D
MULTICULTURALITÀ E APPRENDIMENTO LINGUISTICO (M-Z)
Proposte di attività. No man can reveal to you aught but that wich already lies half asleep in the dawning of our knowledges. (K. Gibran: Il Profeta)
Informatica umanistica: Moduli B, C e D
INFORMATICA UMANISTICA MODULI B, C E D Massimo Poesio (B, D) Marco Baroni (Lab D) Roberto Zamparelli (C)
ITL1121 ITL112 ELEMENTARY ITALIAN II Andrea Fedi.
Blog per lapprendimento della lingua e cultura straniera Maria Gragnaniello, Rita Mazzocco e Gaetano Vergara.
VERSO UN CURRICOLO PLURILINGUE, il “P. E. L
Università degli studi di Modena e Reggio Emilia
governare l’Information Overload
Sistemi di supporto alle decisioni 2. Features space
Apprendimento Automatico: Elaborazione del Linguaggio Naturale
Istituzioni di linguistica
Istituzioni di linguistica
Il lessico Lessico: insieme delle parole di una lingua (astratto)
INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Corpora e contesti Concordanze Collocazioni.
INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER
INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER
Psicologia della scrittura manuale ed elettronica.
IL PASSAPORTO LINGUISTICO
informatica di base per le discipline umanistiche
Lezione 8 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università
1 RISORSE DISPONIBILI PER GLI UTENTI B.A.U. Orientamento bibliografico – II modulo.
Strategie d’uso del computer nella didattica
Che cos’è l’annotazione di un corpus?
ALTRI USI DEL CONGIUNTIVO CONGIUNZIONI
Il Passato Prossimo The Past Perfect Tense.
Espressione polirematica
Come nella stampa tradizionale, un giornale online può essere di informazione informazione o un periodico dedicato a una disciplina specifica.
Indirect Object Pronouns
Chi trova un amico.
ESERCIZI SVOLTI DI GRAMMATICA INGLESE
entra. Ricerca semplice inserire la parola click! Non occorre indicare la lingua !
CORSO LINGUA INGLESE 1 Primo anno scuola secondaria superiore
Lezione 3 Struttura lessicale del linguaggio
Oggi è il due marzo LO SCOPO: Usiamo il passato prossimo. FATE ADESSO: Tirate fuori il compito.
Italian - English Giacomo Puccini La boheme 1896 Luciano Pavarotti.
I Want To Hold Your Hand Beatles.
PINK FLOYD DOGS You gotta be crazy, you gotta have a real need. You gotta sleep on your toes. And when you're on the street. You gotta be able to pick.
Come costruire sistemi di elaborazione del linguaggio naturale Fornire le conoscenze necessarie per elaborare dati linguistici –Acustico-fonetiche (input.
© and ® 2011 Vista Higher Learning, Inc.6B.1-1 The imperfetto can be translated into English in several ways. Lia piangeva. Lia cried. Lia used to cry.
Relazione bi-adica (qualcosa sta per qualcos’altro)
Informatica Umanistica LM - Scienze del Testo Docente Alessia Scacchi.
Tecnologie della lingua Human Language Technology (HLT)
Each student will be able to ask an adult or stranger: What do you like to do? and What don’t you like to …?
Capitolo 3 Espressioni con AVERE.
Il Futuro parlare parlerò parlerai parlerà parleremo parlerete
L A R OUTINE D EL M ATTINO Ellie B.. Io mi sono svegliata alle cinque del mattino.
PHRASAL VERBS.
What are relative pronouns? Pronouns that stand in for an aunt or uncle?
Passato prossimo dei verbi riflessivi con Essere
La Comprensione frasale
The Definite Articles Italian 1 Signorina Vitamia.
La vita quotidiana Una giornata tipica In this presentation you are going to learn how to talk about your daily routine and use reflexive verbs.
Corso di “Teorie e pratiche della traduzione” “La scrittura accademica attraverso le lingue e le culture: studio su corpus della voce autoriale” Dott.ssa.
Buon giorno, ragazzi oggi è il quattro febbraio duemilasedici
D. S. A. SCUOLA PRIMARIA In questa sezione si possono trovare materiali utilizzati e lavori svolti da alcune insegnanti nelle classi con gli alunni. L’
Lucrezia Pedrali - Leno 2008 LINGUA ITALIANA Noi pensiamo un universo che è già pre-formato dalla nostra lingua E. Benveniste.
Stare essere avere Irregular Verbs Meaning: To Be To Have.
Elementi di linguistica italiana. Le strutture dell italiano.
Tre studenti fanno una pausa e vanno al bar. Ascolta il dialogo e completa la griglia.
  Il termine collocation fu coniato da J. R. Firth negli anni ‘50, e indicava una co-occorrenza abituale di lessemi individuali: il significato di una.
Buon giorno, ragazzi oggi è il quattro aprile duemilasedici.
ITALIAN ITALIAN FOR POST GRADUATE STUDENTS 22 nd February 2016 WEEK 1 Aureliana Di Rollo.
Subject Pronouns & Verbs. When do we use subject pronouns? Subject pronouns stand in for the subject. I, You, He/She, We, They. I went to the shops. You.
 Italian 3 – Cap. 9. The imperative form of verbs is used to give order, suggestions, directions, and instructions. The informal imperative – the tu,
Transcript della presentazione:

INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Contesti e Concordanze Collocazioni Dizionari elettronici

CITAZIONI You taught me language, and my profit on’t Is, I know not how to curse: the red plague rid you For LEARNING me your language Citazione da The Tempest in Johnson’s Dictionary

Due usi di contesti nella lessicografia Per determinare conoscenze lessicali nel senso discusso nelle due lezioni precedenti Classe grammaticale, accezioni  CONCORDANZE Per identificare aspetti ‘collocazionali’  COLLOCAZIONI

CONCORDANZE In Pinocchio, la forma BUONO occorre 11 volte. Domande che si pone un lessicografo: Quali parti del discorso? Quali sensi? Usati in quali contesti? Soluzione: le CONCORDANZE

CONCORDANZE CONCORDANZA = forma + contesto 1   1,    1    |    uomini, sono stati e sono o repubbliche o principati. È principati 2   2,    1    |    indrieto el ragionare delle repubbliche, perché altra volta ne ragionai 3   5,    2    |  assicurarsi di loro. Ma nelle repubbliche è maggiore vita, maggiore 4   8,    1    |    dove si trattassi delle repubbliche. Questi sono quando, o per 5  12,    3   |     vede a' principi soli e repubbliche armate fare progressi grandissimi, 6  13,    6   | Alessandro Magno, e come molte repubbliche e principi si sono armati 7  15,    1   |       molti si sono immaginati repubbliche e principati che non si

STRUMENTI INFORMATICI PER LA RICERCA DICONCORDANZE Esistono oggi moltissimi strumenti che permettono di eseguire il tipo di analisi appena visto automaticamente Esempi: WORDSMITH distribuito da ICAME (a pagamento) TextSTAT (gratis) WORDSKETCH (a pagamento)

TextSTAT Sviluppato dal Dipartimento di Linguistica Olandese della Freie Universitaet Berlin Permette di estrarre FREQUENZE e CONCORDANZE da ‘CORPORA’ che includono testi in ASCII, HTML, e WORD Si puo’ scaricare da: http://www.niederlandistik.fu-berlin.de/textstat/software-en.html

TextSTAT

CONCORDANZE: FORME DIVERSE DI CONTESTO e le colonne e i simulacri e l’ERME ch’abbella agli occhi tuoi quest’ERMO lido, Bruto per l’atra notte in ERMA sede, ERMA terrena sede! Oh quanto affanno Sempre caro mi fu quest’ERMO colle, l’ERMA terra contemplo, e di fanciulla de’ tuoi steli abbellir l’ERME contrade ERME Torri, I 2 ERMO lido, IV 4 ERMA sede, VI 11 ERMA terrena sede, VIII 36 ERMO colle, XII 1 L’ERMA terra contemplo, XVI 63 ERME contrade, XXXIV 8

COMBINAZIONI DI PAROLE E COLLOCAZIONI “You can tell a word from the company it keeps” (Firth, 1957) La competenza lessicale non consiste solo di conoscenza sintattica, morfologica, e semantica Ma anche di conoscenza in parte arbitraria su quali parole si combinano di preferenza

Restrizioni sulle combinazioni di parole Ordine *Il maglione che righe a indossi, *dormire il letto Restrizioni concettuali ?? Il letto e’ corso a casa Restrizioni lessicali Francese: crescere = grandir (persone), pousser (piante) Tedesco: mangiare = essen (persone), fressen (animali)

Restrizioni lessicali The tall boy (*the high boy) Mantenere un segreto (? Conservare un segreto)

COLLOCAZIONI In lessicografia si distingue tradizionalmente tra `normali’ restrizioni lessicali e COLLOCAZIONI

Collocazioni Pioggia battente (?? Pioggia intensa) Stendere un documento (? Scrivere un documento) Lanciare un messaggio

Intuizione: In queste combinazioni di parole, stendere, battente, lanciare (i COLLOCATI) sono ‘scelti’ dalle BASI (documento, pioggia, messaggio) per esprimere un significato che non hanno quando usati con altre parole ‘Meaning by collocation’, Firth 1957

Definizione di collocazione Una collocazione e’una combinazione di parole soggetta ad una restrizione lessicale per la scelta di una parola (il COLLOCATO) che e’ condizionata da una seconda parola (la BASE)

Importanza delle collocazioni A livello avanzato di conoscenza della lingua straniera, le collocazioni fanno la differenza Italiano lavarsi i denti = Inglese brush one’s teeth (spazzolare) = Tedesco sich Die Zaehne putzen (pulirsi)

VERBI SUPPORTO (= WEAK VERBS) Un caso particolare di collocazioni della forma VERBO + NOME in cui la base (il nome) determina il significato del collocato (il verbo) Prendere una decisione, dare spiegazioni, fare una telefonata, essere in dubbio, avere paura Il verbo ha un significato generico e spesso contribuisce solo il tempo

LOCUZIONI od ESPRESSIONI IDIOMATICHE alzare il gomito tagliare la corda vuotare il sacco mosca bianca Differenza fondamentale dalle costruzioni precedenti: il significato non e’ costruito dai costituenti

RICERCA AUTOMATICA DI COLLOCAZIONI Il termine ‘collocazione’ e’ usato in linguistica computazionale in senso piu’ lato per indicare tanto le restrizioni lessicali quanto le collocazioni vere e proprie quanto gli idiomi

Dalla definizione alla ricerca Non e’ facile definire il termine ‘collocazione’ in modo da poterne automatizzare la ricerca. Si trovano definizioni Frequentista Fraseologica Criteri: Definizione dev’essere UTILE dal punto di vista lessicografico Dev’essere FACILE da OPERAZIONALIZZARE (e possibilmente, automatizzare)

Definizione frequentista Una collocazione e’ ogni combinazione di parole che occorre molto di frequente Piu’ precisamente: ogni combinazione che occorre piu’ frequentemente di quanto non ci si aspettasse per caso Problema: pura frequenza non implica interesse lessicografico Ho mangiato, va’ a casa, cosa dire

COLLOCATI PIU’ FREQUENTI DI ATTENZIONE

Definizioni fraseologiche Una collocazione e’ una co-occorrenza di parole soggetta ad una regola di restrizione (Melcuk & Wanner) Troppo generale: esistono molti tipi di restrizioni

ALLA RICERCA DI COLLOCAZIONI NEI CORPORA I metodi per la ricerca automatica di collocazioni sfruttano una combinazione di informazioni: FREQUENZA Da sola pero’ non e’ sufficiente INFORMAZIONI FRASEOLOGICHE INDICAZIONI DI ‘DISTINZIONE’

INFORMAZIONI FRASEOLOGICHE Si utilizzano corpora in cui i token sono stati classificati grammaticalmente Ci si concentra su alcune combinazioni sintattiche: VERBO NOME NOME AGGETTIVO AGGETTIVO NOME

Potenziali collocati di documento

INDICAZIONI DI ‘IMPORTANZA’ Una volta identificate le costruzioni piu’ frequenti, si cerca di stimare quali siano le costruzioni piu’ INTERESSANTI Le costruzioni interessanti sono quelle che sembrano occorrere con una frequenza maggiore di quella che ci si aspetterebbe

UN ESEMPIO DI INDICAZIONE DI IMPORTANZA La MUTUAL INFORMATION e’ una misura che calcola il rapporto tra la PROBABILITA’ di incontrare due parole assieme con la probabilita’ di incontrarle individualmente Intuizione: se la frequenza di occorrenza di due parole e’ piu’ alta di quel che ci si aspetterebbe, e’ possibile che costituiscano una collocazione

MUTUAL INFORMATION

ESEMPIO

LE PAROLE CON MI PIU’ ALTA NEL WEBBIT

Scelta tra potenziali candidati Il passo successivo sarebbe identificare i candidati che Esprimono restrizioni lessicali interessanti Esprimono vere e proprie collocazioni (= in cui il collocato ha un significato inusuale) Esprimono delle locuzioni (il significato non puo’ essere derivato dai componenti) Questo passo dev’essere fatto a mano!

Collocazioni e lessicografia Che differenza c’e’ tra morbido e soffice? Collocati di morbido: panno, pelle, gomma, burro Collocati di soffice: erba, sabbia, treccia, superficie

Letture Jezek, capitolo 6 Lenci Montemagni e Pirrelli, capitolo 7

DIZIONARI ELETTRONICI

Dizionari elettronici Strumenti informatici usati non piu’ solo per realizzare dizionari cartacei, ma per sviluppare nuovi tipi di dizionari che consentono nuove forme di ricerca

Tre tipi di dizionari in formato digitale Versioni digitali di dizionari tradizionali Collins COBUILD, Devoto-Oli, Zingarelli interattivo Machine Readable Dictionaries ODE Nuove forme di dizionario WordNet

DIZIONARI PER L’INGLESE IN FORMA ELETTRONICA Oxford English Dictionary, seconda edizione Oxford Talking Dictionary Concise Oxford Dictionary Learner dictionaries: Longman Dictionary of Contemporary English (LDOCE) Collins COBUILD English Dictionary

CONCISE OXFORD DICTIONARY RICERCA: Headword search (con *) Hypertext search Full text search (also of phrases / groups) FILTRI: etymology, phrasal verbs, suffixes

COLLINS: COBUILD Disponibile da: http://www.biblio.unitn.it/BancheDati/BancheDati.asp

DIZIONARI ELETTRONICI PER L’ITALIANO Il VELI Zanichelli: CD-ROM Multilingue, Scaffale Elettronico Devoto-Oli Garzanti: IPA  `parla’

DEVOTO-OLI

ESEMPIO: DEVOTO-OLI Ricerca normale Hyperlinks Forme di citazione (incrementale) Hyperlinks Definizione / declinazione Sinonimi / contrari Ricerca avanzata No: pronuncia; citazioni? Limitato: storico

DEVOTO-OLI: SINONIMI E CONTRARI

ESEMPIO: ZINGARELLI INTERATTIVO

MRDS Distinzione importante: Dizionari consultabili elettronicamente Dizionari MACHINE READABLE Dizionari MACHINE TRACTABLE Particolarmente utili: dizionari creati per EFL: LDOCE COBUILD Progetto piu’ ambizioso: ODE in XML

ESEMPIO: STOCK in LDOCE 0100 a supply (of something) for use: a good stock of food 0200 goods for sale: Some of the stock is being taken without being paid for 0300 the thick part of a tree trunk 0400 (a) a piece of wood used as a support or handle, as for a gun or tool (b) the piece which goes across the top of an ANCHOR^1 (1) from side to side 0500 (a) a plant from which CUTTINGs are grown (b) a stem onto which another plant is GRAFTed 0600 a group of animals used for breeding 0700 farm animals usu. cattle; LIVESTOCK 0800 a family line, esp. of the stated character 0900 money lent to a government at a fixed rate of interest 1000 the money (CAPITAL) owned by a company, divided into SHAREs 1100 a type of garden flower with a sweet smell 1200 a liquid made from the juices of meat, bones, etc., used in cooking …..

ESEMPIO: ODE su CD-ROM (in XML) Esempio di database lessicografico in XML (= estremamente machine tractable)

ODE IN XML: OVERVIEW

ODE IN XML: FORMATO DELLE ENTRIES <se>   <cn>815750</cn> - <hg> <hw>stock</hw> </hg> <s1>   <ps>noun</ps> - <s2 num="1"> -   <df>the goods or merchandise kept on the premises of a shop or warehouse and available for sale or distribution:</df>   <ex>the store has a very low turnover of stock</ex>   |   </S2> <S2 num=“2”> …… </S2> </S1> <s1> <ps>adjective</ps> …..

ODE IN XML: INFORMAZIONI NLP   <sup>merchandise</sup>   <ss>Commerce</ss> - <morph id="01"> - <mu sy="NN">   <inf>stock</inf>   <ph>stQk</ph>   </mu> + <mu sy="NNS">   <ph>stQks</ph>   </mu>   </morph>   </nlp>

Due dizionari elettronici ELDIT WordNet

ELDIT (Elektronisches Lern(er)wörterbuch Deutsch-Italienisch – Dizionario elettronico per apprendenti italiano-tedesco ) Un esempio di dizionario Per apprendimento Nato in forma elettronica Lezione su ELDIT: il 9/5