INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER

Slides:



Advertisements
Presentazioni simili
Primary Italian Saying How You Are.
Advertisements

SEI IN FORMA? Mercoledì, ventisette gennaio Objectives - focus on speaking skills: develop confidence - use modal verbs (can/be able/must/have to) - use.
Questa guida spiega come:
INFORMATICA UMANISTICA MODULI B, C E D
Informatica umanistica: Moduli B, C e D
INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER
Lezione 1 Primi passi in HtML SCRIVERE TESTI di Sergio Capone
ITL112 ELEMENTARY ITALIAN II
Sviluppo di programmi strutturati
SBBL E LINTERROGAZIONE DI CINAHL CORSO DI INTRODUZIONE ALLA RICERCA BIBLIOGRAFICA PER STUDENTI DEL CORSO DI LAUREA IN SCIENZE INFERMIERISTICHE Università
Gli aggettivi possessivi Possessive adjectives Your – il tuo… e il vostro His or her – il suo…
TW Analisi dei documenti n Classificazione dei componenti n Selezione dei componenti, costruzione della gerarchia, dei blocchi informativi e degli elementi.
BRISCOLA GO ON AVANTI. Storia I giochi di carte hanno le origini più disparate e vengono collocati in differenti epoche, la Briscola risale al La.
INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER
INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER
Informatica Generale Susanna Pelagatti
Che cos’è l’annotazione di un corpus?
Il Passato Prossimo The Past Perfect Tense.
READING COMPREHENSION
Come nella stampa tradizionale, un giornale online può essere di informazione informazione o un periodico dedicato a una disciplina specifica.
Istruzione, Tirocinio e Lavoro
A man has decided to include in his home intelligent systems to monitor the home. He installed two water pulse counters into the central water system.
L’Unione Europea e la Scuola da anni hanno stretto un patto e per colmare il divario di apprendimento fra le diverse realtà didattiche dei vari Paesi,
The euro. Use this website to answer these questions. n.htm
Cuando Me Enamoro Quando M’Innamoro A Man Without Love M ộ t Ng ườ i Không Có Tình Yêu.
Oggi è il due marzo LO SCOPO: Usiamo il passato prossimo. FATE ADESSO: Tirate fuori il compito.
The Information School of the University of Washington University of Washington1 Introduzione INFO/CSE 100, Spring 2005.
Giovanni Biondi ICT e trasformazione della Scuola.
I giorni della settimana
I Want To Hold Your Hand Beatles.
PINK FLOYD DOGS You gotta be crazy, you gotta have a real need. You gotta sleep on your toes. And when you're on the street. You gotta be able to pick.
Talking about yourself
4/20/20151 Metodi formali dello sviluppo software a.a.2013/2014 Prof. Anna Labella.
Love, Love, Love. Love, Love, Love. Love, Love, Love. There's nothing you can do that can't be done. Nothing you can sing that can't be sung. Nothing.
SCOPA Avanti.
Testi in inglese AA Semestre II
GLI INTERROGATIVI.
ALL YOU NEED IS LOVE Love, Love, Love. There's nothing you can do that can't be done. Nothing you can sing that can't be sung. Nothing you can say but.
Corso di lingua inglese a cura della Prof.ssa Luisa PONTILLO
Informatica Umanistica LM - Scienze del Testo Docente Alessia Scacchi.
Jojo was a man who thought he was a loner But he knew it wouldn't last. Jojo left his home in Tucson, Arizona For some California grass. Get back, get.
Viruses.
Each student will be able to ask an adult or stranger: What do you like to do? and What don’t you like to …?
John Winston Ono Lennon was an English musician. From 1962 to 1970 he was a composer and singer (soloist) of the musical group the Beatles. Along with.
PAST SIMPLE O PRESENT PERFECT?
Passato prossimo dei verbi riflessivi con Essere
SUMMARY Different classes and distortions RIEPILOGO Le diverse classi e le distorsioni RIEPILOGO Le diverse classi e le distorsioni.
Alessandra De Cugis Progetto Tempi e Orari del Comune di Milano Time in the cities, a holistic approach for urban time issues, the case of Milan Paper.
Gli articoli italiani determinativi e indeterminativi La formazione del plurale e.
SI IMPERSONALE “One must pay attention if one wants to do well!”
NOUNS ARE PERSONS, PLACES OR THINGS. SOOO... THERE IS MORE TO THAT THAN YOU THINK!!!
EVIDENCE BASED NURSING: CORSO BASE PER INFERMIERI Busto Arsizio, 11 gennaio 2009 Esercitazione di valutazione critica di un RCT Emilia Lo Palo Infermiera.
Simple Sentences in Italian
Corso di “Teorie e pratiche della traduzione” “La scrittura accademica attraverso le lingue e le culture: studio su corpus della voce autoriale” Dott.ssa.
la giornata: stresses the period of day prima di + infinitivo: before -ing tengono: they keep (or hold) inf. tenere.
Lingua Inglese - analisi dei testi filosofici semestre II
ADVERBS OF FREQUENCY A Spaced Learning Lesson Part I.
Stare essere avere Irregular Verbs Meaning: To Be To Have.
It’s easy to know when we have to put emphasis on the last syllable of words with two or more syllables! These words have an accent on the last letter!
Buon giorno, ragazzi oggi è il quattro aprile duemilasedici.
Comenius Project “Math is B.E.A.U.” that is Beautiful Easy Amusing Useful ITALIAN WORKGROUP ENNISKILLEN (U.K.) May 2011.
ITALIAN ITALIAN FOR POST GRADUATE STUDENTS 22 nd February 2016 WEEK 1 Aureliana Di Rollo.
Avere Vs. Essere Qual è la differenza e quando li usiamo?
Ripasso (review). 222 TUTTE LE STRADE PORTANO A ROMA ALL ROADS LEAD TO ROME lezione finale.
By Teacher Carmine Celentano Benvenuti al... Italian verbs can have 3 desinences: are, ere and ire. In this form they represent the italian infinitive.
Silvia Minardi, Pavia 14 December maps and directions hours.
Oggi è giovedì il dodici settembre 2013
WRITING – EXERCISE TYPES
Gli aggettivi possessivi Possessive adjectives
Accesso al corpus it. / ing. parola cercata sintagmi preposizioni.
Transcript della presentazione:

INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER La compilazione di un dizionario

La compilazione di un dizionario Tre fasi: Progettazione (30%) Scrittura (60%) Produzione (10%)

Tempistica / costi Zgusta: “of the lexicographic projects I know, not a single one was finished in the time and for the money originally planned” Oxford English Dictionary: 7 anni  90 Problemi: Tempo richiesto per scrivere le voci Cambiamenti di staff Tempo per scrivere il software Misura di tempo: “editor week”

Uso di corpora e strumenti informatici Corpora per la scelta di parole Conto numero di caratteri Database per la redattura delle voci Controllo stilistico Produzione

Progettazione A chi si rivolge il dizionario? Quante parole? Macro & micro structure Progettazione del database che verra’ usato per mantenere i dati

SAMUEL JOHNSON’s PLAN FOR A DICTIONARY OF THE ENGLISH LANGUAGE (1747) Il Dizionario dev’essere UTILE Macro structure: criteri di SELEZIONE Micro structure: ORTOGRAFIA e PRONUNCIA ETIMOLOGIA ANALOGY (inflessione) e SYNTAX INTERPRETATION (= definizione) CITAZIONI con AUTORE

Tipi di pubblico Bambini Studenti Apprendimento lingua straniera Esperti di un’area

Dimensioni Concise Desk-size College dictionary: quante piu’ possibile 60,000-90,000 lemmi Desk-size Due volte tanto College dictionary: quante piu’ possibile Dizionari tecnici: piu’ aggiornamento che numero

CRITERI DI SELEZIONE: Dr JOHNSON “The peculiar words of every profession” “Words still considered to be foreign”

CRITERI DI SELEZIONE Tecnico: tutte le parole del dominio Apprendimento lingua straniera: solo parole fondamentali Generale: anche parole tecniche Altre scelte: Espressioni dialettali? Nomi di persona e localita’? CED4: 18000

Macro structure Ordine alfabetico Nomi? Parole derivate?

Micro structure Che informazioni? Pronuncia? Uso? Etimologia? Che sistema di trascrizione? Accenti? Uso? Etimologia?

Fonti di dati Dizionari esistenti Citazioni Corpora Per esempio, Bailey per Johnson, Johnson per Webster Citazioni In-house Compilate da volontari Corpora

CRITERI DI SCELTA DI CITAZIONI NELL’OED Make a quotation for EVERY word that strikes you as rare, obsolete, old-fashioned, new, peculiar, or used in a peculiar way. Take a special note of passages which show or imply that a word is either new or tentative, or needing explanation as obsolete or archaic, and which thus help fix the date of its introduction or disuse. Make AS MANY quotations as convenient to you for ordinary words, when these are used significantly, and help by the context to explain their meaning, or show their use. James Murray

Corpora Using a computer is even more humbling than working from citations, because one is constantly confronted with abundant evidence of usages that are common but one would never have thought of Landau, p. 355

Inizi della linguistica dei corpus Primi corpora: anni ’30 (The Teacher Word’s Book, 5M; A Basic Writing Vocabulary) Fino agli anni ’60 costi memoria troppo alti Anni ’60: Brown Corpus (Francis & Kucera), Lancaster / Oslo / Bergen (Leech), Survey of English Usage (Quirk)

Primi usi di corpora in lessicografia Anni ’70: concordanza elettronica di Old English a Toronto Ma: costi ancora elevati Resistenza da parte delle tipografie ’80: COBUILD (Collins / Birmingham University, Sinclair) Primo dizionario: ESL, Collins Cobuild ELD (all’epoca: 20 millioni di parole) Longman Lancaster English Language Corpus (Leech) Primo dizionario: LDOCE (all’epoca: 80 M parole)

IL British National Corpus (BNC) Creato tra il 1991 ed il 1994 da un consorzio diretto da Oxford University Press Circa 100 milioni di parole Classificazione grammaticale automatica usando il classificatore CLAWS (parti corrette a mano successivamente) http://www.hcu.ox.ac.uk/BNC

FORMATO (SGML) <div1 complete=y org=seq> <head> <s n=00040> <w NN2>TROUSERS <w VVB>SUIT </head> <caption> <s n=00041> <w EX0>There <w VBZ>is <w PNI>nothing <w AJ0>masculine <w PRP>about <w DT0>these <w AJ0>new <w NN1>trouser <w NN2-VVZ>suits <w PRP>in <w NN1>summer<w POS>'s <w AJ0>soft <w NN2>pastels<c PUN>. <s n=00042> <w NP0>Smart <w CJC>and <w AJ0>acceptable <w PRP>for <w NN1>city <w NN1-VVB>wear <w CJC>but <w AJ0>soft <w AV0>enough <w PRP>for <w AJ0>relaxed <w NN2>days </caption>

Uso di corpora in lessicografia Frequenze (per milione di parole) aiutano la scelta delle parole da includere Ma: “kick the bucket” non appare mai Problema: troppi esempi (di solito 200-500, migliaia per parole comuni) Usare solo esempi da corpora (COBUILD?) od anche esempi inventati?

Esempio: SURGERY Sia British che American English: chirurgia Solo British: clinica Prima dell’uso di corpora: dovrebbe apparire al plurale solo in BE Non vero

Esempio: SIGNIFICANTLY Definizione tradizionale: “importantly” Corpus evidence: “by a large amount” Our prison population has significantly increased in the last ten years

Esempio: CRAZY Nel corpus usato da Landau: solo plurale The crazies are out in force

Scelta delle parole Da fare PRIMA di cominciare a compilare il dizionario Problema del bilanciamento Assicurarsi che tutte le parole usate nella definizione siano nel dizionario Puo’ richiedere fino a 20% del tempo per un nuovo dizionario Da corpora

Bilanciamento In Inglese: il numero di parole che cominciano con ‘c’ e’ piu’ di due volte il numero di parole che cominciano con ‘g’ Thorndyke: 105 ‘blocchi’ di dimensioni uguali C: 10 blocchi G: 4 blocchi

Blocchi di Thorndyke c-caq car-cel cem-chim chin-cled clee-col com-conf cong-coo cop-cq cra-culs cult-cz g-geq ger-gord gore-grouo group-gz

Parole e lemmi La decisione di quali parole trattare come lemmi e quali some voci subordinate sempre difficile “listed building” (CED) “Riemannian geometry” In dizionario medico, tutti i tipi di “agenesis” (= assenza di organo alla nascita)?

Uso di strumenti informatici per la scelta di parole Dr Johnson, OED: lista di parole = una scheda per ogni voce Oggi: formato elettronico Ordinamento alfabetico Bilanciare il dizionario contando il numero di caratteri di ogni sezione

Definizioni “first of all, a good definer must be able to write well and easily” (Landau, p. 354)

Tipi di definizioni Definizioni per dizionari di lingua straniera: Molti esempi Usi idiomatici

Manuale di stile Ogni dizionario ha un manuale di regole da seguire per compilare le definizioni: Stile Tipi di definizioni Abbreviazioni Uso delle maiuscole Che tipo di informazioni grammaticali fornire Uso delle parentesi

Check automatico dello stile Molti tentativi di scrivere del software che permetta di fare controlli automatici dello stile (aldila’ dei controlli grammaticali tipo Word) Metodo principale: “controlled language” Obiettivo ancora molto lontano

Database delle definizioni Progettato inizialmente Una delle decisioni chiave (Landau) Funzioni base: Ricerca di voci Cross indexing (= controllare che le parole della definizione siano tutte nel dizionario) Generazione automatica delle pagine (PRODUZIONE)

Tipi di database Tradizionalmente: relazionali Oggigiorno: XML Facilita l’aspetto produzione

ODE IN XML <se> <cn>815750</cn> - <hg> <hw>stock</hw> </hg> <s1>   <ps>noun</ps> - <s2 num="1"> -   <df>the goods or merchandise kept on the premises of a shop or warehouse and available for sale or distribution:</df>   <ex>the store has a very low turnover of stock</ex>   |   </S2> <S2 num=“2”> …… </S2> </S1> <s1> <ps>adjective</ps> …..

ELDIT EDITING TOOL (EURAC)

TALES (IRST)

Uso dei computer in fase di produzione Uno dei contributi piu’ importanti dell’informatica alla lessicografia Generazione automatica di impaginazioni diverse Calcolo automatico del numero di colonne richieste dato il numero di voci e la larghezza delle colonne

Produzione 150 000 voci, 2 linee x voce = 300 000 linee = 1875 pagine (= 80 linee per colonna, 2 colonne per pagina) 1.7 linee x voce: 1600 pagine

Gli strumenti informatici non risolvono tutti i problemi Le definizioni devono sempre essere scritte Landau: ora che e’ diventato cosi’ facile creare un nuovo dizionario, si presta sempre meno attenzione alla qualita’

Letture Jackson, cap. 13 Landau – Dictionaries: The Art and Craft of Lexicography – ch. 7