INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Corpora e contesti Concordanze Collocazioni.

Slides:



Advertisements
Presentazioni simili
INFORMATICA UMANISTICA MODULI B, C E D
Advertisements

MULTICULTURALITÀ E APPRENDIMENTO LINGUISTICO (M-Z)
Proposte di attività. No man can reveal to you aught but that wich already lies half asleep in the dawning of our knowledges. (K. Gibran: Il Profeta)
Informatica umanistica: Moduli B, C e D
INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER
Le parti del discorso logico e informatico
Istituzioni di linguistica
Ripasso di grammatica elementare
TW Analisi dei documenti n Classificazione dei componenti n Selezione dei componenti, costruzione della gerarchia, dei blocchi informativi e degli elementi.
Apprendimento Automatico: Elaborazione del Linguaggio Naturale
Istituzioni di linguistica
Istituzioni di linguistica
La Scienza dell’interpretazione
C. GIBELLI (I.S.A. DON MILANI) SSIS – DDI 2008/09 Competenze di letto- scrittura 10/10/08 COMPRENSIONE DEL TESTO (ANALISI DEL PRODOTTO LINGUISTICO METODOLOGIE.
Il lessico Lessico: insieme delle parole di una lingua (astratto)
Funzioni, Rappresentazioni e Coscienza
ELEMENTI COSTITUTIVI : - TEMPO - ASPETTO - MODO
INFORMATICA UMANISTICA B
INFORMATICA UMANISTICA D: LESSICOGRAFIA & COMPUTER
INFORMATICA UMANISTICA B
Psicologia della scrittura manuale ed elettronica.
In questa seconda lezione ho organizzato la lettura e lanalisi in classe di un testo di approfondimento sulla storia di Venezia dalle origini al XIII secolo.
Lezione 6 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università
Lezione 3 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università
informatica di base per le discipline umanistiche
Lezione 8 informatica di base per le discipline umanistiche vito pirrelli Istituto di Linguistica Computazionale CNR Pisa Dipartimento di linguistica Università
DIO HA BISOGNO DI TE.
Il riflesso della cultura sugli stili manageriali
Istituzioni di linguistica a.a Federica Da Milano
Presentato da Willi Fagioli 6b FvS
Pensavo a te e così mi sono detto: perche non esprimere delle riflessioni con immagini che scaldano il cuore?
Che cosa è un sintagma?.
Scrivere per il web Consigli pratici per lo sviluppo di contenuti, a cura di Aliacom.it.
ALTRI USI DEL CONGIUNTIVO CONGIUNZIONI
Espressione polirematica
Questi sono stati tra gli ostacoli maggiori incontrati dalla teoria classica dellIntelligenza Artificiale per dei limiti concettuali della logica bivalente.
PROCESSI DASTRAZIONE PER INDUZIONE Il concetto di operazione.
MORFOLOGIA.
SINTASSI.
LE COSE CHE HO IMPARATO NELLA VITA
Ciao Capitolo 17.1 Il Congiuntivo
Forse Dio vuole....
Grammatiche, Linguaggio e Automi R. Basili TAL - a.a
Lavori di gruppo sulla Mesopotamia
entra. Ricerca semplice inserire la parola click! Non occorre indicare la lingua !
SONO ESATTAMENTE LE 13:08 13:0813:0813:0813:0813:08.
Michele A. Cortelazzo Morfologia 1.
Lezione 3 Struttura lessicale del linguaggio
Ambiguità Le lingue sono, per loro natura ambigue e sfumate:
Strazzari La FIABA “Cosa ti fa pensare che ti darò il fuoco?”chiese la Baba Jaga a Vassilissa “Perché ho chiesto”rispose Vassilissa Fiaba russa.
Intelligenza Artificiale 1 Gestione della conoscenza lezione 19 Prof. M.T. PAZIENZA a.a
Come costruire sistemi di elaborazione del linguaggio naturale Fornire le conoscenze necessarie per elaborare dati linguistici –Acustico-fonetiche (input.
LO SPECCHIO.
LO STUDIO INIZIA A SCUOLA
INTRODUZIONE. Javascript è un linguaggio di scrittura che permette di aggiungere veri e propri programmi alle tue pagine web.
Scrivere e compilare programmi
Relazione bi-adica (qualcosa sta per qualcos’altro)
L’ ascolto non è soltanto una funzione fisiologica legata all’organo di senso, ma è parte del processo di comunicazione, è un elemento fondamentale.
Michele A. Cortelazzo Sintassi \ 1.
Francesco Maiorano PIST Peucetia: LA MAPPA DI COMUN ITA’
Laboratorio sul metodo di studio
La vita quotidiana Una giornata tipica In this presentation you are going to learn how to talk about your daily routine and use reflexive verbs.
Corso di “Teorie e pratiche della traduzione” “La scrittura accademica attraverso le lingue e le culture: studio su corpus della voce autoriale” Dott.ssa.
IL VERBO Lavoro realizzato dagli alunni: Colucci Domenico
D. S. A. SCUOLA PRIMARIA In questa sezione si possono trovare materiali utilizzati e lavori svolti da alcune insegnanti nelle classi con gli alunni. L’
Lucrezia Pedrali - Leno 2008 LINGUA ITALIANA Noi pensiamo un universo che è già pre-formato dalla nostra lingua E. Benveniste.
Elementi di linguistica italiana. Le strutture dell italiano.
  Il termine collocation fu coniato da J. R. Firth negli anni ‘50, e indicava una co-occorrenza abituale di lessemi individuali: il significato di una.
I pronomi, gli avverbi, le congiunzioni
MODI INDEFINITI DEL VERBO
Transcript della presentazione:

INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Corpora e contesti Concordanze Collocazioni

CITAZIONI You taught me language, and my profit ont Is, I know not how to curse: the red plague rid you For LEARNING me your language Citazione da The Tempest in Johnsons Dictionary

Due usi di contesti nella lessicografia Per determinare conoscenze lessicali nel senso discusso nelle due lezioni precedenti Classe grammaticale, accezioni CONCORDANZE Per identificare aspetti collocazionali COLLOCAZIONI

CONCORDANZE In Pinocchio, la forma BUONO occorre 11 volte. Domande che si pone un lessicografo: Quali parti del discorso? Quali sensi? Usati in quali contesti? Soluzione: le CONCORDANZE

CONCORDANZE 1 1, 1 | uomini, sono stati e sono o repubbliche o principati. È principati 2 2, 1 | indrieto el ragionare delle repubbliche, perché altra volta ne ragionai 3 5, 2 | assicurarsi di loro. Ma nelle repubbliche è maggiore vita, maggiore 4 8, 1 | dove si trattassi delle repubbliche. Questi sono quando, o per 5 12, 3 | vede a' principi soli e repubbliche armate fare progressi grandissimi, 6 13, 6 | Alessandro Magno, e come molte repubbliche e principi si sono armati 7 15, 1 | molti si sono immaginati repubbliche e principati che non si CONCORDANZA = forma + contesto

STRUMENTI INFORMATICI PER LA RICERCA DICONCORDANZE Esistono oggi moltissimi strumenti che permettono di eseguire il tipo di analisi appena visto automaticamente Esempi: WORDSMITH distribuito da ICAME (a pagamento) TextSTAT (gratis) WORDSKETCH (a pagamento)

TextSTAT Sviluppato dal Dipartimento di Linguistica Olandese della Freie Universitaet Berlin Permette di estrarre FREQUENZE e CONCORDANZE da CORPORA che includono testi in ASCII, HTML, e WORD Si puo scaricare da: berlin.de/textstat/software-en.html berlin.de/textstat/software-en.html

TextSTAT

CONCORDANZE: FORME DIVERSE DI CONTESTO e le colonne e i simulacri e lERME chabbella agli occhi tuoi questERMO lido, Bruto per latra notte in ERMA sede, ERMA terrena sede! Oh quanto affanno Sempre caro mi fu questERMO colle, lERMA terra contemplo, e di fanciulla de tuoi steli abbellir lERME contrade ERME Torri, I 2 ERMO lido, IV 4 ERMA sede, VI 11 ERMA terrena sede, VIII 36 ERMO colle, XII 1 LERMA terra contemplo, XVI 63 ERME contrade, XXXIV 8

COMBINAZIONI DI PAROLE E COLLOCAZIONI You can tell a word from the company it keeps (Firth, 1957) La competenza lessicale non consiste solo di conoscenza sintattica, morfologica, e semantica Ma anche di conoscenza in parte arbitraria su quali parole si combinano di preferenza

Restrizioni sulle combinazioni di parole Ordine *Il maglione che righe a indossi, *dormire il letto Restrizioni concettuali ?? Il letto e corso a casa Restrizioni lessicali Francese: crescere = grandir (persone), pousser (piante) Tedesco: mangiare = essen (persone), fressen (animali)

Restrizioni lessicali The tall boy (*the high boy) Mantenere un segreto (? Conservare un segreto)

COLLOCAZIONI In lessicografia si distingue tradizionalmente tra `normali restrizioni lessicali e COLLOCAZIONI

Collocazioni Pioggia battente (?? Pioggia intensa) Stendere un documento (? Scrivere un documento) Lanciare un messaggio

Intuizione: In queste combinazioni di parole, stendere, battente, lanciare (i COLLOCATI) sono scelti dalle BASI (documento, pioggia, messaggio) per esprimere un significato che non hanno quando usati con altre parole Meaning by collocation, Firth 1957

Definizione di collocazione Una collocazione euna combinazione di parole soggetta ad una restrizione lessicale per la scelta di una parola (il COLLOCATO) e condizionata da una seconda parola (la BASE)

Importanza delle collocazioni A livello avanzato di conoscenza della lingua straniera, le collocazioni fanno la differenza Italiano lavarsi i denti = Inglese brush ones teeth (spazzolare) = Tedesco sich Die Zaehne putzen (pulirsi)

VERBI SUPPORTO (= WEAK VERBS) Un caso particolare di collocazioni della forma VERBO + NOME in cui la base (il nome) determina il significato del collocato (il verbo) Prendere una decisione, dare spiegazioni, fare una telefonata, essere in dubbio, avere paura Il verbo ha un significato generico e spesso contribuisce solo il tempo

LOCUZIONI od ESPRESSIONI IDIOMATICHE Differenza fondamentale dalle costruzioni precedenti: il significato non e costruito dai costituenti alzare il gomito tagliare la corda vuotare il sacco mosca bianca

RICERCA AUTOMATICA DI COLLOCAZIONI Il termine collocazione e usato in linguistica computazionale in senso piu lato per indicare tanto le restrizioni lessicali quanto le collocazioni vere e proprie quanto gli idiomi

Dalla definizione alla ricerca Non e facile definire il termine collocazione in modo da poterne automatizzare la ricerca. Si trovano definizioni Frequentista Fraseologica Criteri: Definizione devessere UTILE dal punto di vista lessicografico Devessere FACILE da OPERAZIONALIZZARE (e possibilmente, automatizzare)

Definizione frequentista Una collocazione e ogni combinazione di parole che occorre molto di frequente Piu precisamente: ogni combinazione che occorre piu frequentemente di quanto non ci si aspettasse per caso Problema: pura frequenza non implica interesse lessicografico Ho mangiato, va a casa, cosa dire

COLLOCATI PIU FREQUENTI DI ATTENZIONE

Definizioni fraseologiche Una collocazione e una co-occorrenza di parole soggetta ad una regola di restrizione (Melcuk & Wanner) Troppo generale: esistono molti tipi di restrizioni

ALLA RICERCA DI COLLOCAZIONI NEI CORPORA I metodi per la ricerca automatica di collocazioni sfruttano una combinazione di informazioni: FREQUENZA Da sola pero non e sufficiente INFORMAZIONI FRASEOLOGICHE INDICAZIONI DI DISTINZIONE

INFORMAZIONI FRASEOLOGICHE Si utilizzano corpora in cui i token sono stati classificati grammaticalmente Ci si concentra su alcune combinazioni sintattiche: VERBO NOME NOME AGGETTIVO AGGETTIVO NOME

Potenziali collocati di documento

INDICAZIONI DI IMPORTANZA Una volta identificate le costruzioni piu frequenti, si cerca di stimare quali siano le costruzioni piu INTERESSANTI Le costruzioni interessanti sono quelle che sembrano occorrere con una frequenza maggiore di quella che ci si aspetterebbe

UN ESEMPIO DI INDICAZIONE DI IMPORTANZA La MUTUAL INFORMATION e una misura che calcola il rapporto tra la PROBABILITA di incontrare due parole assieme con la probabilita di incontrarle individualmente Intuizione: se la frequenza di occorrenza di due parole e piu alta di quel che ci si aspetterebbe, e possibile che costituiscano una collocazione

MUTUAL INFORMATION

ESEMPIO

LE PAROLE CON MI PIU ALTA NEL WEBBIT

Scelta tra potenziali candidati Il passo successivo sarebbe identificare i candidati che Esprimono restrizioni lessicali interessanti Esprimono vere e proprie collocazioni (= in cui il collocato ha un significato inusuale) Esprimono delle locuzioni (il significato non puo essere derivato dai componenti) Questo passo devessere fatto a mano!

Collocazioni e lessicografia Che differenza ce tra morbido e soffice? Collocati di morbido: panno, pelle, gomma, burro Collocati di soffice: erba, sabbia, treccia, superficie

Letture Jezek, capitolo 6 Lenci Montemagni e Pirrelli, capitolo 7

Per saperne di piu Linguistica Applicata, Modulo B (Da cui arrivano alcuni dei lucidi)