La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Corpora e contesti Concordanze Collocazioni.

Presentazioni simili


Presentazione sul tema: "INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Corpora e contesti Concordanze Collocazioni."— Transcript della presentazione:

1 INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Corpora e contesti Concordanze Collocazioni

2 CITAZIONI You taught me language, and my profit ont Is, I know not how to curse: the red plague rid you For LEARNING me your language Citazione da The Tempest in Johnsons Dictionary

3 Due usi di contesti nella lessicografia Per determinare conoscenze lessicali nel senso discusso nelle due lezioni precedenti Classe grammaticale, accezioni CONCORDANZE Per identificare aspetti collocazionali COLLOCAZIONI

4 CONCORDANZE In Pinocchio, la forma BUONO occorre 11 volte. Domande che si pone un lessicografo: Quali parti del discorso? Quali sensi? Usati in quali contesti? Soluzione: le CONCORDANZE

5 CONCORDANZE 1 1, 1 | uomini, sono stati e sono o repubbliche o principati. È principati 2 2, 1 | indrieto el ragionare delle repubbliche, perché altra volta ne ragionai 3 5, 2 | assicurarsi di loro. Ma nelle repubbliche è maggiore vita, maggiore 4 8, 1 | dove si trattassi delle repubbliche. Questi sono quando, o per 5 12, 3 | vede a' principi soli e repubbliche armate fare progressi grandissimi, 6 13, 6 | Alessandro Magno, e come molte repubbliche e principi si sono armati 7 15, 1 | molti si sono immaginati repubbliche e principati che non si CONCORDANZA = forma + contesto

6 STRUMENTI INFORMATICI PER LA RICERCA DICONCORDANZE Esistono oggi moltissimi strumenti che permettono di eseguire il tipo di analisi appena visto automaticamente Esempi: WORDSMITH distribuito da ICAME (a pagamento) TextSTAT (gratis) WORDSKETCH (a pagamento)

7 TextSTAT Sviluppato dal Dipartimento di Linguistica Olandese della Freie Universitaet Berlin Permette di estrarre FREQUENZE e CONCORDANZE da CORPORA che includono testi in ASCII, HTML, e WORD Si puo scaricare da: http://www.niederlandistik.fu- berlin.de/textstat/software-en.html http://www.niederlandistik.fu- berlin.de/textstat/software-en.html

8 TextSTAT

9 CONCORDANZE: FORME DIVERSE DI CONTESTO e le colonne e i simulacri e lERME chabbella agli occhi tuoi questERMO lido, Bruto per latra notte in ERMA sede, ERMA terrena sede! Oh quanto affanno Sempre caro mi fu questERMO colle, lERMA terra contemplo, e di fanciulla de tuoi steli abbellir lERME contrade ERME Torri, I 2 ERMO lido, IV 4 ERMA sede, VI 11 ERMA terrena sede, VIII 36 ERMO colle, XII 1 LERMA terra contemplo, XVI 63 ERME contrade, XXXIV 8

10 COMBINAZIONI DI PAROLE E COLLOCAZIONI You can tell a word from the company it keeps (Firth, 1957) La competenza lessicale non consiste solo di conoscenza sintattica, morfologica, e semantica Ma anche di conoscenza in parte arbitraria su quali parole si combinano di preferenza

11 Restrizioni sulle combinazioni di parole Ordine *Il maglione che righe a indossi, *dormire il letto Restrizioni concettuali ?? Il letto e corso a casa Restrizioni lessicali Francese: crescere = grandir (persone), pousser (piante) Tedesco: mangiare = essen (persone), fressen (animali)

12 Restrizioni lessicali The tall boy (*the high boy) Mantenere un segreto (? Conservare un segreto)

13 COLLOCAZIONI In lessicografia si distingue tradizionalmente tra `normali restrizioni lessicali e COLLOCAZIONI

14 Collocazioni Pioggia battente (?? Pioggia intensa) Stendere un documento (? Scrivere un documento) Lanciare un messaggio

15 Intuizione: In queste combinazioni di parole, stendere, battente, lanciare (i COLLOCATI) sono scelti dalle BASI (documento, pioggia, messaggio) per esprimere un significato che non hanno quando usati con altre parole Meaning by collocation, Firth 1957

16 Definizione di collocazione Una collocazione euna combinazione di parole soggetta ad una restrizione lessicale per la scelta di una parola (il COLLOCATO) e condizionata da una seconda parola (la BASE)

17 Importanza delle collocazioni A livello avanzato di conoscenza della lingua straniera, le collocazioni fanno la differenza Italiano lavarsi i denti = Inglese brush ones teeth (spazzolare) = Tedesco sich Die Zaehne putzen (pulirsi)

18 VERBI SUPPORTO (= WEAK VERBS) Un caso particolare di collocazioni della forma VERBO + NOME in cui la base (il nome) determina il significato del collocato (il verbo) Prendere una decisione, dare spiegazioni, fare una telefonata, essere in dubbio, avere paura Il verbo ha un significato generico e spesso contribuisce solo il tempo

19 LOCUZIONI od ESPRESSIONI IDIOMATICHE Differenza fondamentale dalle costruzioni precedenti: il significato non e costruito dai costituenti alzare il gomito tagliare la corda vuotare il sacco mosca bianca

20 RICERCA AUTOMATICA DI COLLOCAZIONI Il termine collocazione e usato in linguistica computazionale in senso piu lato per indicare tanto le restrizioni lessicali quanto le collocazioni vere e proprie quanto gli idiomi

21 Dalla definizione alla ricerca Non e facile definire il termine collocazione in modo da poterne automatizzare la ricerca. Si trovano definizioni Frequentista Fraseologica Criteri: Definizione devessere UTILE dal punto di vista lessicografico Devessere FACILE da OPERAZIONALIZZARE (e possibilmente, automatizzare)

22 Definizione frequentista Una collocazione e ogni combinazione di parole che occorre molto di frequente Piu precisamente: ogni combinazione che occorre piu frequentemente di quanto non ci si aspettasse per caso Problema: pura frequenza non implica interesse lessicografico Ho mangiato, va a casa, cosa dire

23 COLLOCATI PIU FREQUENTI DI ATTENZIONE

24 Definizioni fraseologiche Una collocazione e una co-occorrenza di parole soggetta ad una regola di restrizione (Melcuk & Wanner) Troppo generale: esistono molti tipi di restrizioni

25 ALLA RICERCA DI COLLOCAZIONI NEI CORPORA I metodi per la ricerca automatica di collocazioni sfruttano una combinazione di informazioni: FREQUENZA Da sola pero non e sufficiente INFORMAZIONI FRASEOLOGICHE INDICAZIONI DI DISTINZIONE

26 INFORMAZIONI FRASEOLOGICHE Si utilizzano corpora in cui i token sono stati classificati grammaticalmente Ci si concentra su alcune combinazioni sintattiche: VERBO NOME NOME AGGETTIVO AGGETTIVO NOME

27 Potenziali collocati di documento

28 INDICAZIONI DI IMPORTANZA Una volta identificate le costruzioni piu frequenti, si cerca di stimare quali siano le costruzioni piu INTERESSANTI Le costruzioni interessanti sono quelle che sembrano occorrere con una frequenza maggiore di quella che ci si aspetterebbe

29 UN ESEMPIO DI INDICAZIONE DI IMPORTANZA La MUTUAL INFORMATION e una misura che calcola il rapporto tra la PROBABILITA di incontrare due parole assieme con la probabilita di incontrarle individualmente Intuizione: se la frequenza di occorrenza di due parole e piu alta di quel che ci si aspetterebbe, e possibile che costituiscano una collocazione

30 MUTUAL INFORMATION

31 ESEMPIO

32 LE PAROLE CON MI PIU ALTA NEL WEBBIT

33 Scelta tra potenziali candidati Il passo successivo sarebbe identificare i candidati che Esprimono restrizioni lessicali interessanti Esprimono vere e proprie collocazioni (= in cui il collocato ha un significato inusuale) Esprimono delle locuzioni (il significato non puo essere derivato dai componenti) Questo passo devessere fatto a mano!

34 Collocazioni e lessicografia Che differenza ce tra morbido e soffice? Collocati di morbido: panno, pelle, gomma, burro Collocati di soffice: erba, sabbia, treccia, superficie

35 Letture Jezek, capitolo 6 Lenci Montemagni e Pirrelli, capitolo 7

36 Per saperne di piu Linguistica Applicata, Modulo B (Da cui arrivano alcuni dei lucidi)


Scaricare ppt "INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Corpora e contesti Concordanze Collocazioni."

Presentazioni simili


Annunci Google