La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale.

Presentazioni simili


Presentazione sul tema: "INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale."— Transcript della presentazione:

1 INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale

2 METODI COMPUTAZIONALI PER LA SCOPERTA DI SIGNIFICATI La prossima frontiera nelluso degli strumenti informatici per la lessicografia e il loro uso per produrre definizioni scoprire accezioni Annotare corpora automaticamente con il significato delle parole

3 ACQUISIZIONE LESSICALE I modelli informatici di acquisizione lessicale si basano su due idee: Che il significato delle parole e un vettore multidimensionale Che il significato delle parole viene dato dal contesto in cui appaiono

4 CONCETTI COME CLUSTER CHICKEN GOOSE ORIOLE ROBIN OSTRICH

5 LESSICOGRAFIA: SIGNIFICATI COME CONTESTI Thy shall know a word by the company it keeps (Firth)

6 SIGNIFICATI COME CONTESTI The breezes are soft, the waves lap gently and the fronds of the PALM trees sway lazily. Cycads, the most popular of which is the Sago PALM, are doll-sized versions of California's famous long-necked PALMS, with stubby trunks and fern-like fronds. whack, whack, whack his hand made vigorous spanking gestures on his left PALM. The PALM s of his hands are sweaty

7 RAPPRESENTAZIONI VETTORIALI DEL SIGNIFICATO CANE GATTO SGOMBRO pelliccia acquatico animato

8 Airplane Day CLUSTERING DI CONCETTI Car Van Month Year Joy Love Fear

9 MODELLI VETTORIALI This slide adapted from Mirella Lapata

10 COSTRUZIONE DI VETTORI LESSICALI A PARTIRE DA CONTESTI Per costruire il vettore C(w) per la parola w, 1. Scandire ogni testo del corpus 2. Ogni volta che si incontra w, incrementare tutte le celle di C(w) che corrispondono a parole che si trovano in prossimita di w, entro una finestra di dimensioni prestabilite

11 COSTRUZIONE DI VETTORI DI PAROLE DA CONTESTI Dato il corpus: 1. John ate a banana. 2. John ate an apple. 3. John drove a lorry. johnatedrovebananaapplelorry john021111 ate200110 drove100001 banana110000 apple110000 lorry101000

12 ESEMPIO DI INFORMAZIONI CHE SI POSSONO ESTRARRE DA CONTESTI Speaker-generated features: Matching Features Collected Using Our Text Patterns – (with frequency) red (20) red (5), colour (5), color (1) fruit (18) fruit (5) sweet (13) sweetness (8) has seeds (12) seeds (6), seed (2) grows (10) growth (1), ripening (10) small (6) size (19) taste (6) taste (6), flavor (6), flavour (2) food (5) nutrition (1) from garden (5) cultivation (7), harvest (6), harvester (2) juice (5) juice (10), juices (3) dessert (3) sweetness (8) eat (3) nutrition (1)

13 VARIAZIONI I metodi proposti nella letteratura differiscono per quel che riguarda Le dimensioni della finestra Se gli elementi del vettore sono pesati o meno Se ogni parola viene considerata come dimensione Se viene applicata riduzione di dimensionalita

14 VARIANTE: USO DI MODIFICATORI …. The Soviet cosmonaut …. The American astronaut …. The red American car …. The old red truck … the spacewalking cosmonaut … the full Moon … cosmonautastronautmooncartruck Soviet10011 American01011 spacewalking11000 red00011 full00100 old00011

15 MISURE GEOMETRICHE DI SOMIGLIANZA Euclidean distance: Cosine: Manhattan Metric:

16 PLAUSIBILITA COGNITIVA DI QUESTI MODELLI I modelli basati sugli spazi vettoriali sono stati utilizzati per predirre il comportamento in tasks che includono Identificazione di sinonimi (Landauer & Dumais 1997) Categorizzazione (Burgess & Lund 1997) Semantic priming (Lowe 2000, Vigliocco et al 2004) Errori nella sostituzione di parole (Vigliocco et al 2004)

17 IDENTIFICAZIONE DI SINONIMI: IL TASK TOEFL

18

19 UMANI E MACCHINE AL TOEFL

20 MODELLI PIU COMPLESSI I modelli proposti piu di recente vanno oltre i modelli appena visti nel senso di Cercare di utilizzare una versione piu complessa di contesto che tiene conto della struttura sintattica degli enunciati Cercare di estrarre da testi relazioni SEMANTICHE ed utilizzare quelle per la caratterizzazione delle parole

21 MODELLI VETTORIALI BASATI SULLA SINTASSI attackedfoxdog attacked foxdog theredthelazy subj obj det mod E.g., Grefenstette, 1994; Lin, 1998; Curran and Moens, 2002

22 VETTORI SINTATTICI GREFENSTETTE, LIN, LAPATA & PADO: LE RELAZIONI GRAMMATICALI FUNZIONANO MEGLIO DELLE PAROLE PER CARATTERIZZARE I CONCETTI

23 SEXTANT (Grefenstette, 1992, 1994) It was concluded that the carcinoembryonic antigens represent cellular constituents which are repressed during the course of differentiation the normal digestive system epithelium and reappear in the corresponding malignant cells by a process of derepressive dedifferentiation antigen carcinoembryonic-ADJ antigen repress-DOBJ antigen represent-SUBJ constituent cellular-ADJ constituent represent-DOBJ course repress-IOBJ ……..

24 SEXTANT: MISURA DI SOMIGLIANZA dog pet-DOBJ dog eat-SUBJ dog shaggy-ADJ dog brown-ADJ dog leash-NN cat pet-DOBJ cat pet-DOBJ cat hairy-ADJ cat leash-NN CATDOG Jaccard:

25 MODELLI VETTORIALI BASATI SULLA SEMANTICA Questi modelli cercano di identificare nel testo relazioni semantiche e di usarle per caratterizzare i significati dei concetti

26 HEARST 1992, 1998: USING PATTERNS TO EXTRACT ISA LINKS Intuition: certain constructions typically used to express certain types of semantic relations E.g., for ISA: The seabass IS A fish Swimming, running AND OTHER activities Vehicles such as cars, trucks and bikes

27 TEXT PATTERNS FOR HYPONYMY EXTRACTION HEARST 1998: NP {, NP}* {,} or other NP bruises …… broken bones, and other INJURIES HYPONYM (bruise, injury) EVALUATION: 55.46% precision wrt WordNet

28 Cimiano and Wenderoth 2005 Extract from text the information about concepts specified by Pustejovskys Generative Lexicon theory Evaluation: human judgments

29 PUSTEJOVSKYS GENERATIVE LEXICON Pustejovsky (1991, 1995): lexical entries have a QUALIA STRUCTURE consisting of four roles FORMAL role: what type of object it is (shape, color, ….) CONSTITUTIVE role: what it consists of (parts, stuff, etc.) E.g., for books, chapters, index, paper …. TELIC role: what is the purpose of the object (e.g., for books, READING) AGENTIVE role: how the object was created (e.g., for books, WRITING)

30 EXAMPLE: QS FOR KNIFE

31 CIMIANO AND WENDEROTHS APPROACH

32 PATTERNS FOR THE CONSTITUTIVE ROLE

33 GOOD EXAMPLES

34 PROBLEMS

35 PATTERNS FOR THE FORMAL ROLE

36 PATTERNS FOR THE AGENTIVE ROLE

37 PATTERNS FOR THE TELIC ROLE

38 SCOPERTA DI ACCEZIONI The breezes are soft, the waves lap gently and the fronds of the PALM trees sway lazily. Cycads, the most popular of which is the Sago PALM, are doll-sized versions of California's famous long-necked PALMS, with stubby trunks and fern-like fronds. whack, whack, whack his hand made vigorous spanking gestures on his left PALM. The PALM s of his hands are sweaty

39 DISAMBIGUAZIONE DEI SIGNIFICATI Sense 1: horse, Equus caballus -- (solid-hoofed herbivorous quadruped domesticated since prehistoric times) Sense 2: horse -- (a padded gymnastic apparatus on legs) Sense 3: cavalry, horse cavalry, horse -- (troops trained to fight on horseback: "500 horse led the attack") Sense 4: sawhorse, horse, sawbuck, buck -- (a framework for holding wood that is being sawed) Sense 5: knight, horse -- (a chessman in the shape of a horse's head; can move two squares horizontally and one vertically (or vice versa)) Sense 6: heroin, diacetyl morphine, H, horse, junk, scag, shit, smack -- (a morphine derivative) Corton has been involved in the design, manufacture and installation of horse stalls and horse-related equipment like external doors, shutters and accessories.

40 DISAMBIGUAZIONE DEI SIGNIFICATI ….. in fig. 6 ) are slipped into place across the roof beams,

41 ANNUNCI DI FINE CORSO Appelli sessione estiva: 9 Giugno 2 Luglio TIROCINI PRESSO IL CENTRO MENTE / CERVELLO DISPONIBILI!! clic.cimec.unitn.it Chiedere a me o Marco Baroni


Scaricare ppt "INFORMATICA UMANISTICA D: LESSICOGRAFIA E COMPUTER Rappresentazioni vettoriali del significato Teorie computazionali dellacquisizione lessicale."

Presentazioni simili


Annunci Google