La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Text Processing WordNet

Presentazioni simili


Presentazione sul tema: "Text Processing WordNet"— Transcript della presentazione:

1 Text Processing WordNet
Basi di Dati Multimediali - Giugno 2005 Marco Ernandes: Fonti di riferimento: “Introduction to WordNet: an on-line lexical database” – George A. Miller “WordNet: a lexical database” – Marco Degemmis

2 Cos’è WordNet E’ nato a Princeton (1985) dal gruppo di linguistica e psicolinguistica. WordNet è un vero e proprio DataBase Relazionale Lessicale. E’ un ontologia linguistica che rappresenta in modo esplicito la conoscenza linguistica umana. La conoscenza linguistica formalizzata: è di senso comune è domain-independent

3 A cosa serve Nella comunità di Text Processing WordNet si usa per aggiungere semantica. “Semantizzare” un testo vuol dire collegarlo in modo appropriato con il resto della base di conoscenza posseduta: la lingua è un reticolo di collegamenti! Esempi di utilizzo: Riadattamento delle tecniche di indicizzazione Word-sense disambiguation (es: scotch  whiskey o nastro adesivo? interpretare  cercare di capire o recitare ?)

4 La filosofia di WordNet
Il concetto di parola viene definito come associazione tra due elementi: Word-form (forma-parola): stringa di caratteri (lettere) che definiscono l’espressione “fisica” di una parola Word-meaning (significato-parola): concetto lessicale espresso dalla parola (ogni parola veicola, anche in modo sottinteso, un senso). Le associazioni tra forme e significati possono essere descritti nella matrice lessicale. Le word-form mappate su più word-meaning sono definite: polysemous. Word-form diverse associate alla stessa word-meaning sono definite: synonym.

5 WordNet: i synset Una word-meaning viene rappresentata dall’insieme di tutte le word-form che possono essere usate per esprimerla. Questo insieme di word-form si chiama: synset. (E’ lo strumento che permette di rappresentare una word-meaning) Le word-form sono mappate tra loro grazie ai synset (e ad altri “puntatori”). Le word-meaning sono mappate tra loro grazie a relazioni tra synset.

6 Categorie lessicali e relazioni
Ci sono 4 categorie lessicali (giustificate dalla psicolinguistica): nomi, verbi, aggettivi, avverbi I nomi sono legati da 2 tipologie di relazioni: Relazioni lessicali: si instaurano tra word-forms (sia tra forme contenute nello stesso synset sia esterne). synomymy vs. antonymy (per l’inglese ci sono anche le relazioni morfologiche) Relazioni semantiche: si instaurano tra word-meaning. hyponymy vs. hyperonymy meronymy vs. holonymy Alcuni aggettivi possono essere in relazione synonimy vs. antonymy I verbi possiedono la relazione di entailment.

7 Relazioni Lessicali Synonymy: due word-form sono sinonime se sostituendo l’una con l’altra non si cambia il valore di verità di una frase. Le word-form sinonime appaiono nello stesso synset Antonymy “!”: due word-form sono antonime se il loro significato è opposto. A opposto di B non implica che A = not(B) !!! es: alto e basso. Per l’antonimia esiste un vero puntatore da una word_form a un’altra. Non vale tra synset!

8 Relazioni semantiche 1 Hyponymy “~”: relazione “is a” (sottoinsieme).
Un synset A è hyponym di un synset B se A “è del tipo di” B. Es: associazione  hypo  organizzazione, carpa  hypo  pesce, abete  hypo  albero. La relazione deve valere per ogni forma all’interno dei synset (CHE SUCCEDE ALTRIMENTI?) Hyperonymy relazione inversa dell’hyponymy (famiglia di appartenenza) Un synset A è hyponym di un synset B se B “è del tipo di” A. Es: felino  hyper  gatto, laureato  hyper  ingegnere

9 Relazioni semantiche 2 Meronymy “%”: relazione “part of” (componente di). Un synset A è meronym di un synset B se A “è un componente di” B. Es: volante  mero  auto, argento  mero  specchio. Attenzione: i meronym non sono tutti “part of”! (es: argento e specchio) Holonymy “#”: relazione inversa di meronymy Un synset A è holonym di un synset B se B “è componente di” A. Es: aeroplano  holo  carlinga, computer  holo  CPU

10 Relazioni semantiche 3 La relazione di “part-of” non rappresenta tutte le possibili meronimie! Tipi di meronimia: componente-oggetto: ramo / albero, motore / auto, ala / aereo membro-insieme: albero / foresta, pecora / gregge parte-massa: fetta / torta materia-oggetto: sabbia / specchio caratteristica-attività: pagamento / acquisto posto-zona: provincia / regione / nazione / continente fase-processo: adolescenza / crescita

11 Relazioni semantiche 4 Ci sono 25 radici: organismi, sostanza, etc…
WordNet costituisce una foresta di alberi tramite la relazione di iperonimia e iponimia. Ci sono 25 radici: organismi, sostanza, etc… queste radici stabiliscono 25 diversi campi semantici strutturati ad albero. vale il principio di ereditarietà I nomi non sono collegati ad altre categorie lessicali (es: nomi-verbi, nessuna relazione inter-category): NO: relazioni di attributo (es: canarino  giallo) NO: relazioni di funzionalità (es: canarino  volare) Sì: relazioni di componente (es: canarino  ala).

12 Esempio MultiWordNet {oggetto} ~ @ {artefatto} ~
{computer, data_processor, electronic_computer, Information_processing_system} | = corresponds_to {strumentazione} ~ @ {apparecchio, arnese, congegno, dispositivo} ~ @ {macchina} ~ @ {elaboratore, computer, cervello_elettronico, calcolatore} {monitor, schermo, video} {cpu, unità centrale di elaborazione} % #

13 Gli aggettivi Gli aggettivi attribuiscono una proprietà ad un nome.
Aggettivi descrittivi: associano un valore ad un certo attributo del nome. ES: “sedia grande” stabilisce il valore dell’attributo dimensione(sedia) = grande. Possiedono la relazione di sinonimia/antonimia (diretta e indiretta). Aggettivi relazionali: derivano da un nome. Es: “igienico”, “dentale”, “familiare”, etc… Possiedono un puntatore al nome dal quale derivano. Non possiedono antonimi!

14 I verbi I verbi sono il nucleo semantico di una frase: stabi-liscono una relazione tra i diversi elementi della frase. Il verbo A “entails” il verbo B, se lo svolgimento del primo implica lo svolgimento del secondo. ES: russare entails dormire / parlare entails comunicare Le relazioni tra verbi sono di 2 tipologie: Entailment “*” Troponymy Co-extensiveness Proper-Inclusion Backward-Presupposition Cause “>”

15 Verbi: le relazioni L’entailment troponymy è simile all’hyponymy nei nomi: Il verbo A è troponimo del verbo B se l’attività indicata da A è “del tipo” dell’attività di B. La troponymy si verifica tra verbi legati da: “co-extensiveness”, cioè avvengono in modo assolutamente sincrono. Es: scivolare / muoversi – correre / muoversi – zoppicare / camminare / riposarsi – dormire La relazione inversa è l’hyperonym proper-inclusion: il verbo A è incluso nel verbo B se A avviene mentre avviene B (ma non è detto il contrario) Es: russare / dormire – virare / navigare

16 Verbi: le relazioni Backward-presupposition: Cause “>”:
Il verbo A presuppone il verbo B se il verificarsi (temporalmente anteriore) di B è necessario affinchè si verifichi di A. Es: vincere / partecipare – colpire / mirare Cause “>”: il verbo A è in relazione di causa con il verbo B se il verificarsi di A (verbo causative) produce come conseguenza B (verbo resultative). Es: lasciare_in_eredità / possedere – bere / dissetarsi Cause è trattato come una relazione a parte (non è un entailment).

17 Un po’ di numeri Inglese: # synsets # word forms # relazioni
# verbi, nomi, aggettivi, avverbi

18 Un po’ di numeri Statistiche sui nomi (nel 2004) Inglese: Italiano:
# synsets = ca # word forms = ca # relazioni = ca Italiano: # synsets: ca (collegati all’inglese) # word forms: ca


Scaricare ppt "Text Processing WordNet"

Presentazioni simili


Annunci Google