Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
1
Text Processing WordNet
Basi di Dati Multimediali - Giugno 2005 Marco Ernandes: Fonti di riferimento: “Introduction to WordNet: an on-line lexical database” – George A. Miller “WordNet: a lexical database” – Marco Degemmis
2
Cos’è WordNet E’ nato a Princeton (1985) dal gruppo di linguistica e psicolinguistica. WordNet è un vero e proprio DataBase Relazionale Lessicale. E’ un ontologia linguistica che rappresenta in modo esplicito la conoscenza linguistica umana. La conoscenza linguistica formalizzata: è di senso comune è domain-independent
3
A cosa serve Nella comunità di Text Processing WordNet si usa per aggiungere semantica. “Semantizzare” un testo vuol dire collegarlo in modo appropriato con il resto della base di conoscenza posseduta: la lingua è un reticolo di collegamenti! Esempi di utilizzo: Riadattamento delle tecniche di indicizzazione Word-sense disambiguation (es: scotch whiskey o nastro adesivo? interpretare cercare di capire o recitare ?)
4
La filosofia di WordNet
Il concetto di parola viene definito come associazione tra due elementi: Word-form (forma-parola): stringa di caratteri (lettere) che definiscono l’espressione “fisica” di una parola Word-meaning (significato-parola): concetto lessicale espresso dalla parola (ogni parola veicola, anche in modo sottinteso, un senso). Le associazioni tra forme e significati possono essere descritti nella matrice lessicale. Le word-form mappate su più word-meaning sono definite: polysemous. Word-form diverse associate alla stessa word-meaning sono definite: synonym.
5
WordNet: i synset Una word-meaning viene rappresentata dall’insieme di tutte le word-form che possono essere usate per esprimerla. Questo insieme di word-form si chiama: synset. (E’ lo strumento che permette di rappresentare una word-meaning) Le word-form sono mappate tra loro grazie ai synset (e ad altri “puntatori”). Le word-meaning sono mappate tra loro grazie a relazioni tra synset.
6
Categorie lessicali e relazioni
Ci sono 4 categorie lessicali (giustificate dalla psicolinguistica): nomi, verbi, aggettivi, avverbi I nomi sono legati da 2 tipologie di relazioni: Relazioni lessicali: si instaurano tra word-forms (sia tra forme contenute nello stesso synset sia esterne). synomymy vs. antonymy (per l’inglese ci sono anche le relazioni morfologiche) Relazioni semantiche: si instaurano tra word-meaning. hyponymy vs. hyperonymy meronymy vs. holonymy Alcuni aggettivi possono essere in relazione synonimy vs. antonymy I verbi possiedono la relazione di entailment.
7
Relazioni Lessicali Synonymy: due word-form sono sinonime se sostituendo l’una con l’altra non si cambia il valore di verità di una frase. Le word-form sinonime appaiono nello stesso synset Antonymy “!”: due word-form sono antonime se il loro significato è opposto. A opposto di B non implica che A = not(B) !!! es: alto e basso. Per l’antonimia esiste un vero puntatore da una word_form a un’altra. Non vale tra synset!
8
Relazioni semantiche 1 Hyponymy “~”: relazione “is a” (sottoinsieme).
Un synset A è hyponym di un synset B se A “è del tipo di” B. Es: associazione hypo organizzazione, carpa hypo pesce, abete hypo albero. La relazione deve valere per ogni forma all’interno dei synset (CHE SUCCEDE ALTRIMENTI?) Hyperonymy relazione inversa dell’hyponymy (famiglia di appartenenza) Un synset A è hyponym di un synset B se B “è del tipo di” A. Es: felino hyper gatto, laureato hyper ingegnere
9
Relazioni semantiche 2 Meronymy “%”: relazione “part of” (componente di). Un synset A è meronym di un synset B se A “è un componente di” B. Es: volante mero auto, argento mero specchio. Attenzione: i meronym non sono tutti “part of”! (es: argento e specchio) Holonymy “#”: relazione inversa di meronymy Un synset A è holonym di un synset B se B “è componente di” A. Es: aeroplano holo carlinga, computer holo CPU
10
Relazioni semantiche 3 La relazione di “part-of” non rappresenta tutte le possibili meronimie! Tipi di meronimia: componente-oggetto: ramo / albero, motore / auto, ala / aereo membro-insieme: albero / foresta, pecora / gregge parte-massa: fetta / torta materia-oggetto: sabbia / specchio caratteristica-attività: pagamento / acquisto posto-zona: provincia / regione / nazione / continente fase-processo: adolescenza / crescita
11
Relazioni semantiche 4 Ci sono 25 radici: organismi, sostanza, etc…
WordNet costituisce una foresta di alberi tramite la relazione di iperonimia e iponimia. Ci sono 25 radici: organismi, sostanza, etc… queste radici stabiliscono 25 diversi campi semantici strutturati ad albero. vale il principio di ereditarietà I nomi non sono collegati ad altre categorie lessicali (es: nomi-verbi, nessuna relazione inter-category): NO: relazioni di attributo (es: canarino giallo) NO: relazioni di funzionalità (es: canarino volare) Sì: relazioni di componente (es: canarino ala).
12
Esempio MultiWordNet {oggetto} ~ @ {artefatto} ~
{computer, data_processor, electronic_computer, Information_processing_system} | = corresponds_to {strumentazione} ~ @ {apparecchio, arnese, congegno, dispositivo} ~ @ {macchina} ~ @ {elaboratore, computer, cervello_elettronico, calcolatore} {monitor, schermo, video} {cpu, unità centrale di elaborazione} % #
13
Gli aggettivi Gli aggettivi attribuiscono una proprietà ad un nome.
Aggettivi descrittivi: associano un valore ad un certo attributo del nome. ES: “sedia grande” stabilisce il valore dell’attributo dimensione(sedia) = grande. Possiedono la relazione di sinonimia/antonimia (diretta e indiretta). Aggettivi relazionali: derivano da un nome. Es: “igienico”, “dentale”, “familiare”, etc… Possiedono un puntatore al nome dal quale derivano. Non possiedono antonimi!
14
I verbi I verbi sono il nucleo semantico di una frase: stabi-liscono una relazione tra i diversi elementi della frase. Il verbo A “entails” il verbo B, se lo svolgimento del primo implica lo svolgimento del secondo. ES: russare entails dormire / parlare entails comunicare Le relazioni tra verbi sono di 2 tipologie: Entailment “*” Troponymy Co-extensiveness Proper-Inclusion Backward-Presupposition Cause “>”
15
Verbi: le relazioni L’entailment troponymy è simile all’hyponymy nei nomi: Il verbo A è troponimo del verbo B se l’attività indicata da A è “del tipo” dell’attività di B. La troponymy si verifica tra verbi legati da: “co-extensiveness”, cioè avvengono in modo assolutamente sincrono. Es: scivolare / muoversi – correre / muoversi – zoppicare / camminare / riposarsi – dormire La relazione inversa è l’hyperonym proper-inclusion: il verbo A è incluso nel verbo B se A avviene mentre avviene B (ma non è detto il contrario) Es: russare / dormire – virare / navigare
16
Verbi: le relazioni Backward-presupposition: Cause “>”:
Il verbo A presuppone il verbo B se il verificarsi (temporalmente anteriore) di B è necessario affinchè si verifichi di A. Es: vincere / partecipare – colpire / mirare Cause “>”: il verbo A è in relazione di causa con il verbo B se il verificarsi di A (verbo causative) produce come conseguenza B (verbo resultative). Es: lasciare_in_eredità / possedere – bere / dissetarsi Cause è trattato come una relazione a parte (non è un entailment).
17
Un po’ di numeri Inglese: # synsets # word forms # relazioni
# verbi, nomi, aggettivi, avverbi
18
Un po’ di numeri Statistiche sui nomi (nel 2004) Inglese: Italiano:
# synsets = ca # word forms = ca # relazioni = ca Italiano: # synsets: ca (collegati all’inglese) # word forms: ca
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.