Text Processing WordNet Basi di Dati Multimediali - Giugno 2005 Marco Ernandes: ernandes@dii.unisi.it Fonti di riferimento: “Introduction to WordNet: an on-line lexical database” – George A. Miller “WordNet: a lexical database” – Marco Degemmis
Cos’è WordNet E’ nato a Princeton (1985) dal gruppo di linguistica e psicolinguistica. WordNet è un vero e proprio DataBase Relazionale Lessicale. E’ un ontologia linguistica che rappresenta in modo esplicito la conoscenza linguistica umana. La conoscenza linguistica formalizzata: è di senso comune è domain-independent
A cosa serve Nella comunità di Text Processing WordNet si usa per aggiungere semantica. “Semantizzare” un testo vuol dire collegarlo in modo appropriato con il resto della base di conoscenza posseduta: la lingua è un reticolo di collegamenti! Esempi di utilizzo: Riadattamento delle tecniche di indicizzazione Word-sense disambiguation (es: scotch whiskey o nastro adesivo? interpretare cercare di capire o recitare ?)
La filosofia di WordNet Il concetto di parola viene definito come associazione tra due elementi: Word-form (forma-parola): stringa di caratteri (lettere) che definiscono l’espressione “fisica” di una parola Word-meaning (significato-parola): concetto lessicale espresso dalla parola (ogni parola veicola, anche in modo sottinteso, un senso). Le associazioni tra forme e significati possono essere descritti nella matrice lessicale. Le word-form mappate su più word-meaning sono definite: polysemous. Word-form diverse associate alla stessa word-meaning sono definite: synonym.
WordNet: i synset Una word-meaning viene rappresentata dall’insieme di tutte le word-form che possono essere usate per esprimerla. Questo insieme di word-form si chiama: synset. (E’ lo strumento che permette di rappresentare una word-meaning) Le word-form sono mappate tra loro grazie ai synset (e ad altri “puntatori”). Le word-meaning sono mappate tra loro grazie a relazioni tra synset.
Categorie lessicali e relazioni Ci sono 4 categorie lessicali (giustificate dalla psicolinguistica): nomi, verbi, aggettivi, avverbi I nomi sono legati da 2 tipologie di relazioni: Relazioni lessicali: si instaurano tra word-forms (sia tra forme contenute nello stesso synset sia esterne). synomymy vs. antonymy (per l’inglese ci sono anche le relazioni morfologiche) Relazioni semantiche: si instaurano tra word-meaning. hyponymy vs. hyperonymy meronymy vs. holonymy Alcuni aggettivi possono essere in relazione synonimy vs. antonymy I verbi possiedono la relazione di entailment.
Relazioni Lessicali Synonymy: due word-form sono sinonime se sostituendo l’una con l’altra non si cambia il valore di verità di una frase. Le word-form sinonime appaiono nello stesso synset Antonymy “!”: due word-form sono antonime se il loro significato è opposto. A opposto di B non implica che A = not(B) !!! es: alto e basso. Per l’antonimia esiste un vero puntatore da una word_form a un’altra. Non vale tra synset!
Relazioni semantiche 1 Hyponymy “~”: relazione “is a” (sottoinsieme). Un synset A è hyponym di un synset B se A “è del tipo di” B. Es: associazione hypo organizzazione, carpa hypo pesce, abete hypo albero. La relazione deve valere per ogni forma all’interno dei synset (CHE SUCCEDE ALTRIMENTI?) Hyperonymy “@”: relazione inversa dell’hyponymy (famiglia di appartenenza) Un synset A è hyponym di un synset B se B “è del tipo di” A. Es: felino hyper gatto, laureato hyper ingegnere
Relazioni semantiche 2 Meronymy “%”: relazione “part of” (componente di). Un synset A è meronym di un synset B se A “è un componente di” B. Es: volante mero auto, argento mero specchio. Attenzione: i meronym non sono tutti “part of”! (es: argento e specchio) Holonymy “#”: relazione inversa di meronymy Un synset A è holonym di un synset B se B “è componente di” A. Es: aeroplano holo carlinga, computer holo CPU
Relazioni semantiche 3 La relazione di “part-of” non rappresenta tutte le possibili meronimie! Tipi di meronimia: componente-oggetto: ramo / albero, motore / auto, ala / aereo membro-insieme: albero / foresta, pecora / gregge parte-massa: fetta / torta materia-oggetto: sabbia / specchio caratteristica-attività: pagamento / acquisto posto-zona: provincia / regione / nazione / continente fase-processo: adolescenza / crescita
Relazioni semantiche 4 Ci sono 25 radici: organismi, sostanza, etc… WordNet costituisce una foresta di alberi tramite la relazione di iperonimia e iponimia. Ci sono 25 radici: organismi, sostanza, etc… queste radici stabiliscono 25 diversi campi semantici strutturati ad albero. vale il principio di ereditarietà I nomi non sono collegati ad altre categorie lessicali (es: nomi-verbi, nessuna relazione inter-category): NO: relazioni di attributo (es: canarino giallo) NO: relazioni di funzionalità (es: canarino volare) Sì: relazioni di componente (es: canarino ala).
Esempio MultiWordNet {oggetto} ~ @ {artefatto} ~ {computer, data_processor, electronic_computer, Information_processing_system} | = corresponds_to {strumentazione} ~ @ {apparecchio, arnese, congegno, dispositivo} ~ @ {macchina} ~ @ {elaboratore, computer, cervello_elettronico, calcolatore} {monitor, schermo, video} {cpu, unità centrale di elaborazione} % #
Gli aggettivi Gli aggettivi attribuiscono una proprietà ad un nome. Aggettivi descrittivi: associano un valore ad un certo attributo del nome. ES: “sedia grande” stabilisce il valore dell’attributo dimensione(sedia) = grande. Possiedono la relazione di sinonimia/antonimia (diretta e indiretta). Aggettivi relazionali: derivano da un nome. Es: “igienico”, “dentale”, “familiare”, etc… Possiedono un puntatore al nome dal quale derivano. Non possiedono antonimi!
I verbi I verbi sono il nucleo semantico di una frase: stabi-liscono una relazione tra i diversi elementi della frase. Il verbo A “entails” il verbo B, se lo svolgimento del primo implica lo svolgimento del secondo. ES: russare entails dormire / parlare entails comunicare Le relazioni tra verbi sono di 2 tipologie: Entailment “*” Troponymy Co-extensiveness Proper-Inclusion Backward-Presupposition Cause “>”
Verbi: le relazioni L’entailment troponymy è simile all’hyponymy nei nomi: Il verbo A è troponimo del verbo B se l’attività indicata da A è “del tipo” dell’attività di B. La troponymy si verifica tra verbi legati da: “co-extensiveness”, cioè avvengono in modo assolutamente sincrono. Es: scivolare / muoversi – correre / muoversi – zoppicare / camminare / riposarsi – dormire La relazione inversa è l’hyperonym proper-inclusion: il verbo A è incluso nel verbo B se A avviene mentre avviene B (ma non è detto il contrario) Es: russare / dormire – virare / navigare
Verbi: le relazioni Backward-presupposition: Cause “>”: Il verbo A presuppone il verbo B se il verificarsi (temporalmente anteriore) di B è necessario affinchè si verifichi di A. Es: vincere / partecipare – colpire / mirare Cause “>”: il verbo A è in relazione di causa con il verbo B se il verificarsi di A (verbo causative) produce come conseguenza B (verbo resultative). Es: lasciare_in_eredità / possedere – bere / dissetarsi Cause è trattato come una relazione a parte (non è un entailment).
Un po’ di numeri Inglese: # synsets # word forms # relazioni # verbi, nomi, aggettivi, avverbi
Un po’ di numeri Statistiche sui nomi (nel 2004) Inglese: Italiano: # synsets = ca. 102.000 # word forms = ca. 125.000 # relazioni = ca. 125.000 Italiano: # synsets: ca. 34000 (collegati all’inglese) # word forms: ca. 41000