La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Text Processing WordNet Basi di Dati Multimediali - Giugno 2005 Marco Ernandes: Fonti di riferimento: Introduction to WordNet: an.

Presentazioni simili


Presentazione sul tema: "Text Processing WordNet Basi di Dati Multimediali - Giugno 2005 Marco Ernandes: Fonti di riferimento: Introduction to WordNet: an."— Transcript della presentazione:

1 Text Processing WordNet Basi di Dati Multimediali - Giugno 2005 Marco Ernandes: Fonti di riferimento: Introduction to WordNet: an on-line lexical database – George A. Miller WordNet: a lexical database – Marco Degemmis

2 2 Cosè WordNet Cosè WordNet E nato a Princeton (1985) dal gruppo di linguistica e psicolinguistica. E nato a Princeton (1985) dal gruppo di linguistica e psicolinguistica. WordNet è un vero e proprio DataBase Relazionale Lessicale. WordNet è un vero e proprio DataBase Relazionale Lessicale. E un ontologia linguistica che rappresenta in modo esplicito la conoscenza linguistica umana. E un ontologia linguistica che rappresenta in modo esplicito la conoscenza linguistica umana. La conoscenza linguistica formalizzata: La conoscenza linguistica formalizzata: è di senso comune è di senso comune è domain-independent è domain-independent

3 3 A cosa serve A cosa serve Nella comunità di Text Processing WordNet si usa per aggiungere semantica. Nella comunità di Text Processing WordNet si usa per aggiungere semantica. Semantizzare un testo vuol dire collegarlo in modo appropriato con il resto della base di conoscenza posseduta: la lingua è un reticolo di collegamenti! Semantizzare un testo vuol dire collegarlo in modo appropriato con il resto della base di conoscenza posseduta: la lingua è un reticolo di collegamenti! Esempi di utilizzo: Esempi di utilizzo: Riadattamento delle tecniche di indicizzazione Riadattamento delle tecniche di indicizzazione Word-sense disambiguation (es: scotch whiskey o nastro adesivo? interpretare cercare di capire o recitare ?) Word-sense disambiguation (es: scotch whiskey o nastro adesivo? interpretare cercare di capire o recitare ?)

4 4 La filosofia di WordNet La filosofia di WordNet Il concetto di parola viene definito come associazione tra due elementi: Il concetto di parola viene definito come associazione tra due elementi: Word-form (forma-parola): stringa di caratteri (lettere) che definiscono lespressione fisica di una parola Word-form (forma-parola): stringa di caratteri (lettere) che definiscono lespressione fisica di una parola Word-meaning (significato-parola): concetto lessicale espresso dalla parola (ogni parola veicola, anche in modo sottinteso, un senso). Word-meaning (significato-parola): concetto lessicale espresso dalla parola (ogni parola veicola, anche in modo sottinteso, un senso). Le associazioni tra forme e significati possono essere descritti nella matrice lessicale. Le associazioni tra forme e significati possono essere descritti nella matrice lessicale. Le word-form mappate su più word-meaning sono definite: polysemous. Le word-form mappate su più word-meaning sono definite: polysemous. Word-form diverse associate alla stessa word-meaning sono definite: synonym. Word-form diverse associate alla stessa word-meaning sono definite: synonym.

5 5 WordNet: i synset WordNet: i synset Una word-meaning viene rappresentata dallinsieme di tutte le word-form che possono essere usate per esprimerla. Una word-meaning viene rappresentata dallinsieme di tutte le word-form che possono essere usate per esprimerla. Questo insieme di word-form si chiama: synset. (E lo strumento che permette di rappresentare una word-meaning) Questo insieme di word-form si chiama: synset. (E lo strumento che permette di rappresentare una word-meaning) Le word-form sono mappate tra loro grazie ai synset (e ad altri puntatori). Le word-form sono mappate tra loro grazie ai synset (e ad altri puntatori). Le word-meaning sono mappate tra loro grazie a relazioni tra synset. Le word-meaning sono mappate tra loro grazie a relazioni tra synset.

6 6 Categorie lessicali e relazioni Categorie lessicali e relazioni Ci sono 4 categorie lessicali (giustificate dalla psicolinguistica): nomi, verbi, aggettivi, avverbi Ci sono 4 categorie lessicali (giustificate dalla psicolinguistica): nomi, verbi, aggettivi, avverbi I nomi sono legati da 2 tipologie di relazioni: I nomi sono legati da 2 tipologie di relazioni: Relazioni lessicali: si instaurano tra word-forms (sia tra forme contenute nello stesso synset sia esterne). Relazioni lessicali: si instaurano tra word-forms (sia tra forme contenute nello stesso synset sia esterne). synomymy vs. antonymy (per linglese ci sono anche le relazioni morfologiche)synomymy vs. antonymy (per linglese ci sono anche le relazioni morfologiche) Relazioni semantiche: si instaurano tra word-meaning. Relazioni semantiche: si instaurano tra word-meaning. hyponymy vs. hyperonymyhyponymy vs. hyperonymy meronymy vs. holonymymeronymy vs. holonymy Alcuni aggettivi possono essere in relazione synonimy vs. antonymy Alcuni aggettivi possono essere in relazione synonimy vs. antonymy I verbi possiedono la relazione di entailment. I verbi possiedono la relazione di entailment.

7 7 Relazioni Lessicali Relazioni Lessicali Synonymy: due word-form sono sinonime se sostituendo luna con laltra non si cambia il valore di verità di una frase. Synonymy: due word-form sono sinonime se sostituendo luna con laltra non si cambia il valore di verità di una frase. Le word-form sinonime appaiono nello stesso synset Le word-form sinonime appaiono nello stesso synset Antonymy !: due word-form sono antonime se il loro significato è opposto. Antonymy !: due word-form sono antonime se il loro significato è opposto. A opposto di B non implica che A = not(B) !!! A opposto di B non implica che A = not(B) !!! es: alto e basso. es: alto e basso. Per lantonimia esiste un vero puntatore da una word_form a unaltra. Non vale tra synset! Per lantonimia esiste un vero puntatore da una word_form a unaltra. Non vale tra synset!

8 8 Relazioni semantiche 1 Relazioni semantiche 1 Hyponymy ~ : relazione is a (sottoinsieme). Hyponymy ~ : relazione is a (sottoinsieme). Un synset A è hyponym di un synset B se A è del tipo di B. Un synset A è hyponym di un synset B se A è del tipo di B. Es: associazione hypo organizzazione, carpa hypo pesce, abete hypo albero. Es: associazione hypo organizzazione, carpa hypo pesce, abete hypo albero. La relazione deve valere per ogni forma allinterno dei synset (CHE SUCCEDE ALTRIMENTI?) La relazione deve valere per ogni forma allinterno dei synset (CHE SUCCEDE ALTRIMENTI?) : relazione inversa dellhyponymy (famiglia di appartenenza) : relazione inversa dellhyponymy (famiglia di appartenenza) Un synset A è hyponym di un synset B se B è del tipo di A. Un synset A è hyponym di un synset B se B è del tipo di A. Es: felino hyper gatto, laureato hyper ingegnere Es: felino hyper gatto, laureato hyper ingegnere

9 9 Relazioni semantiche 2 Relazioni semantiche 2 Meronymy % : relazione part of (componente di). Meronymy % : relazione part of (componente di). Un synset A è meronym di un synset B se A è un componente di B. Un synset A è meronym di un synset B se A è un componente di B. Es: volante mero auto, argento mero specchio. Es: volante mero auto, argento mero specchio. Attenzione: i meronym non sono tutti part of! (es: argento e specchio) Attenzione: i meronym non sono tutti part of! (es: argento e specchio) Holonymy # : relazione inversa di meronymy Holonymy # : relazione inversa di meronymy Un synset A è holonym di un synset B se B è componente di A. Un synset A è holonym di un synset B se B è componente di A. Es: aeroplano holo carlinga, computer holo CPU Es: aeroplano holo carlinga, computer holo CPU

10 10 Relazioni semantiche 3 Relazioni semantiche 3 La relazione di part-of non rappresenta tutte le possibili meronimie! La relazione di part-of non rappresenta tutte le possibili meronimie! Tipi di meronimia: Tipi di meronimia: componente-oggetto: ramo / albero, motore / auto, ala / aereo componente-oggetto: ramo / albero, motore / auto, ala / aereo membro-insieme: albero / foresta, pecora / gregge membro-insieme: albero / foresta, pecora / gregge parte-massa: fetta / torta parte-massa: fetta / torta materia-oggetto: sabbia / specchio materia-oggetto: sabbia / specchio caratteristica-attività: pagamento / acquisto caratteristica-attività: pagamento / acquisto posto-zona: provincia / regione / nazione / continente posto-zona: provincia / regione / nazione / continente fase-processo: adolescenza / crescita fase-processo: adolescenza / crescita

11 11 Relazioni semantiche 4 Relazioni semantiche 4 WordNet costituisce una foresta di alberi tramite la relazione di iperonimia e iponimia. WordNet costituisce una foresta di alberi tramite la relazione di iperonimia e iponimia. Ci sono 25 radici: organismi, sostanza, etc… Ci sono 25 radici: organismi, sostanza, etc… queste radici stabiliscono 25 diversi campi semantici strutturati ad albero. queste radici stabiliscono 25 diversi campi semantici strutturati ad albero. vale il principio di ereditarietà vale il principio di ereditarietà I nomi non sono collegati ad altre categorie lessicali (es: nomi-verbi, nessuna relazione inter-category): I nomi non sono collegati ad altre categorie lessicali (es: nomi-verbi, nessuna relazione inter-category): NO: relazioni di attributo (es: canarino giallo) NO: relazioni di attributo (es: canarino giallo) NO: relazioni di funzionalità (es: canarino volare) NO: relazioni di funzionalità (es: canarino volare) Sì: relazioni di componente (es: canarino ala). Sì: relazioni di componente (es: canarino ala).

12 12 Esempio MultiWordNet Esempio MultiWordNet {elaboratore, computer, cervello_elettronico, calcolatore} {monitor, schermo, video} {cpu, unità centrale di elaborazione} % # # {apparecchio, arnese, congegno, dispositivo} {computer, data_processor, electronic_computer, Information_processing_system} | = corresponds_to

13 13 Gli aggettivi Gli aggettivi Gli aggettivi attribuiscono una proprietà ad un nome. Gli aggettivi attribuiscono una proprietà ad un nome. Aggettivi descrittivi: associano un valore ad un certo attributo del nome. ES: sedia grande stabilisce il valore dellattributo dimensione(sedia) = grande. Aggettivi descrittivi: associano un valore ad un certo attributo del nome. ES: sedia grande stabilisce il valore dellattributo dimensione(sedia) = grande. Possiedono la relazione di sinonimia/antonimia (diretta e indiretta). Possiedono la relazione di sinonimia/antonimia (diretta e indiretta). Aggettivi relazionali: derivano da un nome. Es: igienico, dentale, familiare, etc… Aggettivi relazionali: derivano da un nome. Es: igienico, dentale, familiare, etc… Possiedono un puntatore al nome dal quale derivano. Possiedono un puntatore al nome dal quale derivano. Non possiedono antonimi! Non possiedono antonimi!

14 14 I verbi I verbi I verbi sono il nucleo semantico di una frase: stabi- liscono una relazione tra i diversi elementi della frase. I verbi sono il nucleo semantico di una frase: stabi- liscono una relazione tra i diversi elementi della frase. Il verbo A entails il verbo B, se lo svolgimento del primo implica lo svolgimento del secondo. Il verbo A entails il verbo B, se lo svolgimento del primo implica lo svolgimento del secondo. ES: russare entails dormire / parlare entails comunicare ES: russare entails dormire / parlare entails comunicare Le relazioni tra verbi sono di 2 tipologie: Le relazioni tra verbi sono di 2 tipologie: Entailment * Entailment * TroponymyTroponymy Co-extensivenessCo-extensiveness Proper-InclusionProper-Inclusion Backward-PresuppositionBackward-Presupposition Cause > Cause >

15 15 Verbi: le relazioni Verbi: le relazioni Lentailment troponymy è simile allhyponymy nei nomi: Lentailment troponymy è simile allhyponymy nei nomi: Il verbo A è troponimo del verbo B se lattività indicata da A è del tipo dellattività di B. Il verbo A è troponimo del verbo B se lattività indicata da A è del tipo dellattività di B. La troponymy si verifica tra verbi legati da: La troponymy si verifica tra verbi legati da: co-extensiveness, cioè avvengono in modo assolutamente sincrono.co-extensiveness, cioè avvengono in modo assolutamente sincrono. Es: scivolare / muoversi – correre / muoversi – zoppicare / camminare / riposarsi – dormireEs: scivolare / muoversi – correre / muoversi – zoppicare / camminare / riposarsi – dormire La relazione inversa è lhyperonymLa relazione inversa è lhyperonym proper-inclusion: il verbo A è incluso nel verbo B se A avviene mentre avviene B (ma non è detto il contrario) proper-inclusion: il verbo A è incluso nel verbo B se A avviene mentre avviene B (ma non è detto il contrario) Es: russare / dormire – virare / navigareEs: russare / dormire – virare / navigare

16 16 Verbi: le relazioni Verbi: le relazioni Backward-presupposition: Backward-presupposition: Il verbo A presuppone il verbo B se il verificarsi (temporalmente anteriore) di B è necessario affinchè si verifichi di A. Il verbo A presuppone il verbo B se il verificarsi (temporalmente anteriore) di B è necessario affinchè si verifichi di A. Es: vincere / partecipare – colpire / mirare Es: vincere / partecipare – colpire / mirare Cause >: Cause >: il verbo A è in relazione di causa con il verbo B se il verificarsi di A (verbo causative) produce come conseguenza B (verbo resultative). il verbo A è in relazione di causa con il verbo B se il verificarsi di A (verbo causative) produce come conseguenza B (verbo resultative). Es: lasciare_in_eredità / possedere – bere / dissetarsi Es: lasciare_in_eredità / possedere – bere / dissetarsi Cause è trattato come una relazione a parte (non è un entailment). Cause è trattato come una relazione a parte (non è un entailment).

17 17 Un po di numeri Un po di numeri Inglese: Inglese: # synsets # synsets # word forms # word forms # relazioni # relazioni # verbi, nomi, aggettivi, avverbi # verbi, nomi, aggettivi, avverbi

18 18 Un po di numeri Un po di numeri Statistiche sui nomi (nel 2004) Statistiche sui nomi (nel 2004) Inglese: Inglese: # synsets = ca # synsets = ca # word forms = ca # word forms = ca # relazioni = ca # relazioni = ca Italiano: Italiano: # synsets: ca (collegati allinglese) # synsets: ca (collegati allinglese) # word forms: ca # word forms: ca


Scaricare ppt "Text Processing WordNet Basi di Dati Multimediali - Giugno 2005 Marco Ernandes: Fonti di riferimento: Introduction to WordNet: an."

Presentazioni simili


Annunci Google