Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a
Lessici computazionali e tecnologia del linguaggio naturale I lessici computazionali forniscono una conoscenza delle parole comprensibile alla macchina La rappresentazione è esplicita Il significato è collegato alla morfologia e alla sintassi della parola E’ possibile creare collegamenti lessicali multilingua
Lessici computazionali e tecnologia del linguaggio naturale I lessici computazionali sono collezioni di entrate lessicali di una data lingua Un entrata lessicale può corrispondere a lemma: mangiare, cane, bello forma flessa: mangio, mangiate, cani, belli Supponendo di riferirsi a lessici basati su lemmi, ogni entrata lessicale può contenere una quantità variabile di informazioni
Lessici computazionali e tecnologia del linguaggio naturale Forma ortografica (mang-; mangiare; can-; cane) Informazioni categoriali (parti del discorso): N, V, P, …. Tratti morfologici rilevanti, se del caso: genere, numero, persona, definitezza, Informazioni sulle proprietà di selezione (sottocategorizzazione) Informazioni sul significato del lemma (semantica lessicale)
Lessici computazionali e tecnologia del linguaggio naturale Un sistema di analisi, quindi, ha, almeno, la seguente struttura Analizzatore sintattico/parser Frase/testo lessico analizzatore morfologico risultato
Ontologie e lessici computazionali Semantic Web Ontologies Computational Lexicons HLT Access to Content ?
Ontologie “la specifica esplicita di una concettualizzazione” (Gruber, 1993) “includono il vocabolario, le interconnessioni semantiche e alcune semplici regole di inferenza e logica” (Hendler, 2001)
Ontologie “linguistiche” Sistemi di simboli che rappresentano i concetti codificati da espressioni in linguaggio naturale (unità lessicali, termini, ecc.) –Specificano le classi semantiche raggruppando termini simili a livello semantico –Usano un linguaggio di rappresentazione semantica OBJECT EVENT LOCATION ARTIFACT ANIMAL ENTITY VEHICLE MAMMAL BEACH CONCERT dog, cat, horse car, van, truck beach piano concert, rock concert spiaggia
Tipologie di lessici computazionali Monolingua vs multilingua General purpose vs domain specific Tipo di contenuto –(Morfo)sintattico –Semantico –Misto –Terminologico
Lessici computazionali sintattici Le informazioni lessicali sono contenute in frame di sottocategorizzazione (ComLex, PAROLE ecc.) I frame sintattici includono: –Un certo numero di argomenti –Le rispettive categorie sintattiche (PP, NP, ecc.) –Vincoli lessicali sugli argomenti (es. PP deve avere in testa una preposizione) –Un ruolo funzionale per ogni argomento (Subj, Obj, ecc.) hit [V: (Subj: NP) (Objd: NP)] answer [N: (Obji: PP_to)]
Lessici computazionali semantici Rappresentano il significato di una parola –Distinguono differenti sensi di una parola –Catturano le inferenze (essere umano essere animato) –Rappresentano similarità, relatedness ecc. (es. banca, conto, denaro sono concetti tra loro collegabili in un ambito finanziario)
Lessici computazionali semantici Basati su reti concettuali –WordNet (Miller, Fellbaum et al.) –EuroWordNet (Vossen et al.) Basati su frame –Mikrokosmos (Nirenburg, Mahesh et al.) –FrameNet (Fillmore et al.) Ibridi –SIMPLE (Calzolari, Lenci et al.)
Lessici semantici - WordNet I lessici sono in genere organizzati alfabeticamente. In sostanza, riproducono la struttura dei normali dizionari, in quanto rendono disponibili informazioni a partire dalle parole (dai lemmi, ecc.) E’ possibile organizzare un lessico su base diversa, per esempio, concettuale
Parole e concetti Le parole, es. ‘cane’, ‘mangiare’, ecc. esprimono concetti. Il cane è un mammifero La frase ha tra i suoi costituenti ‘il’ ‘cane’ ‘mammifero’… La proposizione ha tra i suoi costituenti i concetti di cane e mammifero I concetti sono, in un certo senso, i costituenti del significato (ovvero di ciò che vogliamo comunicare). Per comprendere la proposizione dobbiamo comprendere i concetti espressi dai suoi costituenti
Polisemia e sinonimia Un certa parola, (es. ‘cane’, “radice”) può avere sensi differenti, cioè può esprimere più concetti a seconda del contesto; si dice in tal caso polisemica cane = mammifero, amico dell’uomo, ecc.. cane = parte metallica di arma da fuoco che percuotendo la polvere da sparo, dà luogo all’esplosione radice = parte da cui origina una pianta, in genere sotterranea … radice =operazione matematica, inversa dell’elevamento a potenza…
Polisemia e sinonimia Al contrario, uno stesso concetto può essere espresso da parole diverse (sinonimi) casa, abitazione, magione, domicilio… calcolatore, elaboratore ruotare, girare Sia la sinonimia che la polisemia, non sono proprietà assolute, ma dipendono dal contesto
Inferenze basate su sinonimia Supponiamo di cercare, all’interno di vari documenti, quelli in cui compare il concetto di casa/abitazione La casa era in fondo alla strada……… L’architetto ha progettato l’abitazione in modo che….. L’edificio si trova……… Il giudice si recò al suo domicilio…..
Iperonimia e iponimia Un pettirosso è (is-a) un uccello, un uccello è (is-a) un animale, un animale è (is-a) un essere vivente… Pettirosso is-a uccello is-a animale is-a essere vivente… Il concetto pettirosso è subordinato al concetto uccello. Il concetto uccello è superordinato al concetto pettirosso. Il nome ‘pettirosso’ è un iponimo del nome ‘uccello’ Il nome ‘uccello’ è un iperonimo del nome ‘pettirosso’.
Inferenze basate su ipo/iperonimia Ho visto un pettirosso Ho visto un uccello Ho visto un animale Ho visto un essere vivente ………….
Ereditarietà Gli hanno regalato un libro di più di cinquecento pagine ed una bicicletta. Carlo ha letto il romanzo in meno di una settimana. Mario comprò un chilo di filetto.
Anafora e riferimenti Gli ho regalato un romanzo, ma il libro lo ha annoiato. Gli ho regalato un romanzo, ma il film lo ha annoiato. Carlo ha comprato un pappagallo. Il povero animale era denutrito. Carlo ha comprato un pappagallo. Il pesce era denutrito.
Rappresentare concetti lessicali Per concetto lessicale si intende un concetto per il quale, in una data lingua, esiste un modo semplice (parola semplice, parola composta, ecc.) per esprimerlo. casa è un concetto lessicale casa di mattoni, casa bianca non lo sono
Rappresentare concetti lessicali Si può rappresentare un concetto lessicale come l’insieme delle parole sinonime (synset) che esprimono quel dato concetto. {automobile, macchina} {babbo_natale, papà_natale, santa, santa_claus} e mettere in relazione synsets (rappresentazioni di concetti lessicali) tramite le relazioni di iponimia ed iperonimia.
{automobile, macchina} is-a {veicolo} is-a {mezzo di trasporto } …………….. {automobile,macchina} {veicolo} {mezzo di trasporto} Is-a
Rappresentare concetti lessicali Criterio di massima per includere due parole nello stesso synset: Una persona di lingua madre deve poter sostituire l’una con l’altra nella maggior parte dei contesti La casa di Mario è bella L’abitazione di Mario è bella L’edificio di Mario è bello Il domicilio di Mario è bello
WordNet (WN)-1980 in poi WordNet (WN) è stato sviluppato presso l’università di Princeton da George Miller e dai suoi collaboratori come modello del lessico mentale una rete semantica in cui i concetti sono definiti in termini di relazioni con altri concetti È una rete semantica in cui i concetti sono definiti in termini di relazioni con altri concetti
WordNet (WN) In WordNet, i nomi sono suddivisi in 15 gerarchie tra di loro separate. La radice di ognuna di esse corrisponde ad una sorta di primitivo semantico. {attività}, {animale}, {artefatto}, {attributo}, {corpo}, {cognizione, conoscenza}, {comunicazione}, {evento, avvenimento}, ……
Ereditarietà e gerarchie …………………………………… attività comunicazione
WordNet (WN) database lessicale per l’inglese WordNet (WN) è un database lessicale per l’inglese con un’alta copertura di entries lessicali inglesi (N, V, Agg, Avv) e informazioni su relazioni lessicali e semantiche tra le entries, tra cui 1.Sinonimia (automobile, macchina) 2.Iponimia - a kind of - (ambulanza, automobile) 3.Meronimia – has part – (mano, dita) 4.Antonimia (giorno, notte)
WordNet (WN) organizzazione L’elemento fondamentale è il synset = synonym set Un synset è equivalente ad un concetto Un concetto viene espresso tramite un synset Es. sensi di “car” (synset a cui “car” appartiene) {car, auto, automobile, machine, motorcar} {car, railcar, railway car, railroad car} {cable car, car} {car, gondola} {car, elevator car}
WordNet (WN) organizzazione Tabelle (files) separate per le diverse categorie sintattiche (N, V, Agg, Avv) Links tra parole e synset ed anche tra synset (che rappresentino relazioni sintattiche) Es.{persone, individui, mortale, umano } a kind of {organism, being} a kind of {living thing, animate thing} a kind of {object, physical object} a kind of {entity, physical thing}
Struttura di WordNet
Architettura di SIMPLE Italian lexicon etc. Greek lexicon PAROLE Syntax Italian lexicon Catalan lexicon Ontology Lexical Templates Language Independent Module SemU Semantic Relations Event Structure Polysemy Semantic Frame (semantic roles, etc.)
SIMPLE relazioni semantiche Top FormalConstitutiveAgentive Telic Is_aIs_a_part_ofProperty Contains Created_byAgentive_causeIndirect_telicActivity InstrumentalIs_the_habit_of Used_forUsed_as...
SIMPLE una rete semantica part Isa fly Used_for airplane Is_a_part_of bird Is_a_part_of building Is_a_part_of Ala (wing) SemU: 3232 Type: [Part] Part of an airplane SemU: 3268 Type: [Part] Part of a building SemU: D358 Type: [Body_part] Organ of birds for flying SemU: 3467 Type: [Role] Role in football player Isa Agentive make Agentive
SIMPLE Frame semantici il difensore di Berlusconi (Berlusconi's defender) il difensore del Milan (the Milan fullback) Difensore N SemU: 4125 Type: [Role] Defender SemU: 3526 Type: [Role] Fullback agent nominalization team Is_a_member_of PREDDifendere#1,
Frame disambiguation L’identificazione del contributo semantico di un NP richiede l’accesso alla rappresentazione del contenuto semantico delle teste nominali La “struttura semantica” della testa nominale determina la relazione semantica espressa da un PP che modifica l’NP: –La pagina del libro (part-of) –Il difensore del Milan (member-of) –Il suonatore di liuto (telic) –Il tavolo di legno (made-of)
SIMPLE esempi semantic frame semantic relations ontology