Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a. 2006-2007.

Slides:



Advertisements
Presentazioni simili
Inizio… Linguaggi Linguaggi di programmazione Linguaggi di programmazione Linguaggi di programmazione Linguaggi di programmazione Linguaggi Formali Linguaggi.
Advertisements


Generalità Linguaggio e Macchina Astratta
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea in Ingegneria Informatica Integrazione di WordNet Domains.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica Ontologie Lessicali Multilingua:
IL VOCABOLARIO DI INDICIZZAZIONE nellindicizzazione verbale Linsieme controllato e strutturato dei termini (termini di indicizzazione) selezionati dalla.
Tecniche di processamento testuale Come classificare testi per argomento.
Text Processing WordNet
Sistemi computazionali per il linguaggio naturale
Intelligenza Artificiale Linguaggio naturale
Ontologie: dalle scienze cognitive al Semantic Web
Intelligenza Artificiale 2 Metodologie di ragionamento Prof. M.T. PAZIENZA a.a
Metodologie per la gestione di conoscenza ontologica Prof. M.T. PAZIENZA a.a
Intelligenza Artificiale Strutture e strategie per risolvere problemi complessi Prof. M.T. PAZIENZA a.a
Intelligenza Artificiale 2 Metodologie di ragionamento Prof. M.T. PAZIENZA a.a
Intelligenza Artificiale Metodologie di ragionamento Prof. M.T. PAZIENZA a.a
Intelligenza Artificiale Semantica del linguaggio naturale
Maria Teresa PAZIENZA a.a
Computer, Lingue ed Applicazioni Perché comprendere tramite gli elaboratori i contenuti testuali? I testi sono i veicoli principali di significato per.
Sistemi basati su conoscenza Comunicazione basata sul linguaggio naturale Prof. M.T. PAZIENZA a.a
Sistemi basati su conoscenza Basi di conoscenza: rappresentazione e ragionamento (2 - Reti semantiche, Frames) Prof. M.T. PAZIENZA a.a
Sistemi basati su conoscenza Basi di conoscenza: rappresentazione e ragionamento (2 - Reti semantiche, Frames) Prof. M.T. PAZIENZA a.a
Pianificazione attività di Istituto Parte laboratoriale
Apprendimento Automatico: Elaborazione del Linguaggio Naturale
Istituzioni di linguistica
Istituzioni di linguistica
Istituzioni di linguistica
FONDAMENTI DI INFORMATICA III A3A1-1 Realtà e Modello MODELLI E METODOLOGIE PER LA PROGETTAZIONE LOGICA DI SISTEMI INFORMATIVI PER LUFFICIO Argomento 3.
Chomsky La grammatica/sintassi è una proprietà della mente
Risorse Computazionali per il Web Semantico
Mentre lerrore grammaticale è generalmente attribuito a ignoranza della lingua e facilmente scusato, lerrore pragmatico non viene percepito.
Unità Didattica 2 I Linguaggi di Programmazione
Realizzare un curricolo di Italiano
Informatica giuridica Informatica e lingua del diritto Nicola Palazzolo Anno Accademico 2006/2007.
PADRONANZA LINGUISTICA
INSIEMI NUMERABILI L’analisi matematica introduce il concetto di insieme numerabile come insieme i cui elementi possono essere “contati” ossia che possiede.
LINGUAGGI DI PROGRAMMAZIONE
Chomsky La grammatica/sintassi è una proprietà della mente Distinta dalla capacità di comunicare E una facoltà autonoma ed innata La comunicazione è solo.
Istituzioni di linguistica a.a Federica Da Milano
…. mare c’è un golfo, dove ho assistito …. bellissimi tramonti.
Strumenti per comunicare (S23) Corso di grammatica italiana 1
Alla scoperta del significato
Espressione polirematica
PROGETTO REGIONALE ELLE – EMERGENZA LINGUA- II SEMINARIO DISTRETTUALE DI RAVENNA – Ravenna, 22 novembre 2010 Pianificazione attività di Istituto Parte.
MORFOLOGIA.
SINTASSI.
Grammatiche, Linguaggio e Automi R. Basili TAL - a.a
Linguaggi per COMUNICARE
1 Ontology languages. Strato dei modelli LA SCELTA DEL LINGUAGGIO Una volta selezionati i componenti dell’ontologia occorre esprimerli in maniera esplicita,
Linguaggi e Modelli dei dati e della conoscenza Introduzione all’Intelligenza Artificiale “classificazione” Maria Teresa PAZIENZA a.a
Sistemi basati su conoscenza Comunicazione basata sul linguaggio naturale (grammatica, semantica) Prof. M.T. PAZIENZA a.a
La riflessione sulla lingua nelle Indicazioni nazionali
Michele A. Cortelazzo Morfologia 1.
Sistemi basati su conoscenza Linguaggio naturale: grammatiche Prof. M.T. PAZIENZA a.a
Ad ogni termine singolare è associato un senso ( Sinn) e una
Intelligenza Artificiale 1 Gestione della conoscenza lezione 19 Prof. M.T. PAZIENZA a.a
PROGRAMMAZIONE DISCIPLINARE CLASSI SECONDE A.S MATERIA:ITALIANO DOCENTE: PELLEGRINETTI ENRICA.
Tecnologie di InternetDocument Type Definition Dott. Nicola Dragoni Document Type Definition  Document Type Definition (DTD)  Documento XML valido 
Linguaggi e Modelli dei dati e della conoscenza “rappresentazione della conoscenza” docenti Maria Teresa PAZIENZA Fabio Masimo ZANZOTTO a.a
Fondamenti di Informatica 2 Ingegneria Informatica Docente: Giovanni Macchia a.a
Giovanna Aracri Maria Teresa Guaglianone
L'analisi dei testi per la realizzazione del Web Semantico: quali gli strumenti e le applicazioni Paolo Poto Expert System Spa.
Linguaggi di programmazione: panoramica Linguaggi di programmazione ad alto livello: – –Programmazione procedurale – –Programmazione object oriented –
Dipartimento di Ingegneria dell’Informazione Università degli Studi di Parma Intelligenza Artificiale Rappresentazione della Conoscenza e Ragionamento.
Relazione bi-adica (qualcosa sta per qualcos’altro)
Sistemi basati su conoscenza Comunicazione basata sul linguaggio naturale (grammatica, semantica) Prof. M.T. PAZIENZA a.a
Intelligenza Artificiale Metodologie di ragionamento Prof. M.T. PAZIENZA a.a
Fagioli, Caltagirone,Tomboletti e Delli Gatti.
I componenti formali del linguaggio
La Comprensione frasale
Transcript della presentazione:

Sistemi basati su conoscenza Interazioni tra ontologie e lessici Prof. M.T. PAZIENZA a.a

Lessici computazionali e tecnologia del linguaggio naturale I lessici computazionali forniscono una conoscenza delle parole comprensibile alla macchina La rappresentazione è esplicita Il significato è collegato alla morfologia e alla sintassi della parola E’ possibile creare collegamenti lessicali multilingua

Lessici computazionali e tecnologia del linguaggio naturale I lessici computazionali sono collezioni di entrate lessicali di una data lingua Un entrata lessicale può corrispondere a lemma: mangiare, cane, bello forma flessa: mangio, mangiate, cani, belli Supponendo di riferirsi a lessici basati su lemmi, ogni entrata lessicale può contenere una quantità variabile di informazioni

Lessici computazionali e tecnologia del linguaggio naturale Forma ortografica (mang-; mangiare; can-; cane) Informazioni categoriali (parti del discorso): N, V, P, …. Tratti morfologici rilevanti, se del caso: genere, numero, persona, definitezza, Informazioni sulle proprietà di selezione (sottocategorizzazione) Informazioni sul significato del lemma (semantica lessicale)

Lessici computazionali e tecnologia del linguaggio naturale Un sistema di analisi, quindi, ha, almeno, la seguente struttura Analizzatore sintattico/parser Frase/testo lessico analizzatore morfologico risultato

Ontologie e lessici computazionali Semantic Web Ontologies Computational Lexicons HLT Access to Content ?

Ontologie “la specifica esplicita di una concettualizzazione” (Gruber, 1993) “includono il vocabolario, le interconnessioni semantiche e alcune semplici regole di inferenza e logica” (Hendler, 2001)

Ontologie “linguistiche” Sistemi di simboli che rappresentano i concetti codificati da espressioni in linguaggio naturale (unità lessicali, termini, ecc.) –Specificano le classi semantiche raggruppando termini simili a livello semantico –Usano un linguaggio di rappresentazione semantica OBJECT EVENT LOCATION ARTIFACT ANIMAL ENTITY VEHICLE MAMMAL BEACH CONCERT dog, cat, horse car, van, truck beach piano concert, rock concert spiaggia

Tipologie di lessici computazionali Monolingua vs multilingua General purpose vs domain specific Tipo di contenuto –(Morfo)sintattico –Semantico –Misto –Terminologico

Lessici computazionali sintattici Le informazioni lessicali sono contenute in frame di sottocategorizzazione (ComLex, PAROLE ecc.) I frame sintattici includono: –Un certo numero di argomenti –Le rispettive categorie sintattiche (PP, NP, ecc.) –Vincoli lessicali sugli argomenti (es. PP deve avere in testa una preposizione) –Un ruolo funzionale per ogni argomento (Subj, Obj, ecc.) hit [V: (Subj: NP) (Objd: NP)] answer [N: (Obji: PP_to)]

Lessici computazionali semantici Rappresentano il significato di una parola –Distinguono differenti sensi di una parola –Catturano le inferenze (essere umano  essere animato) –Rappresentano similarità, relatedness ecc. (es. banca, conto, denaro sono concetti tra loro collegabili in un ambito finanziario)

Lessici computazionali semantici Basati su reti concettuali –WordNet (Miller, Fellbaum et al.) –EuroWordNet (Vossen et al.) Basati su frame –Mikrokosmos (Nirenburg, Mahesh et al.) –FrameNet (Fillmore et al.) Ibridi –SIMPLE (Calzolari, Lenci et al.)

Lessici semantici - WordNet I lessici sono in genere organizzati alfabeticamente. In sostanza, riproducono la struttura dei normali dizionari, in quanto rendono disponibili informazioni a partire dalle parole (dai lemmi, ecc.) E’ possibile organizzare un lessico su base diversa, per esempio, concettuale

Parole e concetti Le parole, es. ‘cane’, ‘mangiare’, ecc. esprimono concetti. Il cane è un mammifero La frase ha tra i suoi costituenti ‘il’ ‘cane’ ‘mammifero’… La proposizione ha tra i suoi costituenti i concetti di cane e mammifero I concetti sono, in un certo senso, i costituenti del significato (ovvero di ciò che vogliamo comunicare). Per comprendere la proposizione dobbiamo comprendere i concetti espressi dai suoi costituenti

Polisemia e sinonimia Un certa parola, (es. ‘cane’, “radice”) può avere sensi differenti, cioè può esprimere più concetti a seconda del contesto; si dice in tal caso polisemica cane = mammifero, amico dell’uomo, ecc.. cane = parte metallica di arma da fuoco che percuotendo la polvere da sparo, dà luogo all’esplosione radice = parte da cui origina una pianta, in genere sotterranea … radice =operazione matematica, inversa dell’elevamento a potenza…

Polisemia e sinonimia Al contrario, uno stesso concetto può essere espresso da parole diverse (sinonimi) casa, abitazione, magione, domicilio… calcolatore, elaboratore ruotare, girare Sia la sinonimia che la polisemia, non sono proprietà assolute, ma dipendono dal contesto

Inferenze basate su sinonimia Supponiamo di cercare, all’interno di vari documenti, quelli in cui compare il concetto di casa/abitazione La casa era in fondo alla strada……… L’architetto ha progettato l’abitazione in modo che….. L’edificio si trova……… Il giudice si recò al suo domicilio…..

Iperonimia e iponimia Un pettirosso è (is-a) un uccello, un uccello è (is-a) un animale, un animale è (is-a) un essere vivente… Pettirosso is-a uccello is-a animale is-a essere vivente… Il concetto pettirosso è subordinato al concetto uccello. Il concetto uccello è superordinato al concetto pettirosso. Il nome ‘pettirosso’ è un iponimo del nome ‘uccello’ Il nome ‘uccello’ è un iperonimo del nome ‘pettirosso’.

Inferenze basate su ipo/iperonimia Ho visto un pettirosso  Ho visto un uccello  Ho visto un animale  Ho visto un essere vivente  ………….

Ereditarietà Gli hanno regalato un libro di più di cinquecento pagine ed una bicicletta. Carlo ha letto il romanzo in meno di una settimana. Mario comprò un chilo di filetto.

Anafora e riferimenti Gli ho regalato un romanzo, ma il libro lo ha annoiato.  Gli ho regalato un romanzo, ma il film lo ha annoiato. Carlo ha comprato un pappagallo. Il povero animale era denutrito. Carlo ha comprato un pappagallo. Il pesce era denutrito.

Rappresentare concetti lessicali Per concetto lessicale si intende un concetto per il quale, in una data lingua, esiste un modo semplice (parola semplice, parola composta, ecc.) per esprimerlo. casa è un concetto lessicale casa di mattoni, casa bianca non lo sono

Rappresentare concetti lessicali Si può rappresentare un concetto lessicale come l’insieme delle parole sinonime (synset) che esprimono quel dato concetto. {automobile, macchina} {babbo_natale, papà_natale, santa, santa_claus} e mettere in relazione synsets (rappresentazioni di concetti lessicali) tramite le relazioni di iponimia ed iperonimia.

{automobile, macchina} is-a {veicolo} is-a {mezzo di trasporto } …………….. {automobile,macchina} {veicolo} {mezzo di trasporto} Is-a

Rappresentare concetti lessicali Criterio di massima per includere due parole nello stesso synset: Una persona di lingua madre deve poter sostituire l’una con l’altra nella maggior parte dei contesti La casa di Mario è bella L’abitazione di Mario è bella  L’edificio di Mario è bello  Il domicilio di Mario è bello

WordNet (WN)-1980 in poi WordNet (WN) è stato sviluppato presso l’università di Princeton da George Miller e dai suoi collaboratori come modello del lessico mentale una rete semantica in cui i concetti sono definiti in termini di relazioni con altri concetti È una rete semantica in cui i concetti sono definiti in termini di relazioni con altri concetti

WordNet (WN) In WordNet, i nomi sono suddivisi in 15 gerarchie tra di loro separate. La radice di ognuna di esse corrisponde ad una sorta di primitivo semantico. {attività}, {animale}, {artefatto}, {attributo}, {corpo}, {cognizione, conoscenza}, {comunicazione}, {evento, avvenimento}, ……

Ereditarietà e gerarchie …………………………………… attività comunicazione

WordNet (WN) database lessicale per l’inglese WordNet (WN) è un database lessicale per l’inglese con un’alta copertura di entries lessicali inglesi (N, V, Agg, Avv) e informazioni su relazioni lessicali e semantiche tra le entries, tra cui 1.Sinonimia (automobile, macchina) 2.Iponimia - a kind of - (ambulanza, automobile) 3.Meronimia – has part – (mano, dita) 4.Antonimia (giorno, notte)

WordNet (WN) organizzazione L’elemento fondamentale è il synset = synonym set Un synset è equivalente ad un concetto Un concetto viene espresso tramite un synset Es. sensi di “car” (synset a cui “car” appartiene) {car, auto, automobile, machine, motorcar} {car, railcar, railway car, railroad car} {cable car, car} {car, gondola} {car, elevator car}

WordNet (WN) organizzazione Tabelle (files) separate per le diverse categorie sintattiche (N, V, Agg, Avv) Links tra parole e synset ed anche tra synset (che rappresentino relazioni sintattiche) Es.{persone, individui, mortale, umano } a kind of {organism, being} a kind of {living thing, animate thing} a kind of {object, physical object} a kind of {entity, physical thing}

Struttura di WordNet

Architettura di SIMPLE Italian lexicon etc. Greek lexicon PAROLE Syntax Italian lexicon Catalan lexicon Ontology Lexical Templates Language Independent Module SemU Semantic Relations Event Structure Polysemy Semantic Frame (semantic roles, etc.)

SIMPLE relazioni semantiche Top FormalConstitutiveAgentive Telic Is_aIs_a_part_ofProperty Contains Created_byAgentive_causeIndirect_telicActivity InstrumentalIs_the_habit_of Used_forUsed_as...

SIMPLE una rete semantica part Isa fly Used_for airplane Is_a_part_of bird Is_a_part_of building Is_a_part_of Ala (wing) SemU: 3232 Type: [Part] Part of an airplane SemU: 3268 Type: [Part] Part of a building SemU: D358 Type: [Body_part] Organ of birds for flying SemU: 3467 Type: [Role] Role in football player Isa Agentive make Agentive

SIMPLE Frame semantici il difensore di Berlusconi (Berlusconi's defender) il difensore del Milan (the Milan fullback) Difensore N SemU: 4125 Type: [Role] Defender SemU: 3526 Type: [Role] Fullback agent nominalization team Is_a_member_of PREDDifendere#1,

Frame disambiguation L’identificazione del contributo semantico di un NP richiede l’accesso alla rappresentazione del contenuto semantico delle teste nominali La “struttura semantica” della testa nominale determina la relazione semantica espressa da un PP che modifica l’NP: –La pagina del libro (part-of) –Il difensore del Milan (member-of) –Il suonatore di liuto (telic) –Il tavolo di legno (made-of)

SIMPLE esempi semantic frame semantic relations ontology