La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Risorse Computazionali per il Web Semantico

Presentazioni simili


Presentazione sul tema: "Risorse Computazionali per il Web Semantico"— Transcript della presentazione:

1 Risorse Computazionali per il Web Semantico
Roberto Navigli Alcune slide provengono dalla scuola estiva EUROLAN 2003 19/09/2003

2 Agenda Il Web Semantico Lessici computazionali Focus on:
Classificazioni Focus on: SIMPLE FrameNet

3 Il Web Semantico Obiettivo: Trasformare il WWW in una KB comprensibile alla macchina Web Semantico Ontologie Knowledge Markup Agenti Intelligenti Applicazioni Documenti Database

4 L’Onda Semantica

5 6 sfide per il WS (Benjamins et al. 2002)
Disponibilità del contenuto Disponibilità di ontologie Multilingualità Scalabilità (organizzazione, memorizzazione, ricerca della conoscenza) Visualizzazione (≠ ipertesto) Stabilità dei linguaggi del WS (standardizzazione) Human Language Technology (HLT)

6 Lessici computazioniali e Human Language Technologies
I lessici computazionali forniscono una conoscenza delle parole comprensibile alla macchina La rappresentazione è esplicita Il significato è collegato alla morfologia e alla sintassi della parola E’ possibile creare collegamenti lessicali multilingua

7 Lessici computazionali e HLT (2)
Risorse critiche per i sistemi di NLP: Frame di sottocategorizzazione sintattica per il parsing Semantic selectional preferences per la riduzione dell’ambiguità Classi semantiche per WSD, semantic tagging ecc. Componenti chiave delle HLT: Lessici monolingua – IE, QA, ecc. Lessici multilingua – MT, CLIR, ecc.

8 Ontologie e lessici computazionali
Access to Content HLT Semantic Web Ontologies Computational Lexicons ?

9 Ontologie “la specifica esplicita di una concettualizzazione” (Gruber, 1993) “includono il vocabolario, le interconnessioni semantiche e alcune semplici regole di inferenza e logica” (Hendler, 2001)

10 Ontologie “linguistiche”
Sistemi di simboli che rappresentano i concetti codificati da espressioni in linguaggio naturale (unità lessicali, termini, ecc.) Specificano le classi semantiche raggruppando termini simili a livello semantico Usano un linguaggio di rappresentazione semantica OBJECT EVENT LOCATION ARTIFACT ANIMAL ENTITY VEHICLE MAMMAL BEACH CONCERT dog, cat, horse car, van, truck beach piano concert, rock concert spiaggia

11 Tipologie di lessici computazionali
Monolingua vs multilingua General purpose vs domain specific Tipo di contenuto (Morfo)sintattico Semantico Misto Terminologico

12 Lessici computazionali sintattici
Le informazioni lessicali sono contenute in frame di sottocategorizzazione (ComLex, PAROLE ecc.) I frame sintattici includono: Un certo numero di argomenti Le rispettive categorie sintattiche (PP, NP, ecc.) Vincoli lessicali sugli argomenti (es. PP deve avere in testa una preposizione) Un ruolo funzionale per ogni argomento (Subj, Obj, ecc.) hit [V: (Subj: NP) (Objd: NP)] answer [N: (Obji: PP_to)]

13 Lessici computazionali semantici
Rappresentano il significato di una parola Distinguono differenti sensi di una parola Catturano le inferenze (essere umano  essere animato) Rappresentano similarità, relatedness ecc. (es. banca, conto, denaro sono concetti relativi alla finanza)

14 Lessici computazionali semantici
Basati su reti concettuali WordNet (Miller, Fellbaum et al.) hierarchy/taxonomy EuroWordNet (Vossen et al.) heterarchy Basati su frame Mikrokosmos (Nirenburg, Mahesh et al.) FrameNet (Fillmore et al.) Ibridi SIMPLE (Calzolari, Lenci et al.)

15 PAROLE-SIMPLE (ILC CNR Pisa – Calzolari, Lenci et al.)
12 lessici di base monolingua costruiti secondo un modello armonizzato Estesi a livello nazionale Combinazione di informazioni sintattiche e semantiche Frame di sottocategorizzazione sintattica Tipo semantico (“ontology”) Frame semantici collegati alla sintassi Ruoli semantici Selectional preferences Ecc. Relazioni semantiche Pustejovsky’s “quali roles” Polisemia regolare Eventi

16 Elementi base del lessico monolingua
Ciascun layer individua un’unità base di descrizione lessicale morphological layer MU basic unit to describe the inflectional and derivational morphological properties of the word syntactic layer SynU basic unit to describe the syntactic behavior of the MU semantic layer SemU basic unit to describe the semantic properties of the MU

17 Architettura di SIMPLE
Ontology Lexical Templates Language Independent Module Greek lexicon Italian lexicon Catalan lexicon Italian lexicon PAROLE Syntax SemU Semantic Frame (semantic roles, etc.) Semantic Relations Event Structure Polysemy etc.

18 SIMPLE relazioni semantiche
Top Formal Constitutive Agentive Telic Is_a Is_a_part_of Property Created_by Agentive_cause Indirect_telic Activity ... Contains ... Instrumental Is_the_habit_of Used_for Used_as

19 SIMPLE una rete semantica
<fabbricare> make Ala (wing) Agentive SemU: 3232 Type: [Part] Part of an airplane Agentive <volare> fly Used_for Is_a_part_of <aeroplano> airplane Isa SemU: 3268 Type: [Part] Part of a building Isa <parte> part Used_for Isa SemU: D358 Type: [Body_part] Organ of birds for flying <edificio> building Is_a_part_of Is_a_part_of SemU: 3467 Type: [Role] Role in football <giocatore> player <uccello> bird Isa

20 SIMPLE Frame semantici
il difensore di Berlusconi (Berlusconi's defender) il difensore del Milan (the Milan fullback) Difensore N SemU: 4125 Type: [Role] Defender agent nominalization PREDDifendere#1 <Arg1>, <Arg2> SemU: 3526 Type: [Role] Fullback <squadra> team Is_a_member_of

21 Frame disambiguation L’identificazione del contributo semantico di un NP richiede l’accesso alla rappresentazione del contenuto semantico delle teste nominali La “struttura semantica” della testa nominale determina la relazione semantica espressa da un PP che modifica l’NP: La pagina del libro (part-of) Il difensore del Milan (member-of) Il suonatore di liuto (telic) Il tavolo di legno (made-of)

22 SIMPLE esempi semantic relations ontology semantic frame

23 Lexical acquisition bottleneck
Il lessico italiano di SIMPLE codifica circa 6000 concetti Disomogeneo Incompleto Non è disponibile L’utilizzo non è consigliato dagli stessi autori (ILC – CNR di Pisa) Acquisizione automatica della conoscenza lessicale FrameNet GOSSIP! GOSSIP! GOSSIP!

24 FrameNet (ICSI, U-Colorado – Fillmore, Narayanan, Jurafsky et al.)
Fase I ( ) Basi concettuali, impiego di strumenti preesistenti, Perl Fase II ( ) Scalabilità, utilizzo di DB SQL, strumenti scritti in Java Applicazioni pilota

25 I frame e la comprensione umana
Ipotesi: la gente comprende nuovi fatti effettuando operazioni mentali sulla base di ciò che già conosce. Tale conoscenza è descrivibile in termini di pacchetti di informazione chiamati frame FrameNet può fornire tale conoscenza Le rappresentazioni di FrameNet fanno da complemento a ontologie e lessici

26 In cosa consiste FrameNet
Caratterizzazione dei frame Individuazione delle parole che riguardano un frame Sviluppo di una terminologia descrittiva Estrazione di frasi di esempio Annotazione (manuale) degli esempi selezionati Descrizione del frame

27 Il processo Le frasi contenenti una certa parola sono estratte dal corpus in esame e rese disponibili per l’annotazione Gli studenti (!) selezionano le espressioni che identificano i ruoli semantici delle frasi e li etichettano con il nome dei ruoli del frame Informazioni grammaticali sulle frasi etichettate sono estratte automaticamente

28 Alcune annotazioni (to appoint – nominare)

29 Lista parziale di parole per un frame
Verbi: pay, spend, cost, buy, sell, charge Nomi: cost, price, payment Adjectives: expensive, cheap

30 Significato e sintassi
I vari verbi che evocano un frame introducono gli elementi del frame in modi differenti Informazioni analoghe possono essere espresse in posti diversi della frase secondo il verbo utilizzato

31 She bought some carrots from the greengrocer for a dollar.
Customer Vendor from BUY for Goods Money

32 She paid a dollar to the greengrocer for some carrots.
Customer Vendor to PAY for Goods Money

33 She paid the greengrocer a dollar for the carrots.
Customer Vendor PAY for Goods Money

34 She spent a dollar on the carrots.
Customer Vendor SPEND on Goods Money

35 The greengrocer sold some carrots to her for a dollar.
Customer Vendor to SELL for Goods Money

36 The greengrocer sold her some carrots for a dollar.
Customer Vendor SELL for Goods Money

37 The greengrocer charged a dollar for a bunch of carrots.
Customer Vendor CHARGE for Goods Money

38 The greengrocer charged her a dollar for the carrots.
Customer Vendor CHARGE for Goods Money

39 A bunch of carrots costs a dollar.
Customer Vendor COST Goods Money

40 A bunch of carrots cost her a dollar.
Customer Vendor COST Goods Money

41 FrameNet Fact Sheet 500 frame 7700 unità lessicali
frasi annotate Interconnessioni tra i frame (ereditarietà, sottoframe, “using”) Potrebbero essere mappate su relazioni ontologiche Multilingual FrameNets (spagnolo, tedesco, giapponese) Disponibile!


Scaricare ppt "Risorse Computazionali per il Web Semantico"

Presentazioni simili


Annunci Google