La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola.

Presentazioni simili


Presentazione sul tema: "Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola."— Transcript della presentazione:

1 Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola estiva EUROLAN /09/2003

2 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli Agenda Il Web Semantico Lessici computazionali Classificazioni Focus on: SIMPLE FrameNet

3 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli Il Web Semantico Obiettivo: Trasformare il WWW in una KB comprensibile alla macchina Web Semantico Ontologie Knowledge Markup Agenti Intelligenti Applicazioni Documenti Database

4 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli LOnda Semantica

5 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli 6 sfide per il WS (Benjamins et al. 2002) Disponibilità del contenuto Disponibilità di ontologie Multilingualità Scalabilità (organizzazione, memorizzazione, ricerca della conoscenza) Visualizzazione ( ipertesto) Stabilità dei linguaggi del WS (standardizzazione) Human Language Technology (HLT)

6 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli Lessici computazioniali e Human Language Technologies I lessici computazionali forniscono una conoscenza delle parole comprensibile alla macchina La rappresentazione è esplicita Il significato è collegato alla morfologia e alla sintassi della parola E possibile creare collegamenti lessicali multilingua

7 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli Lessici computazionali e HLT (2) Risorse critiche per i sistemi di NLP: Frame di sottocategorizzazione sintattica per il parsing Semantic selectional preferences per la riduzione dellambiguità Classi semantiche per WSD, semantic tagging ecc. Componenti chiave delle HLT: Lessici monolingua – IE, QA, ecc. Lessici multilingua – MT, CLIR, ecc.

8 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli Ontologie e lessici computazionali Semantic Web Ontologies Computational Lexicons HLT Access to Content ?

9 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli Ontologie la specifica esplicita di una concettualizzazione (Gruber, 1993) includono il vocabolario, le interconnessioni semantiche e alcune semplici regole di inferenza e logica (Hendler, 2001)

10 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli Ontologie linguistiche Sistemi di simboli che rappresentano i concetti codificati da espressioni in linguaggio naturale (unità lessicali, termini, ecc.) Specificano le classi semantiche raggruppando termini simili a livello semantico Usano un linguaggio di rappresentazione semantica OBJECT EVENT LOCATION ARTIFACT ANIMAL ENTITY VEHICLE MAMMAL BEACH CONCERT dog, cat, horse car, van, truck beach piano concert, rock concert spiaggia

11 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli Tipologie di lessici computazionali Monolingua vs multilingua General purpose vs domain specific Tipo di contenuto (Morfo)sintattico Semantico Misto Terminologico

12 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli Lessici computazionali sintattici Le informazioni lessicali sono contenute in frame di sottocategorizzazione (ComLex, PAROLE ecc.) I frame sintattici includono: Un certo numero di argomenti Le rispettive categorie sintattiche (PP, NP, ecc.) Vincoli lessicali sugli argomenti (es. PP deve avere in testa una preposizione) Un ruolo funzionale per ogni argomento (Subj, Obj, ecc.) hit [V: (Subj: NP) (Objd: NP)] answer [N: (Obji: PP_to)]

13 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli Lessici computazionali semantici Rappresentano il significato di una parola Distinguono differenti sensi di una parola Catturano le inferenze (essere umano essere animato) Rappresentano similarità, relatedness ecc. (es. banca, conto, denaro sono concetti relativi alla finanza)

14 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli Lessici computazionali semantici Basati su reti concettuali WordNet (Miller, Fellbaum et al.) hierarchy/taxonomy EuroWordNet (Vossen et al.) heterarchy Basati su frame Mikrokosmos (Nirenburg, Mahesh et al.) FrameNet (Fillmore et al.) Ibridi SIMPLE (Calzolari, Lenci et al.)

15 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli PAROLE-SIMPLE (ILC CNR Pisa – Calzolari, Lenci et al.) 12 lessici di base monolingua costruiti secondo un modello armonizzato Estesi a livello nazionale Combinazione di informazioni sintattiche e semantiche Frame di sottocategorizzazione sintattica Tipo semantico (ontology) Frame semantici collegati alla sintassi Ruoli semantici Selectional preferences Ecc. Relazioni semantiche Pustejovskys quali roles Polisemia regolare Eventi

16 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli Elementi base del lessico monolingua Ciascun layer individua ununità base di descrizione lessicale morphological layer MU basic unit to describe the inflectional and derivational morphological properties of the word syntactic layer SynU basic unit to describe the syntactic behavior of the MU semantic layer SemU basic unit to describe the semantic properties of the MU

17 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli Architettura di SIMPLE Italian lexicon etc. Greek lexicon PAROLE Syntax Italian lexicon Catalan lexicon Ontology Lexical Templates Language Independent Module SemU Semantic Relations Event Structure Polysemy Semantic Frame (semantic roles, etc.)

18 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli SIMPLE relazioni semantiche Top FormalConstitutiveAgentive Telic Is_aIs_a_part_ofProperty Contains Created_byAgentive_causeIndirect_telicActivity InstrumentalIs_the_habit_of Used_forUsed_as...

19 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli SIMPLE una rete semantica part Isa fly Used_for airplane Is_a_part_of bird Is_a_part_of building Is_a_part_of Ala (wing) SemU: 3232 Type: [Part] Part of an airplane SemU: 3268 Type: [Part] Part of a building SemU: D358 Type: [Body_part] Organ of birds for flying SemU: 3467 Type: [Role] Role in football player Isa Agentive make Agentive

20 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli SIMPLE Frame semantici il difensore di Berlusconi (Berlusconi's defender) il difensore del Milan (the Milan fullback) Difensore N SemU: 4125 Type: [Role] Defender SemU: 3526 Type: [Role] Fullback agent nominalization team Is_a_member_of PREDDifendere#1,

21 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli Frame disambiguation Lidentificazione del contributo semantico di un NP richiede laccesso alla rappresentazione del contenuto semantico delle teste nominali La struttura semantica della testa nominale determina la relazione semantica espressa da un PP che modifica lNP: La pagina del libro (part-of) Il difensore del Milan (member-of) Il suonatore di liuto (telic) Il tavolo di legno (made-of)

22 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli SIMPLE esempi semantic frame semantic relations ontology

23 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli Lexical acquisition bottleneck Il lessico italiano di SIMPLE codifica circa 6000 concetti Disomogeneo Incompleto Non è disponibile Lutilizzo non è consigliato dagli stessi autori (ILC – CNR di Pisa) Acquisizione automatica della conoscenza lessicale FrameNet GOSSIP!

24 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli FrameNet (ICSI, U-Colorado – Fillmore, Narayanan, Jurafsky et al.) Fase I ( ) Basi concettuali, impiego di strumenti preesistenti, Perl Fase II ( ) Scalabilità, utilizzo di DB SQL, strumenti scritti in Java Applicazioni pilota

25 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli I frame e la comprensione umana Ipotesi: la gente comprende nuovi fatti effettuando operazioni mentali sulla base di ciò che già conosce. Tale conoscenza è descrivibile in termini di pacchetti di informazione chiamati frame FrameNet può fornire tale conoscenza Le rappresentazioni di FrameNet fanno da complemento a ontologie e lessici

26 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli In cosa consiste FrameNet Caratterizzazione dei frame Individuazione delle parole che riguardano un frame Sviluppo di una terminologia descrittiva Estrazione di frasi di esempio Annotazione (manuale) degli esempi selezionati Descrizione del frame

27 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli Il processo Le frasi contenenti una certa parola sono estratte dal corpus in esame e rese disponibili per lannotazione Gli studenti (!) selezionano le espressioni che identificano i ruoli semantici delle frasi e li etichettano con il nome dei ruoli del frame Informazioni grammaticali sulle frasi etichettate sono estratte automaticamente

28 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli Alcune annotazioni (to appoint – nominare)

29 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli Lista parziale di parole per un frame Verbi: pay, spend, cost, buy, sell, charge Nomi: cost, price, payment Adjectives: expensive, cheap

30 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli Significato e sintassi I vari verbi che evocano un frame introducono gli elementi del frame in modi differenti Informazioni analoghe possono essere espresse in posti diversi della frase secondo il verbo utilizzato

31 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli CustomerVendor GoodsMoney BUY from for She bought some carrots from the greengrocer for a dollar.

32 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli CustomerVendor GoodsMoney PAY for to She paid a dollar to the greengrocer for some carrots.

33 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli CustomerVendor GoodsMoney PAY for She paid the greengrocer a dollar for the carrots.

34 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli CustomerVendor GoodsMoney SPEND on She spent a dollar on the carrots.

35 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli CustomerVendor GoodsMoney SELL for to The greengrocer sold some carrots to her for a dollar.

36 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli CustomerVendor GoodsMoney SELL for The greengrocer sold her some carrots for a dollar.

37 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli CustomerVendor GoodsMoney CHARGE for The greengrocer charged a dollar for a bunch of carrots.

38 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli CustomerVendor GoodsMoney CHARGE for The greengrocer charged her a dollar for the carrots.

39 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli CustomerVendor GoodsMoney COST A bunch of carrots costs a dollar.

40 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli CustomerVendor GoodsMoney COST A bunch of carrots cost her a dollar.

41 Dipartimento di Informatica Università di Roma La Sapienza Roberto Navigli FrameNet Fact Sheet 500 frame 7700 unità lessicali frasi annotate Interconnessioni tra i frame (ereditarietà, sottoframe, using) Potrebbero essere mappate su relazioni ontologiche Multilingual FrameNets (spagnolo, tedesco, giapponese) Disponibile!


Scaricare ppt "Dipartimento di Informatica Università di Roma La Sapienza Risorse Computazionali per il Web Semantico Roberto Navigli Alcune slide provengono dalla scuola."

Presentazioni simili


Annunci Google