Modeling, managing and accessing e-content Linguistic Computing Laboratory Prof. Paola Velardi
Aree di ricerca Metodologie –Elaborazione del Linguaggio naturale –Apprendimento automatico Applicazioni –Modellazione ontologica –E-learning –Information Retrieval
Modellazione Ontologica Ontologia: una rappresentazione formale e condivisa di un certo dominio di conoscenza Vantaggi: –Interoperabilità –Riusabilità –Accesso facilitato ad informazioni (strutturate e non)
INTEROPERABILITA (es.) ACCOMODATION DATA COMPONENT ADDRESSFACILITY Street City Country Bed&BreackResort Sport facility Room facility IS_A HAS_PART Hotel: Hilton Resort Address: Hill Street, 6 Los Angeles Description: bla bla..swimming pool..bla bla Hotel_name: Pippos Type: B&B Street: Canale, City:NY Details:.. private baths….. NAME
Interoperabilità Lontologia consente di identificare i vari elementi informativi, anche se questi sono rappresentati mediante strutture dati eterogenee (es: Indirizzo(via, numero,città,paese) oppure Indirizzo(campo unico) ) o inclusi in stringhe di testo.
Accesso facilitato alle informazioni:esempio CURRICULA name title skills ABILITY computing_skills linguistic skills Curriculum Vitae Paolo Rossi ……mi sono laureato in In- gegneria elettronica nel....ottima conoscenza inglese..linguaggi di programmazione: Java, C++, OWL.. Cerco un ingegnere con esperienza di programmatore
Accesso facilitato a Informazioni Lontologia consente di annotare parti salienti del testo, favorendo la classificazione e il recupero di documenti non basato sul semplice uso di parole chiave.
Stato dellarte nellarea modellazione ontologica Linguaggi e formalismi (OWL, DAML+OIL..) Principi di modellazione concettuale (DOLCE) Tools per lo sviluppo di ontologie (OntoEdit..)) Popolazione large-scale di ontologie Killer applications
Il sistema Ontolearn per la popolazione automatica di ontologie di dominio RISORSE DISPONIBILI: Esistono in rete alcune grandi ontologie general purpose (CYC, WordNet,..). Esistono glossari di dominio (glossari: termini + definizione in LN). IPOTESI: E possibile costruire automaticamente ontologie di dominio estendendo e potando ontologie general-purpose, ed integrando le informazioni nei glossari. Metodo 1: interpretazione composizionale. Es: linterpretazione semantica del termine information technology si può ricavare componendo opportunamente i concetti information e technology, nelle accezioni corrette. Metodo 2: ontologizzazione dei glossari. Effettuando un parsing delle definizioni e utilizzando misure di similarità (es. LSI) si può passare da una struttura piatta ed informale (glossario) ad una strutturazione tassonomica con (qualche grado di) formalità.
Il sistema Ontolearn per la poplazione automatica di ontologie di dominio (metodo 1) Domain Ontology Extraction of candidate terminology Semantic Interpretation Identification of taxonomic relations Filtering of domain terminology Domain Corpus Contrastive Corpora and glossaries Natural language processor WordNet+ lexical resources Domain Concept Forest Ontology updating Semantic relation Annotaton rules Gloss generation rules
Estrazione della terminologia Estrae da corpora di dominio stringhe terminologiche : Parsing in linguaggio naturale Identifica strutture sintattiche tipiche di terminologia (compounds, gruppi preposizionali) Filtraggio dei candidati terminologici, usando corpora e glossari in dominii diversi, per contrasto. Usa due misure basate sul concetto di entropia: Domain Relevance Domain Consensus D 1... D i... D n Market analysis RD d 1... d i... d n Project partner CD
Interpretazione semantica delle stringhe terminologiche: lidea generale 1. Determina i sensi corretti memory access memory,remembering memory,retention access, the right to obtain memory,storage memory, cognitive psychology access,approach access, stored information
Interpretazione semantica delle stringhe terminologiche: lidea generale (2) 2. Determina le relazioni semantiche sussitenti memory,storageaccess, stored information TOPIC
Interpretazione semantica delle stringhe terminologiche: lidea generale (3) Identifica le relazioni tassonomiche fra concetti data access operation access, stored information memory access multiport memory access ONTOLOGIA GENERICA (WordNet) ONTOLEARN
Interpretazione semantica: Rappresentazione dei concetti mediante grafi Lessici computazionale e risorse lessicali on-line, analizzati con opportune tecniche, consentono di generare, per ogni possibile senso di ogni termine elementare un GRAFO SEMANTICO
Interpretazione Semantica: (1b) Intersezione fra grafi semantici Linterpretazione corretta per una certa stringa terminologica viene determinata identificando la migliore combinazione di sensi associati a ciascun componente. Lalgoritmo di interpretazione semantica si basa sulla ricerca di specifici pattern di interconnesione, che vengono descritti mediante una grammatica context free. I pattern rossi in figura sono esempi di rule matches.
Ulteriori passi dellalgoritmo determina le relazioni concettuali fra concetti componenti un concetto complesso (memory based learning) ES: struttura i concetti in ordine tassonomico Genera definizioni in linguaggio naturale per i nuovi concetti (context free grammars), es: Mailing list : a kind of list, a database containing an ordered array of items, for the transmission of a letter. technology modelling technology knowledge modelling technology representation technology
Applicazioni ed esperimenti Applicazioni nellambito di progetti nazionali ed europei, nei dominii: computer networks (Web-learning), tourism (Harmonise), enterprise interoperability (INTEROP) Studio di killer applications: web information retrieval, e-learning