Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi
Argomenti del corso Metodi, strumenti e sviluppi per un migliore accesso alle risorse (documenti, dati, servizi) sul web Il web e le tecniche di accesso esistenti: –Information Retrieval classico (retrieval per parole chiave o keywords) –Web Information Retrieval (retrieval tenendo conto del grafo del web) I nuovi obiettivi del web e la visione del web semantico –Knowledge-based Retrieval (retrieval tenendo conto della semantica) –Mini-corso su Jena (Ambiente di sviluppo per applicazioni avanzate del web)
Information Retrieval (classico) Data una collezione (statica) di documenti, linsieme dei metodi per: –Rappresentare i documenti –Strutturare i documenti in archivi indirizzabili –Associare uno o più documenti ad una richiesta di un utente (query)
Web Information Retrieval La collezione di documenti è enorme Non è statica Non solo documenti: dati, servizi web, multimediali I documenti (pagine web) sono legati fra loro (href): lanalisi di questi collegamenti è rilevante per le operazioni di retrieval
La visione del semantic web Web Information retrieval: classic information retrieval (= keywords) + metodi di rinforzo che tengono conto di altri fattori, es. il grafo del web. Semantic Web: non keywords ma concetti. Obiettivo: rappresentare/manipolare i contenuti (=concetti) delle pagine web (=risorse)
Syllabus Information Retrieval –Definizione e architettura –Metodi di ranking classici (booleano, vettoriale, bayesiano) –Metodi di ranking avanzati (LSI, query expansion) Web Information Retrieval –La ricerca sul web: spiders e robots –Metodi di ranking per il web (Page Rank, Hits) Semantic Web –Ontologie e reasoners –Metodi e strumenti per la costruzione di ontologie –Ambiente di sviluppo: Jena Progetto:annotazione di documenti
Come si svolge lesame Progetto (di gruppo) vale il 60% del voto di esame Prova orale vale il 40% Il 60-70% lezioni frontali Il 40-30% incontri per discutere del progetto (da fine novembre) Pagina web: (prossimamente su TWIKI)