La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.

Presentazioni simili


Presentazione sul tema: "Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi."— Transcript della presentazione:

1 Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi

2 Argomenti del corso Metodi, strumenti e sviluppi per un migliore accesso alle risorse (documenti, dati, servizi) sul web Il web e le tecniche di accesso esistenti: –Information Retrieval classico (retrieval per parole chiave o keywords) –Web Information Retrieval (retrieval tenendo conto del grafo del web) I nuovi obiettivi del web e la visione del web semantico –Knowledge-based Retrieval (retrieval tenendo conto della semantica) –Mini-corso su Jena (Ambiente di sviluppo per applicazioni avanzate del web)

3 Information Retrieval (classico) Data una collezione (statica) di documenti, linsieme dei metodi per: –Rappresentare i documenti –Strutturare i documenti in archivi indirizzabili –Associare uno o più documenti ad una richiesta di un utente (query)

4 Web Information Retrieval La collezione di documenti è enorme Non è statica Non solo documenti: dati, servizi web, multimediali I documenti (pagine web) sono legati fra loro (href): lanalisi di questi collegamenti è rilevante per le operazioni di retrieval

5 La visione del semantic web Web Information retrieval: classic information retrieval (= keywords) + metodi di rinforzo che tengono conto di altri fattori, es. il grafo del web. Semantic Web: non keywords ma concetti. Obiettivo: rappresentare/manipolare i contenuti (=concetti) delle pagine web (=risorse)

6 Syllabus Information Retrieval –Definizione e architettura –Metodi di ranking classici (booleano, vettoriale, bayesiano) –Metodi di ranking avanzati (LSI, query expansion) Web Information Retrieval –La ricerca sul web: spiders e robots –Metodi di ranking per il web (Page Rank, Hits) Semantic Web –Ontologie e reasoners –Metodi e strumenti per la costruzione di ontologie –Ambiente di sviluppo: Jena Progetto:annotazione di documenti

7 Come si svolge lesame Progetto (di gruppo) vale il 60% del voto di esame Prova orale vale il 40% Il 60-70% lezioni frontali Il 40-30% incontri per discutere del progetto (da fine novembre) Pagina web: http://cesare.dsi.uniroma1.it/~estrinfo/ (prossimamente su TWIKI) http://cesare.dsi.uniroma1.it/~estrinfo/


Scaricare ppt "Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi."

Presentazioni simili


Annunci Google