Principi di Information Retrieval

Slides:



Advertisements
Presentazioni simili
Presentazione della tesi di laurea di Flavio Casadei Della Chiesa Newsletter: un framework per una redazione web.
Advertisements

Dott. Nicola Ciraulo Internet ed il Web Dott. Nicola Ciraulo
TIC per ricerca e condivisione dell'informazione
LE POTENZIALITÀ DI INTERNET NELLAGGIORNAMENTO DISCIPLINARE E DIDATTICO DEGLI INSEGNANTI Obiettivo: Illustrare le potenzialità ma anche i rischi dellutilizzo.
Gli ipertesti del World Wide Web Funzionamento e tecniche di realizzazione a cura di Loris Tissìno (
Valerio Eletti, Venezia, 3 febbraio 2006 Prospettive per le riviste elettroniche: dal sequenziale allipermediale Luminar 5. Internet e umanesimo. Le riviste.
Corso di Fondamenti di Informatica
1 Querying Modelli per la ricerca. 2 Modelli di Retrieval Un modello per il retrieval specifica rappresentazione dei documenti rappresentazione delle.
HtML Premessa introduttiva al laboratorio Sergio Capone.
DBMS (DataBase Management System)
© 2007 SEI-Società Editrice Internazionale, Apogeo Unità A1 Informazioni e dati.
Informatica Modulo 4 – Ricerca di informazioni nel web.
INTERNET : ARPA sviluppa ARPANET (rete di computer per scopi militari)
WEB OF SCIENCE ISI Web of Knowledge
La Navigazione in Internet
Nana Mbinkeu Rodrigue Carlos 1 DB unimo OTTIMIZZAZIONE DI QUERY IN MOMIS Università degli studi di Modena e Reggio Emilia Relatore: Prof. Sonia.
WebProfessional Web Content Management System
Reti telematiche ed informazione giuridica II Informatica giuridica Lucio Maggio - Ignazio Zangara Anno Accademico 2005/2006.
A cura di Lida Barazzutti. Col passare degli anni si moltiplicarono i computer collegati tra loro; intere reti, che nel frattempo si erano sviluppate.
"In Internet non siamo in grado di selezionare, almeno a colpo docchio, fra una fonte credibile e una folle. Abbiamo bisogno di una.
Ricercare in Internet Lago nel pagliaio INTERNET Quasi ogni volta in cui hai sentito parlare di Internet o del World Wide Web hai probabilmente sentito.
Enver Sangineto, Dipartimento di Informatica Multimedia Information Retrieval.
Introduzione Estrazione di Informazioni dal Web Prof. Paola Velardi.
Promozione presso le Camere di Commercio dei servizi ICT avanzati resi disponibili dalla banda larga Camera di Commercio di Parma Parma.
Marco Gori, Università di Siena anno accademico
Architettura del World Wide Web
Labbreviazione: WWW letteralmente: World = mondo Wide = esteso Web = rete Può essere tradotta come: Rete estesa in tutto il mondo.
Corso pratico di EBM n I database n I database: nozioni generali sulle basi di dati, con approfondimento sulle basi bibliografiche Paolo Gardois Torino,
Gestione dei Progetti Software 2 (a.a. 2004/05) - Lezione 81 Ricerca e visualizzazione delle informazioni Gestione, ricerca, navigazione: accesso alle.
HyperText Markup Language
Concetti di base IR spiegati con l'esempio di Google.
Teoria e tecniche della catalogazione e classificazione ricerca9web Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2005/2006.
Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo.
XML e la generazione di cataloghi multimediali F. Garzotto, L. Mainetti, P. Paolini Politecnico di Milano HOC - Hypermedia Open Center Dipartimento di.
I database per il medico / 2 n I database n I database: nozioni generali sulle basi di dati, con approfondimento sulle basi bibliografiche Paolo Gardois.
1 RISORSE DISPONIBILI PER GLI UTENTI B.A.U. Orientamento bibliografico – II modulo.
A cura di Laura Prosdocimi Biblioteca del Dip.to di Filosofia La Biblioteca e le sue risorse - 27 novembre 2009 R EF W ORKS.
Obiettivi dellinterfaccia Web Una buona interfaccia web deve assolvere a diverse funzioni: far percepire i contenuti permettere di individuare.
Modulo 7 – reti informatiche u.d. 1 (syllabus – )
Database & Information Retrieval
Applicazioni di modelli matematici alla ricerca semantica
Editoria multimediale lezione 1 Marco Lazzari Università di Bergamo Facoltà di Lettere e Filosofia A.A
ECDL Patente europea del computer
Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto.
Note per il corso di Teorie e … multimediale lezione 1 Marco Lazzari Università di Bergamo Facoltà di Lettere e Filosofia A.A
Server Web in una rete Windows Sommario Meccanismi di accesso remoto Meccanismi di accesso remoto Introduzione ai Server Web Introduzione ai Server.
Multimedia Information Retrieval
Valutazione delle prstazioni di un sistema di retrieval
Il World Wide Web Lidea innovativa del WWW è che esso combina tre importanti e ben definite tecnologie informatiche: Documenti di tipo Ipertesto. Sono.
COMUNICAZIONE ONLINE, RETI E VIRTUALITA MATTEO CRISTANI.
ECDL Patente europea del computer
Progetto Premessa I primi punti su cui basare il corretto funzionamento di un organo di informazione on line sono: territorialità:
L’evoluzione di Internet: dall’età della pietra agli occhiali di Google Come è cambiata la rete e cosa ci riserva il futuro prossimo venturo.
L’accesso alle banche dati bibliografiche per l’area economica La ricerca economica per la tesi di laurea: abilità strumentali e strategie informative.
Gli OPAC La biblioteca nella società conoscitiva Bagnacavallo, 24 maggio 2001 (Giovanni Bergamin)
Creato da Riccardo Nuzzone
Università Roma Tre Corso di laurea magistrale CINEMA TELEVISIONE E PRODUZIONE MULTIMEDIALE Corso “Media digitali: Televisione, video, Internet” Docente:
Programma delle lezioni LABORATORIO B  Lezione 01: 27/02martedi  Lezione 02: 06/03martedi  Lezione 03: 13/03martedi  Lezione 04:
IL VIDEO ON-LINE: DALLE ORIGINI ALLE PIATTAFORME DI VIDEO-SHARINg
MOTORI DI RICERCA. Un motore di ricerca è un sistema automatico che analizza un insieme di dati spesso da esso stesso raccolti e restituisce un indice.
InternetInternet Sede: Salvo D’acquisto 2010/2011 Docente: Vito Monno.
PROGETTO… Internet Providers, registrazione del dominio Costruire una home page … e renderla visibile sul Web.
Tecnologie dell'informazione e della comunicazione - Stacey S. Sawyer, Brian K. Williams Copyright © The McGraw-Hill Companies srl “Commercio elettronico,
Titolo della sezione Eventuale sottotitolo Formazione Volontari SCN 2011 Centro Linguistico di Ateneo - Mediateca Motori di ricerca non solo Google.
Tecnologie dell'informazione e della comunicazione - Stacey S. Sawyer, Brian K. Williams Copyright © The McGraw-Hill Companies srl Introduzione.
SEMINARIO WEB PROMOTION: I MOTORI DI RICERCA Letizia Catarini.
UNIVERSITA’ DEGLI STUDI DI PAVIA CORSO DI LAUREA IN COMUNICAZIONE INTERCULTURALE E MULTIMEDIALE Relatore: Ing. Marco Porta Correlatore: Prof. Giampaolo.
Basi di dati distribuite Prof. M.T. PAZIENZA a.a
Università Roma Tre Corso di laurea magistrale CINEMA TELEVISIONE E PRODUZIONEMULTIMEDIALE Corso “Media digitali: Televisione, video, Internet” Docente:
Università Roma Tre Corso di laurea magistrale CINEMA TELEVISIONE E PRODUZIONE MULTIMEDIALE Corso “Media digitali: Televisione, video, Internet” Docente:
Transcript della presentazione:

Principi di Information Retrieval Records, Testi e Multimedia Marco Gori, Università di Siena anno accademico 2004/2005

Marco Gori, Università di Siena anno accademico 2004/2005 Data Bases Basati su schema Teoria solida e pacchetti s/w molto affidabili Il record “impiegato” (società, cod-fisc, cognome,indirizzo, città, stato) Operatori: selection, projection, cartesian product, join, union, ... Basi dati ad oggetti Centrati su operatori relazionali Si sfrutta paradigma oggetti Marco Gori, Università di Siena anno accademico 2004/2005

Marco Gori, Università di Siena anno accademico 2004/2005 Quali Dati? Semi-strutturati Non-formattati (l’opposto dei DB relazionali!) Dati testuali: articoli scientifici, pagine di quotidiani ... Pagine Web (HTML, XML) Dati non-testuali: immagini, grafici, voce, video L’esplosione di interesse oggi: WWW search engines, es.: Google,Altavista, Hot Bot, ... Senza tags, plain text crawler Index query interface User queries Pagine Web Marco Gori, Università di Siena anno accademico 2004/2005

Esempi Gli stessi principi in contesti applicativi diversi: Ricerca di articoli, libri in digital libraries World wide web: tecnologie dei motori di ricerca Enciclopedie elettroniche (online o CDROM) Manuali elettronici on-line Ricerca di informazione visuale (persone, ecc...) Ricerca di informazione da archivi video Marco Gori, Università di Siena anno accademico 2004/2005

Perché l’IR è importante? Molta informazione testuale è oggi non strutturata e sta “allagando’’ i dischi! (e.g., emails, articoli newsgroup). Integrazione di text retrieval con basi dati relazionali. Incremento della documentazione on-line L’esplosione del Web L’esplosione dei dispositivi multimediali Marco Gori, Università di Siena anno accademico 2004/2005

Perché l’ IR è Difficile? Es. il Web La dimensione del web raddoppia ogni anno: 50 milioni pagine novembre1995 320 milioni pagine dicembre 1997 800 milioni febbraio 1999 oltre 4 miliardi oggi non ancora verso la saturazione Enormi quantità di dati (e.g., WWW) impongono soluzioni efficienti Poche centinaia di Mbytes erano considerati larga scala 10 anni fa; si pensi ad un laptop odierno! Marco Gori, Università di Siena anno accademico 2004/2005

Perché l’ IR è Difficile? Dati non strutturati: è difficile catturare la semantica dei documenti. Compara: “select * from Employee where Salary > 30,000” “retrieve all news items about corporate takeover” Perché la seconda domanda è più difficile? La seguente lo è ancora di più! “retrieve all news items about corporate takeover involving an internet company” I documenti non hanno un dominio definito è molto difficile trovare la categoria dei documenti Marco Gori, Università di Siena anno accademico 2004/2005

Perché l’ IR è Difficile? Il problema dell’interazione personale: la risposta data a persone diverse dovrebbe contemplare le diverse esigenze Come catturare l’intenzione? Compara un README file con un “user manual” compara un sommario con un rapporto dettagliato Non si può rispondere soddisfacendo tutti! Marco Gori, Università di Siena anno accademico 2004/2005

Perché l’ IR è Difficile? I documenti sono distribuiti e “linkati” (e.g., Hypertext e WWW) Da dove si parte a cercare? Come sono correlate le informazioni? velocità qualità Efficienza e efficacia Spesso con conflittuali. Marco Gori, Università di Siena anno accademico 2004/2005

Document Retrieval: Schema base Retrieved documents Relevance Feedback Indexing retrieval Rappres. documenti Formulaz. query Ling. formale L’utente e la “sete” di informazione Documenti Documento: stringa caratteri in un singolo file Indice: lista di importanti keywords memorizzate in qualche struttura Query: Boolean (A and B or C), lista di parole, frasi linguaggio naturale Relevance feedback: prova e.g. “similar pages” con Google Marco Gori, Università di Siena anno accademico 2004/2005

Marco Gori, Università di Siena anno accademico 2004/2005 Oltre il Testo ... Formulazione delle queries: Linguaggio naturale Voce Immagini (queries visuali) Sono databases? Video e segmentazione scene Raggruppamento di argomenti …. Marco Gori, Università di Siena anno accademico 2004/2005

Ritorno al futuro (Spielberg) Siamo (indietro) nel 1885 … abbiamo il multimedia e i gigabites … ma le nostre “pistole” sono ancora inefficaci! Nella scene sotto, prima che Marty riparta, Doc gli offre una Colt: ”Sei sicuro che non la vuoi?” Marty shakes scuote la testa: "No, grazie. In ogni caso non so come usarla ...." Marco Gori, Università di Siena anno accademico 2004/2005