Principi di Information Retrieval Records, Testi e Multimedia Marco Gori, Università di Siena anno accademico 2004/2005
Marco Gori, Università di Siena anno accademico 2004/2005 Data Bases Basati su schema Teoria solida e pacchetti s/w molto affidabili Il record “impiegato” (società, cod-fisc, cognome,indirizzo, città, stato) Operatori: selection, projection, cartesian product, join, union, ... Basi dati ad oggetti Centrati su operatori relazionali Si sfrutta paradigma oggetti Marco Gori, Università di Siena anno accademico 2004/2005
Marco Gori, Università di Siena anno accademico 2004/2005 Quali Dati? Semi-strutturati Non-formattati (l’opposto dei DB relazionali!) Dati testuali: articoli scientifici, pagine di quotidiani ... Pagine Web (HTML, XML) Dati non-testuali: immagini, grafici, voce, video L’esplosione di interesse oggi: WWW search engines, es.: Google,Altavista, Hot Bot, ... Senza tags, plain text crawler Index query interface User queries Pagine Web Marco Gori, Università di Siena anno accademico 2004/2005
Esempi Gli stessi principi in contesti applicativi diversi: Ricerca di articoli, libri in digital libraries World wide web: tecnologie dei motori di ricerca Enciclopedie elettroniche (online o CDROM) Manuali elettronici on-line Ricerca di informazione visuale (persone, ecc...) Ricerca di informazione da archivi video Marco Gori, Università di Siena anno accademico 2004/2005
Perché l’IR è importante? Molta informazione testuale è oggi non strutturata e sta “allagando’’ i dischi! (e.g., emails, articoli newsgroup). Integrazione di text retrieval con basi dati relazionali. Incremento della documentazione on-line L’esplosione del Web L’esplosione dei dispositivi multimediali Marco Gori, Università di Siena anno accademico 2004/2005
Perché l’ IR è Difficile? Es. il Web La dimensione del web raddoppia ogni anno: 50 milioni pagine novembre1995 320 milioni pagine dicembre 1997 800 milioni febbraio 1999 oltre 4 miliardi oggi non ancora verso la saturazione Enormi quantità di dati (e.g., WWW) impongono soluzioni efficienti Poche centinaia di Mbytes erano considerati larga scala 10 anni fa; si pensi ad un laptop odierno! Marco Gori, Università di Siena anno accademico 2004/2005
Perché l’ IR è Difficile? Dati non strutturati: è difficile catturare la semantica dei documenti. Compara: “select * from Employee where Salary > 30,000” “retrieve all news items about corporate takeover” Perché la seconda domanda è più difficile? La seguente lo è ancora di più! “retrieve all news items about corporate takeover involving an internet company” I documenti non hanno un dominio definito è molto difficile trovare la categoria dei documenti Marco Gori, Università di Siena anno accademico 2004/2005
Perché l’ IR è Difficile? Il problema dell’interazione personale: la risposta data a persone diverse dovrebbe contemplare le diverse esigenze Come catturare l’intenzione? Compara un README file con un “user manual” compara un sommario con un rapporto dettagliato Non si può rispondere soddisfacendo tutti! Marco Gori, Università di Siena anno accademico 2004/2005
Perché l’ IR è Difficile? I documenti sono distribuiti e “linkati” (e.g., Hypertext e WWW) Da dove si parte a cercare? Come sono correlate le informazioni? velocità qualità Efficienza e efficacia Spesso con conflittuali. Marco Gori, Università di Siena anno accademico 2004/2005
Document Retrieval: Schema base Retrieved documents Relevance Feedback Indexing retrieval Rappres. documenti Formulaz. query Ling. formale L’utente e la “sete” di informazione Documenti Documento: stringa caratteri in un singolo file Indice: lista di importanti keywords memorizzate in qualche struttura Query: Boolean (A and B or C), lista di parole, frasi linguaggio naturale Relevance feedback: prova e.g. “similar pages” con Google Marco Gori, Università di Siena anno accademico 2004/2005
Marco Gori, Università di Siena anno accademico 2004/2005 Oltre il Testo ... Formulazione delle queries: Linguaggio naturale Voce Immagini (queries visuali) Sono databases? Video e segmentazione scene Raggruppamento di argomenti …. Marco Gori, Università di Siena anno accademico 2004/2005
Ritorno al futuro (Spielberg) Siamo (indietro) nel 1885 … abbiamo il multimedia e i gigabites … ma le nostre “pistole” sono ancora inefficaci! Nella scene sotto, prima che Marty riparta, Doc gli offre una Colt: ”Sei sicuro che non la vuoi?” Marty shakes scuote la testa: "No, grazie. In ogni caso non so come usarla ...." Marco Gori, Università di Siena anno accademico 2004/2005