La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Marco Gori, Università di Siena anno accademico 2004/2005 Principi di Information Retrieval Records, Testi e Multimedia.

Presentazioni simili


Presentazione sul tema: "Marco Gori, Università di Siena anno accademico 2004/2005 Principi di Information Retrieval Records, Testi e Multimedia."— Transcript della presentazione:

1 Marco Gori, Università di Siena anno accademico 2004/2005 Principi di Information Retrieval Records, Testi e Multimedia

2 Marco Gori, Università di Siena anno accademico 2004/2005 Data Bases zTeoria solida e pacchetti s/w molto affidabili zIl record impiegato y(società, cod-fisc, cognome,indirizzo, città, stato) zOperatori: selection, projection, cartesian product, join, union,... zBasi dati ad oggetti Basati su schema Centrati su operatori relazionali Si sfrutta paradigma oggetti

3 Marco Gori, Università di Siena anno accademico 2004/2005 Quali Dati? zNon-formattati (lopposto dei DB relazionali!) yDati testuali: articoli scientifici, pagine di quotidiani... yPagine Web (HTML, XML) yDati non-testuali: immagini, grafici, voce, video zLesplosione di interesse oggi: WWW search engines, es.: Google,Altavista, Hot Bot,... GoogleAltavista, Semi-strutturati Senza tags, plain text crawler Index query interface User queries Pagine Web

4 Marco Gori, Università di Siena anno accademico 2004/2005 Esempi zGli stessi principi in contesti applicativi diversi: yRicerca di articoli, libri in digital libraries yWorld wide web: tecnologie dei motori di ricerca yEnciclopedie elettroniche (online o CDROM) yManuali elettronici on-line yRicerca di informazione visuale (persone, ecc...) yRicerca di informazione da archivi video

5 Marco Gori, Università di Siena anno accademico 2004/2005 Perché lIR è importante? zMolta informazione testuale è oggi non strutturata e sta allagando i dischi! (e.g., s, articoli newsgroup). zIntegrazione di text retrieval con basi dati relazionali. zIncremento della documentazione on-line zLesplosione del Web zLesplosione dei dispositivi multimediali

6 Marco Gori, Università di Siena anno accademico 2004/2005 Perché l IR è Difficile? Es. il Web La dimensione del web raddoppia ogni anno: 50 milioni pagine novembre milioni pagine dicembre milioni febbraio 1999 oltre 4 miliardi oggi non ancora verso la saturazione Enormi quantit à di dati (e.g., WWW) impongono soluzioni efficienti Poche centinaia di Mbytes erano considerati larga scala 10 anni fa; si pensi ad un laptop odierno!

7 Marco Gori, Università di Siena anno accademico 2004/2005 zDati non strutturati: è difficile catturare la semantica dei documenti. Compara: yselect * from Employee where Salary > 30,000 yretrieve all news items about corporate takeover zPerché la seconda domanda è più difficile? La seguente lo è ancora di più! yretrieve all news items about corporate takeover involving an internet company zI documenti non hanno un dominio definito yè molto difficile trovare la categoria dei documenti Perché l IR è Difficile?

8 Marco Gori, Università di Siena anno accademico 2004/2005 zIl problema dellinterazione personale: yla risposta data a persone diverse dovrebbe contemplare le diverse esigenze zCome catturare lintenzione? yCompara un README file con un user manual ycompara un sommario con un rapporto dettagliato Non si può rispondere soddisfacendo tutti! Perché l IR è Difficile?

9 Marco Gori, Università di Siena anno accademico 2004/2005 zI documenti sono distribuiti e linkati (e.g., Hypertext e WWW) Hypertext yDa dove si parte a cercare? yCome sono correlate le informazioni? Efficienza e efficacia Spesso con conflittuali. velocità qualità Perché l IR è Difficile?

10 Marco Gori, Università di Siena anno accademico 2004/2005 Documento: stringa caratteri in un singolo file Indice: lista di importanti keywords memorizzate in qualche struttura Query: Boolean (A and B or C), lista di parole, frasi linguaggio naturale Relevance feedback: prova e.g. similar pages con GoogleGoogle Formulaz. query Lutente e la sete di informazione Ling. formale Rappres. documenti Documenti Indexing retrieval Relevance Feedback Document Retrieval: Schema base Retrieved documents

11 Marco Gori, Università di Siena anno accademico 2004/2005 Formulazione delle queries: Linguaggio naturale Voce Immagini (queries visuali) Sono databases? Video e segmentazione scene Raggruppamento di argomenti …. Oltre il Testo...

12 Marco Gori, Università di Siena anno accademico 2004/2005 Ritorno al futuro (Spielberg) zNella scene sotto, prima che Marty riparta, Doc gli offre una Colt: Sei sicuro che non la vuoi? Marty shakes scuote la testa: "No, grazie. In ogni caso non so come usarla...." zSiamo (indietro) nel 1885 … abbiamo il multimedia e i gigabites … ma le nostre pistole sono ancora inefficaci!


Scaricare ppt "Marco Gori, Università di Siena anno accademico 2004/2005 Principi di Information Retrieval Records, Testi e Multimedia."

Presentazioni simili


Annunci Google