La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Paolo Ferragina, Università di Pisa Motori di Ricerca presente e futuro prossimo Rilevanza dei Risultati: Prima generazione.

Presentazioni simili


Presentazione sul tema: "Paolo Ferragina, Università di Pisa Motori di Ricerca presente e futuro prossimo Rilevanza dei Risultati: Prima generazione."— Transcript della presentazione:

1 Paolo Ferragina, Università di Pisa Motori di Ricerca presente e futuro prossimo Rilevanza dei Risultati: Prima generazione

2 Paolo Ferragina, Università di Pisa Concetto di rilevanza difficile da catturare: Dipende dallutente che formula la interrogazione Dipende dallistante di formulazione della interrogazione Contenuto pagine eterogeneo: lingua, tipo (pdf, doc, jpg,..) Il motore deve inferire user need da vari elementi !! Problemi sul Web nel catturare pagine rilevanti Crescita del Web: 110,000 pagine del mld pagine del 2005 Crescita proporzionale del numero delle risposte !! Utenti guardano a poche risposte: 85% guardano solo ai primi 10 risultati.

3 Paolo Ferragina, Università di Pisa Rilevanza derivata dal contenuto Per ogni occorrenza di una parola si memorizzano: Luogo URL: Titolo pagina Testo hyperlink: Città di Pisa Metatag: autore, data,... Assegnamo il peso a ogni termine e sommiamo i contributi per ogni pagina Tipo Dimensione e tipo di carattere Maiuscolo o minuscolo Informazioni sulla frequenza

4 Paolo Ferragina, Università di Pisa Frequenza binaria o completa Ma le Leggi di Zipf e di Luhn ci suggeriscono che dobbiamo pesare molto i termini che sono frequenti in documenti rilevanti ma rari nella intera collezione

5 Paolo Ferragina, Università di Pisa Infatti La frequenza nel singolo documento non aiuta… 10 occorrenze di culla 10 occorrenze di e Per ogni coppia assegnamo un peso che riflette limportanza del termine in quel documento Il peso cresce con il numero di occorrenze del termine entro quel documento Il peso cresce con la rarità del termine fra tutti i documenti della collezione

6 Paolo Ferragina, Università di Pisa Un peso famoso: tf x idf dove n i = #documenti che contengono il termine i n = #documenti della collezione log Frequenza del termine i nel documento j n n idf tf i i ij Termine t i ha associato un vettore D-dim: [ w i1, w i2,..., w iD ] Documento D j ha associato un vettore T-dim: [ w 1j, w 2j,..., w Tj ]

7 Paolo Ferragina, Università di Pisa Come usiamo questi pesi ? Data una interrogazione sui termini t h e t k potremmo: Sommare w hj e w kj per ogni documento d j che li contiene, o utilizzare unaltra funzione dei due valori Pesare limportanza di t h e t k allinterno della query e quindi calcolare una combinazione lineare di w hj e w kj. Interpretare ogni documento e la query come vettori, e postulare la similarità tra doc-query in base alla loro vicinanza euclidea o tramite altra misura correlata.

8 Paolo Ferragina, Università di Pisa Documenti come vettori

9 Paolo Ferragina, Università di Pisa Similarità tra Doc e Interrogazione

10 Paolo Ferragina, Università di Pisa Documenti come vettori t1t1 t2t2 t3t3 D1D1 D2D2 D3D3 D9D9 D7D7 D5D5 D6D6

11 Paolo Ferragina, Università di Pisa Alcune osservazioni…. Non cè una reale base teorica per il modello vettoriale I termini non sono relamente indipendenti Siccome Q consiste di pochi termini t i, non la confrontiamo con tutti i docs, ma piuttosto: Lista invertita per prendere docs D j che li contengono Estraiamo da ogni D j il peso w ij, relativo ai t i che contiene Combiniamo in qualche modo i contributi, per conoscere la similarità tra Q e D j indotta dalle frequenze locali e globali

12 Paolo Ferragina, Università di Pisa Un altro peso: Anchor text Qui trovate una bella immagine di una tigre Immagine di una tigre Ganza pagina con immagini sulle tigri NOTA: Il testo nella vicinanza di un hyperlink è molto descrittivo del contenuto della pagina a cui esso fa riferimento ! Indicizziamo i virtual doc costruiti concatenando gli anchor text dei link che puntano a una determinata pagina

13 Paolo Ferragina, Università di Pisa Ricapitolando Per ogni occorrenza di una parola si memorizzano: Luogo Tipo TF x Idf I motori di prima generazione usavano questi pesi per inferire la similarità dei documenti con la query Poi ordinavano le risposte (docs) in accordo a questa

14 Paolo Ferragina, Università di Pisa Motori di Ricerca presente e futuro prossimo Rilevanza dei Risultati: Seconda generazione

15 Paolo Ferragina, Università di Pisa Sfruttare gli hyperlink Problema: Molte pagine contengono le parole in Q ma sono non rilevanti oppure includono parole diverse dal loro contenuto (spamming). Altre pagine sono sì rilevanti ma non contengono le parole di Q oppure non contengono testo, ma solo p.e. immagini o form. Hyperlink Citazione Web

16 Paolo Ferragina, Università di Pisa Analisi degli hyperlink Due approcci fondamentali Indipendente dalla interrogazione Se due pagine contengono le parole di Q, una sarà sempre migliore dellaltra indipendentemente da Q ( Pagerank di Google) Dipendente dalla interrogazione Se due pagine contengono le parole di Q, una sarà migliore dellaltra a seconda del contenuto di Q ( HITS di IBM e Teoma)

17 Paolo Ferragina, Università di Pisa PageRank ( Google ) Pagina rilevante se: Molte pagine puntanto a essa ( popolare ) Alcune pagine rilevanti puntano a essa ( élite ) I(p) = (1-q) + q Calcolato su tutte le pagine e in modo iterativo (~100) I(p 1 ) + I(p 2 ) I(p n ) u1u1 u2u2 unun p p1p1 p2p2 pnpn u1u1 Attenti ai Blog !

18 Paolo Ferragina, Università di Pisa Un esempio: passo iniziale Page A 1 Page C 1 Page B 1 Page D 1 1*0.85/2 1*0.85 q = 0.15

19 Paolo Ferragina, Università di Pisa Esempio: dopo 20 iterazioni Page A Page C Page B Page D 0.15 q = 0.15 Sarebbe necessario, in verità, cambiare +q in +(q/#pagine) questo garantisce che il vettore dei pesi uscenti ha somma 1, e quindi (Teorema) il PageRank è una distribuzione di probabilità

20 Paolo Ferragina, Università di Pisa HITS ( IBM ) A seguito di una interrogazione si cercano due insiemi correlati di pagine: Pagine Hub = pagine che contengono una buona lista di link sul soggetto della interrogazione. Pagine Authority = pagine che occorrono ripetutamente nelle liste contenute dei buoni Hubs. Si tratta di una definizione circolare che quindi richiede una computazione iterativa

21 Paolo Ferragina, Università di Pisa HITS: Primo passo per risolvere Q base set Data una interrogazione Q={ browser }, si forma il base set : 1.Le pagine che contengono browser (root set) 2.Le pagine collegate da o per quelle del root set Root set

22 Paolo Ferragina, Università di Pisa Calcoliamo, per ogni pagina x del base set: un hub score h(x), inizializzato a 1 un authority score a(x), inizializzato a 1 Per poche iterazioni, ricalcoliamo di ogni nodo x: a(x) = h(z i ), h(x) = a(y i ) Scaliamo i valori, e iteriamo Alla fine, restituiamo le pagine con più alto valore di h() come hubs, e di a() come authorities Costoso: Accumulo del base set e calcolo iterativo !! Controindicazioni: Facilmente soggetto a SPAM !! HITS: Secondo passo per risolvere Q x y1y1 y2y2 y3y3 z1z1 z2z2 z3z3

23 Paolo Ferragina, Università di Pisa Un esempio Autorità Hub

24 Paolo Ferragina, Università di Pisa Motori di Ricerca presente e futuro prossimo Rilevanza dei Risultati: Terza generazione

25 Paolo Ferragina, Università di Pisa Nuovi obiettivi Obiettivo: Integrare dati provenienti dalle sorgenti più disparate – quali, preferenze, click, affinità tra utenti, transazioni– al fine di soddisfare meglio linterrogazione posta da un utente Esempio: Su una interrogazione come San Francisco il sistema dovrebbe trovare anche gli hotel o i musei, siti per le previsioni del tempo o mappe stradali, intuendo anche quali di questi è più rilevante per lutente Tools: Ciò richiede analisi semantica, determinazione del contesto, selezione dinamica di archivi utili, confronto tra sessioni … Nuove nozioni di Rilevanza !!!

26 Paolo Ferragina, Università di Pisa Rilevanza per affinità Precedenti transazioni: [Collaborative Filtering] Quali documenti/pagine sono state visitate, anche da altri utenti Quali prodotti sono stati acquistati, anche da altri utenti Pagine nei bookmarks dellutente Contesto corrente: [User behavior] Storia della presente navigazione Ricerche già formulate dallo stesso utente Profilo: [Personalization] Professione dellutente e informazione demografica Interessi dellutente Esistono dei problemi di privacy !!!

27 Paolo Ferragina, Università di Pisa Ricapitolando... Data una interrogazione Q su più parole Troviamo le pagine dove occorrono quelle parole Per ogni pagina determiniamo: Peso testuale: font, luogo, posizione, vicinanza,… Peso degli hyperlinks: grafo e anchor-text Peso dato da altri fattori: preferenze, comportamento,… Sommiamo in qualche modo i pesi Ordiniamo le pagine in funzione di essi Risultati !! Questo è un motore di ricerca moderno !! (siamo alla terza generazione) Offriamo possibilmente dei suggerimenti, anche semantici

28 Paolo Ferragina, Università di Pisa Motore di Ricerca: struttura Web Crawler Archivio Pagine Analizzatore pagine Controllo Query Risolutore Analizzatore Rilevanza Testo Struttura Utilità Indicizzatore risposte

29 Paolo Ferragina, Università di Pisa Motori di Ricerca presente e futuro prossimo Valutazione dei Risultati

30 Paolo Ferragina, Università di Pisa Quanto è buono un motore di ricerca? Alcune misure di valutazione: Costruzione: Velocità nellindicizzazione Spazio occupato dallindice Copertura del Web Modifica: Frequenza e ampiezza delle modifiche Interrogazione: Velocità nel produrre le risposte Rilevanza dei risultati: precisione e completezza

31 Paolo Ferragina, Università di Pisa Scenario generale Rilevanti Recuperati Tutti docs

32 Paolo Ferragina, Università di Pisa Precisione: % documenti recuperati che sono rilevanti Quanta spazzatura abbiamo recuperato Approccio classico: Precisione vs. Completezza Rilevanti Recuperati Tutti docs

33 Paolo Ferragina, Università di Pisa Completezza: % docs rilevanti che sono recuperati Quanta informazione abbiamo recuperato Approccio classico: Precisione vs. Completezza Rilevanti Recuperati Tutti docs

34 Paolo Ferragina, Università di Pisa Precisione vs. Completezza Rilevanti Recuperati Tutti docs

35 Paolo Ferragina, Università di Pisa Precisione vs. Completezza Rilevanti Altissima precisione, bassissima completezza recuperati

36 Paolo Ferragina, Università di Pisa Precisione vs. Completezza Rilevanti Bassissima precisione, bassissima completezza recuperati

37 Paolo Ferragina, Università di Pisa Precisione vs. Completezza Recuperati Rilevanti Alta completezza, bassissima precisione

38 Paolo Ferragina, Università di Pisa Precisione vs. Completezza Recuperati Rilevanti Alta completezza e precisione

39 Paolo Ferragina, Università di Pisa Trade-off Si misura la Precisione a diversi livelli di Completezza Nota: è una MEDIA su numerose interrogazioni precisione completezza x x x x

40 Paolo Ferragina, Università di Pisa Difficoltà per il web precisione completezza x x x x Sul Web non conosciamo la completezza, quindi guardiamo soltanto ai primi risultati. Su questi si gioca la partita !!

41 Paolo Ferragina, Università di Pisa Ognuno sceglie il suo Ranking !

42 Paolo Ferragina, Università di Pisa Motori di Ricerca presente e futuro prossimo Il quadro presente

43 Paolo Ferragina, Università di Pisa Fino a pochi anni fa... Yahoo (migliore del 1995) Inktomi (migliore del 1997) Altavista (migliore del 1999) Lycos, Excite, Northern Light,... In Gennaio 2004, i preferiti sono Google (60 mil), Yahoo e MSN (45 mil ciascuno), AOL (23 mil), AskJeeves (13 mil). Ogni utente visita più motori di ricerca per le sue query.

44 Paolo Ferragina, Università di Pisa Alcune statistiche recenti... In Gennaio 2004, 52% utenti indicano nella rilevanza dei risultati la cosa più importante, 33% velocità. Interfaccia non importante. Yahoo, AOL e EarthLink si appoggiano a Google e poi mixano i suoi risultati con loro tecniche per mantenere una qualche autonomia (Feb 04, Yahoo si divide da Google!)

45 Paolo Ferragina, Università di Pisa Il motore più famoso...

46 Paolo Ferragina, Università di Pisa Cosa non è Google Indice su tutti i documenti disponibili sul Web Nessun motore lo è Credibile in ogni cosa che ci segnala Non esiste controllo sulla pubblicazione delle pagine Perfettamente aggiornato Non riesce a seguire le modifiche giornaliere (milioni di pagine) Protetto da contenuto offensivo Dispone di un meccanismo di filtering, ma non sicuro al 100%

47 Paolo Ferragina, Università di Pisa Cosa è oggi Google Alcuni dati interessanti (NY Times, Aprile 2003) : Più di 1000 persone 54,000 server - 100,000 processor - 261,000 dischi ~4Mld pagine (1/04), 200 milioni query/giorno (30% del totale) 300 milioni di dollari di fatturato 2002 (750 nel 2003 ?) google è la parola più utile del 2002 [American Dialect Society] Un nuovo scenario di: Gestione ed estrazione della conoscenza: non solo Web Problemi matematici interessanti: Qualità risposte, Efficienza, Copertura del web Nuove applicazioni ( news,prodotti ), Nuovi domini (audio,video) Business: tra i pochissimi a fare molti profitti !

48 Paolo Ferragina, Università di Pisa Google: Il modello di business in 2 iniziative Search services via la Google search appliance Soluzione hardware+software per un motore di ricerca in ambito intranet o singolo website Hardware fissato e quindi limitati problemi di sviluppo e mantenimento del software Per ora disponibile soltanto in USA e Canada (??) Advertising programs ( sottoscrittori) AdSense: Un sito può fornire spazio sulla sua pagina; le pubblicità da visualizzare vengono scelte da AdSense in funzione dei contenuti della pagina così da rivolgersi a probabili clienti. Il sito riceve un pagamento in funzione del numero di click sul banner. AdWords: Una società può scegliere quanto pagare al giorno/mese e indicare le parole chiave che descrivono il suo business. Un banner viene visualizzato da Google allatto di ricerche per quelle parole chiave, e la società paga in funzione del numero di click ricevuti.

49 Paolo Ferragina, Università di Pisa Google: altre notizie... Il nome deriva dalla parola GOOGOL, coniata da un bambino americano di 9 anni per riferirsi al numero Un po di storia: [ ] Esce il primo prototipo ( BackRub ). [ ] Nasce Google, risponde a 10,000 Qpg 3Ml Qpg [2000] 1Mld pagine e 60Ml Qpg [2001] 2Mld pagine e 100Ml Qpg, ricerche limitabili a 26 linguaggi. Introduce Image e File type search, Usenet dal 1981, Google Catalog. [2002] 2,5Mld pagine, ricerche limitabili a 40 linguaggi. Intoduce AdWords, Google news, Web API, Froogle, Google Labs. [2003] 3Mld di pagine, più linguaggi supportati. Il programma di business raggiunge i 100,000 sottoscrittori e viene promosso in Italia. Introduce Google AdSense, Local Search.


Scaricare ppt "Paolo Ferragina, Università di Pisa Motori di Ricerca presente e futuro prossimo Rilevanza dei Risultati: Prima generazione."

Presentazioni simili


Annunci Google