1 Querying - Parte II Modelli per la ricerca
2 Rappresentazione e Vector Space (VS) Ogni doc. j è un vettore di valori tf idf Si può normalizzare a lunghezza unitaria. Si ottiene uno spazio vettoriale i termini sono gli assi i documenti vivono nel VS anche se si fa stemming, si possono avere emormi dimensioni! (soprattutto nel caso multilingua dei motori di ricerca)
3 Intuizione Postulato: Documenti che sono vicini nel vector space sono simili. t 1 D2 D1 D3 D4 t 3 t 2 x y
4 Exercizio Organizza opportunamente gli indici inversi per supportare la similiarità coseno Discuti lalgoritmo per rispondere ad una generica query.
5 Perché Usare il VS? Idea Base: Una query è vista come un piccolo documento. Le queries diventano vettori nello stesso spazio dei documenti. Possiamo misurare il coseno tra la query ed ogni documento … il rank alto corrisponde a coseno alto.
6 Ranking Coseno Efficiente Il Ranking è il calcolo dei k doc. più vicini alla query k più alti coseni query-doc. Ranking efficiente: Calcola un singolo coseno in modo efficiente. Scegli i k più alti coseni in modo efficiente.
7 Calcolo di singolo coseno Per ogni term. i del doc j, momorizza tf ij. Più in generale considerare idf i. Accumola la somma per componenti omologhe
8 I più Alti k Coseni Tipicamente vogliamo i k doc con ranking più alto non ordinare tutto! scopri solo i k più alti.
9 Candidati Term-wise Preprocessing: Pre-calcola, per ogni term, i suoi k docs più vicini (ogni termine come 1-term query.). Risultato: lista dei preferiti per ogni term. Ricerca: Per ogni t-term query, prendi lunione delle loro t liste dei preferiti - chiamala S. Calcola i coseni tra la query e i soli docs in S, e prendi i top k.
10 Esercizio Analizza in dettaglio i calcoli: Proponi un semplice esempio in cui il metodo illustrato fornisce un valore errato di ranking rispetto al coseno vero.
11 Raggruppamento Fase di pre-processing: prendi n docs casuali (leaders) Per ogni altro doc, pre-calcola il leader più vicino Docs attaccati al leader: seguaci; Ragionevole: ogni leader ha ~ n seguaci. Elaborazione query: Data Q, trova il più vicino leader L. Cerca k i più vicini docs fra i seguaci di L.
12 Visualizzazione Query LeaderSeguace
13 Dimensionality reduction Perché non impaccare i vettori in un numero minore di dimensioni (diciamo ) preservando le distanze? Questo incrementa la velocità del coseno! Due metodi: Random projection. Latent semantic indexing.
14 Latent semantic indexing E una tecnica per riduzione dimensioni Random projection è data-independent LSI è data-dependent Elimina assi ridondanti Mette assieme assi correlati elaboratore e calcolatore
15 Idea di Base di LSI Pre-elabora doc. mediante la tecnica Singular Value Decomposition. Qual è leffetto? Si crea un nuovo vector space Le queries sono gestite in questo nuovo vector space (molto più piccolo)
16 Decomp. Valori Singolari Matrice della collezione: m n matrix of terms docs, A. A has rank r m,n. matrice di correlazione term-term T=AA t T è quadrata, simmetrica m m. matrice di correlazione doc-doc D=A t A. D è quadrata, simmetrica n n.
17 Autovettori P, matrice m r di autovettori di T. R, matrice n r di autovettori di D. A può decomporsi come A = PQR t Q è diagonale con autovalori di AA t ordinati per valore decrescente.
18 Decomposizione = A PQRtRt m nm rr r n
19 Riduzione di dimensione Per qualche s << r, azzero tutti gli s più grandi autovalori di Q. Denoto Q s la versione di Q ridotta. E normale che s sia qualche centinaia, mentre r e dellordine decine di migliaia. Dunque A s = P Q s R t Risulta che A s è una buona approssimazione di A.
20 Visualizzazione = AsAs PQsQs RtRt 0 Le colonne di A s representano i doc, ma in s<<m dimensioni. 0 0
21 Importanti Risultati Le distanze relative tra doc sono (approssimativamente) preservate dalla proiezione: Di tutte le matrici m n rank s, A s è la migliore approssimazione di A.
22 Doc-doc similarities A s A s t è una matrice di similiarità doc-doc: il termine (j,k) è una misura di similiarità dei documenti j e k.
23 Intuizione Si fa più che semplice riduzione dimens.: I doc con molti termini in overlapping vanno assieme I termini vengono raggruppati. Dunque calcolatore ed elaboratore vengono raggruppati perche co-occorrono in doc con fax, stampante, mouse, etc.
24 Query processing Una query è un piccolo doc: sia la riga 0 di A s. Le coordinate nella linea 0 di A s A s t restituiscono la similarità della query con ogni doc. Coordinata (0,j) è lo score di doc j sulla query.
25 Esempio Human interface computer user system response time EPS survey trees graph minors
26 Complementi per la lezione Implementazione del ranking coseno : I.H. Witten, A. Moffat, and T.C. Bell, M.G., 4.6 (molti dettagli in più per chi vuole approfondire) Latent semantic indexing : articolo di S. Deerwester et al (1990)
27 Letture correlate Un articolo introduttivo che discute criticamente i concetti di base dellinformation retrieval dal titolo What Do People Want from Information Retrieval? roft.html