1 Querying Modelli per la ricerca. 2 Modelli di Retrieval Un modello per il retrieval specifica rappresentazione dei documenti rappresentazione delle.

1 Querying Modelli per la ricerca

2 Modelli di Retrieval Un modello per il retrieval specifica rappresentazione dei documenti rappresentazione delle queries la funzione di retrieval Due classi di modelli Boolean Modelli spazio query

3 Documento: insieme di keywords Queries: espressioni Boolean Ricerca: Ok se le keywords satisfano la query Boolean Si può aggiungere: diverse strategie stopword removal e stemming mantere diverse informazioni ausiliarie nellindice e usare diversi metodi di implementazione Modello Boolean

4 E il più popolare facile da comprendere sfrutta il vantaggio del calcolo proposizionale Implemtazioni efficienti identif. documenti con una certa parola supporto di strut. ausiliarie, e.g., forward index per la cancellazione I MB si possono estendere per includere ranking (non facile) MB: Aspetti Positivi

5 Molto rigido E difficile esprimere domande complesse documenti recuperati tutti i documenti che soddisfano possono essere recup. Non è facile fare ranking delle uscite tutti i documenti soddisfano la query nello stesso modo E difficile implementare relevance feedback E un difficile problema di inferenza induttiva MB: Aspetti Negativi

6 Un Esempio Valutazione di Blair & Maron [CACM, March 1985] 40,000 documenti legali. STAIRS (IBM 70s) - usato da avvocati. Interazione con operatori per la migliore formulazione della Boolean Interazione finchè il risultato è soddisfacente Media: Precisione =20% Recall = 80%

7 Un documento è una lista di keywords La similiarità è basata sulla frequenza di occorrenza Gli utenti specificano un insieme di termini desiderati con pesi opzionali Weighted query terms : Q = database 0.5; text 0.8; information 0.2 Unweighted query terms : Q = database; text; information Non ci sono conditioni Boolean nella query Si può supportare relevance feedback Un po di Statistica...

8 Come determinare le parole importanti in un documento? Come determinare il grado di importanza della parola nel documento e nellintera collezione? Come stabilire il grado di similiarità? Se ho ambienti con hyperlinks … come stabilire glli effetti dei links, della struttura e del formato(grassetto, lampeggiante...)? Problemi...

9 Il Modello Vector-Space Ci sono T termini distinti (index terms o vocabolario) architecture bus computer database …. xml computer science bibloteca vocabolario Per ora: Solo termini singoli, non frasi

10 Modello Vector Space I termini sono incorrelati (ortogonali) e formano il vector space computer science business CS biblioteca Tutto ciò che risulta importante Ma cè in realtà correlazione tra i termini...

11 Il Modello Vector-Space Un esempio a due termini d i = 0, 0 (Non contiene parole del vocabolario) d j = 0, 0.7 (contiene una della due parole) d k = 1, 2 (contiene entrambe le parole) Così per 3 termini … ecc... Un documento o una query si possono rappresentare come combinazioni lineari di termini

12 Reppresentazione Grafica Esempio: D 1 = 2T 1 + 3T 2 + 5T 3 D 2 = 3T 1 + 7T 2 + T 3 Q = 0T 1 + 0T 2 + 2T 3 T3T3 T1T1 T2T2 D 1 = 2T 1 + 3T 2 + 5T 3 D 2 = 3T 1 + 7T 2 + T 3 Q = 0T 1 + 0T 2 + 2T 3 7 32 5 E D 1 o D 2 più simile a Q? Come si misura il grado di similitudine?

13 Collezione dei Documenti Collezione documenti: matrice T 1 T 2 …. T t D 1 d 11 d 12 … d 1t D 2 d 21 d 22 … d 2t : : : : D n d n1 d n2 … d nt

14 Misura di Similiarità Misura Similiarità: grado di similiarità tra coppie di vettori N.B.: queries e documenti sono vettori! Qual è la migliore funzione (se ne esiste una valida per tutte le stagioni!) Si possono stabilire soglie per controllare la dimensione del retrieved set Come usare info di relevance feedback?

15 Il Prodotto Scalare sim ( D i, Q ) = d ik q k ) d ik è il peso del termine k nel documento i e q k è il peso del termine k nella query Vettori binari: numero di matched query terms nel documento

16 Inner Product -- Examples Binary: D = 1, 1, 1, 0, 1, 1, 0 Q = 1, 0, 1, 0, 0, 1, 1 sim(D, Q) = 3 retrieval database architecture computer text management information D 1 = 2T 1 + 3T 2 + 5T 3 D 2 = 3T 1 + 7T 2 + T 3 Q = 0T 1 + 0T 2 + 2T 3 sim(D 1, Q) = 2*0 + 3*0 + 5*2 = 10 sim(D 2, Q) = 3*0 + 7*0 + 1*2 = 2

17 Proprietà prod. scalare Favorisce documenti lunghi documenti lunghi cresce linearmente … Interessante lortogonalità: un documento che parla della torta mantovana ha verosimilmente prod. Scalare nullo con uno che parla di basket!

18 Normalizzazione coseno D 1 = 2T 1 + 3T 2 + 5T 3 CosSim(D 1, Q) = 5 / 38 = 0.81 D 2 = 3T 1 + 7T 2 + T 3 CosSim(D 2, Q) = 1 / 59 = 0.13 Q = 0T 1 + 0T 2 + 2T 3 t3t3 t1t1 t2t2 D1D1 D2D2 Q D 1 è 6 volte meglio di D 2 con il coseno ma solo 5 volte meglio con il prodotto scalare CosSim(D i, Q) =

19 Altre Similiarità. D 1 = 2T 1 + 3T 2 + 5T 3 Sim(D 1, Q) = 10 / (38+4-10) = 10/32 = 0.31 D 2 = 3T 1 + 7T 2 + T 3 Sim(D 2, Q) = 2 / (59+4-2) = 2/61 = 0.04 Q = 0T 1 + 0T 2 + 2T 3 D 1 è 9.5 volte meglio di D 2 Qual è la differenza rispetto al cos? Coeff. Jaccard :

20 Versioni Binarie Prodotto Scalare: Coseno: Jaccard : d i e q k qui sono insiemi di keywords d i e q k qui sono vettori

21 Term Weights tf ij = frequenza del termine j nel documento i df j = document frequency del termine j = no. documenti che contengono il term j idf j = inverse document frequency del termine j = log 2 (N/ df j ) (N: numero doc. collez.) Inverse document frequency -- un indicatore di termini discriminatori: non servono termini che sono in tutti i documenti!

22 Term Weight Tipico peso w ij = tf ij idf j = tf ij log 2 (N/ df j ) Alto peso: termini frequenti nel documento e rari nella collezione Un altro peso: w ij = (tf ij /max l {tf lj }) idf j = (tf ij /max l {tf lj }) log 2 (N/ df j ) max l {tf lj } è la term frequency del più frequente termine nel documento j

23 system computer database science D 2, 4 D 5, 2 D 1, 3 D 7, 4 Index terms df 3 2 4 1 D j, tf j Opzionali: possono risiedere su file separato posting postings list Implementazione

24 7, 4 5, 2 1, 3 2, 4 2489 14532 5 138 Parole e documenti: 16-bit o 32-bit key content Come rappresentare tf max ? Come gestire la cancellazione di doc.? Perché non memorizzare direttamente idf? Serve un forward index: Dato un documento, restituisce i terms che contiene e, forse, il suo più alto tf. Implementazione

25 Ranking con op. Boolean Si filtra prima con Boolean, poi si fa ranking nel vector-space Combinazione Boolean e Vector-Space Boolean filter ranking documenti Vector-space query resultati Boolean query

26 Complementi per la lezione Indici inversi: I.H. Witten, A. Moffat, and T.C. Bell, Managing Gigabytes, Compressing and Indexing Documents and Images, Morgan kauffmann, 1999 chapter 4

1 Querying Modelli per la ricerca. 2 Modelli di Retrieval Un modello per il retrieval specifica rappresentazione dei documenti rappresentazione delle.

Presentazioni simili

Presentazione sul tema: "1 Querying Modelli per la ricerca. 2 Modelli di Retrieval Un modello per il retrieval specifica rappresentazione dei documenti rappresentazione delle."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back

Entrare

Autorizzarsi attraverso i social network:

1 Querying Modelli per la ricerca. 2 Modelli di Retrieval Un modello per il retrieval specifica rappresentazione dei documenti rappresentazione delle.

Presentazioni simili

Presentazione sul tema: "1 Querying Modelli per la ricerca. 2 Modelli di Retrieval Un modello per il retrieval specifica rappresentazione dei documenti rappresentazione delle."— Transcript della presentazione:

Presentazioni simili

Sul progetto

Feed-back