La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Marco Gori, Università di Siena anno accademico 2004-20051 Alla ricerca del testo... Indici Inversi.

Presentazioni simili


Presentazione sul tema: "Marco Gori, Università di Siena anno accademico 2004-20051 Alla ricerca del testo... Indici Inversi."— Transcript della presentazione:

1 Marco Gori, Università di Siena anno accademico Alla ricerca del testo... Indici Inversi

2 Marco Gori, Università di Siena anno accademico Indici per Database Relazionali zSQL: create index EmpNmX on Employee(Name) zStrutture: hashing, B+-tree Tabella dipendenti Name Gori Dipendente Query: Nome = Gori GoriUniversità di Siena..

3 Marco Gori, Università di Siena anno accademico zMatch parziale: %database%, wildcards zRicerca frasi: che documento contiene computer graph Indice documento D1 D2 D3 computerD1, 21, 88, 109D3, 41 grafoD2, 5D3, 30 Posizioni allinterno di D1 Indici Inversi

4 Marco Gori, Università di Siena anno accademico Indici inversi zIl file indice può essere implemen. in modo diverso architecture computer database retrieval... D 1, a 1 Index terms/ vocabulary Index/ Index files/ index database Postings lists Q = term1, term2, term3,... Informazione ausiliaria, e.g., posizione parole, num. occorrenze

5 Marco Gori, Università di Siena anno accademico Boolean Retrieval zQuery Booleana: n termini connessi con operatori Boolean, e.g., computer AND news AND NOT newsgroup Le parentesi si possono usare per def. precedenze. A B A and B Combin. Risultati (isomorfismo): AND: intersezione insiemi OR: fusione insiemi NOT: differenza (NOT x è difficile da valutare; x AND NOT y è chiaro!)

6 Marco Gori, Università di Siena anno accademico zGrande overhead di spazio! (50% - 150% - 300%) zAlto costo per updates, insertions, deletions zIl costo di elaborazione incrementa con il numero degli operatori Boolean zDomande: yPerché si arriva ad overhead oltre il 100%? ySarebbe possibile 2-3% storage overhead? yIn sostanza: serve comprimere! Problemi indici inversi

7 Marco Gori, Università di Siena anno accademico Vincoli di Distanza zCondizioni di adiacenza e.g., ydatabase immediatamente seguito da systems xi.e., cerca database systems ydatabase e systems non più lontani di 3 parole ydatabase e architecture nella stessa frase. Richiede estensioni: Gli indici invertiti mantengono le locazioni di keywords dentro documenti, e la locazione di documenti (titolo, paragrafi, ecc...)

8 Marco Gori, Università di Siena anno accademico ylocazione paragraph,sentence,word : database file systems... D 345, 25D 348, 37D 350, 8 D 123, 5D 128, 25D 345, 25 8 th sentence di D 350 database file systems... D 345, 2,3,5D 348, 37,5,9D 350, 8,12,1 D 123, 5,4,3D 128, 25,1,12D 345, 2,3,6 8 th paragraph, 12 th sentence, 1 st word of D 350 Vincoli di Distanza ylocalizzazione sentence :

9 Marco Gori, Università di Siena anno accademico Estensione: Pesi nel posting zMemorizzazione della frequenza database file systems... D 345, 10D 348, 20D 350, 1 D 123, 82D 128, 8D 345, 12 systems è il 20% più frequente di database in D 345 Il secondo componente di posting potrebbe anche essere qualcosa di pi ù sofisticato di una semplice frequenza...

10 Marco Gori, Università di Siena anno accademico zSe si memorizza la posizione delle parole allora il termine frequenza si trova contando le posizioni zDue parametri importanti: yterm frequency: Numero di volte che il term appare in un documento yDocument frequency: Numbero di documenti contenenti un certo term Estensione: Pesi nel posting

11 Marco Gori, Università di Siena anno accademico Sinonimi zSono importanti per incrementare la coverage di una query. zPossono essere aggiunti allindice con puntatori... database databases systems D 345, 2,3,5D 348, 37,5,9D 350, 8,12,1 D 123, 5,4,3D 128, 25,1,12D 345, 2,3,6 dataset

12 Marco Gori, Università di Siena anno accademico zTroncamento suffisso: semplice forma di stemming: ycomput* : computer, computing, computation, etc. yPuò essere gestita facilmente se lindice invertito è implementato mediante un trie yGestione problematica mediante hash! zAlcuni sistemi forzano la lunghezza minima del prefisso conosciuto per limitare lo spazio. Troncamento (suffisso)

13 Marco Gori, Università di Siena anno accademico zTruncamento prefisso y*symmetry: symmetry, asymmetry,... yMolto difficile da gestire; perfino un trie non può … non cè un punto di partenza zE in generale difficile fare il match di parti di una parola z Rapprentazioni con wild card ywom*n: woman,women; y wom* then check if last character is n Troncamento et al.

14 Marco Gori, Università di Siena anno accademico zLoverhead dellindice può arrivare al 300%. zIl costo di retrieval cresce con la complicazione delle strutture dati con i postings (e.g., pensa ai sinonimi) zIndici inversi: buoni per ambiente relativamente statico! (pochi inserimenti e cancellazioni) Conclusioni

15 Marco Gori, Università di Siena anno accademico Fondamenti di Informatica: Tecniche di ricerca su tabelle liste, alberi, grafi funzioni hash Complementi per la lezione Indici inversi: I.H. Witten, A. Moffat, and T.C. Bell, Managing Gigabytes, Compressing and Indexing Documents and Images, Morgan kauffmann, 1999 chapter 3


Scaricare ppt "Marco Gori, Università di Siena anno accademico 2004-20051 Alla ricerca del testo... Indici Inversi."

Presentazioni simili


Annunci Google