Teoria e tecniche della catalogazione e classificazione Sistemi di recupero dellinformazione ricerca4sistemi Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2005/2006
2 Abbiamo visto: Informazione Dati/Informazione/Conoscenza/Sapere Teoria dellinformazione ( C. Shannon) Ciclo di trasferimento dellinformazione
3 Gerarchia dellinformazione Wisdom Knowledge Information Data
4 Teoria dellinformazione Meglio indicata come Teoria della comunicazione La comunicazione oltrepassa tempo e spazio Noise SourceDecodingEncodingDestination Message Channel StorageSource Decoding (Retrieval/Reading) Encoding (writing/indexing) Destination Message
5 Ciclo di trasferimento dellinformazione Creation UtilizationSearching Active Inactive Semi-Active Retention/ Mining Disposition Discard Using Creating Authoring Modifying Organizing Indexing Storing Retrieval Distribution Networking Accessing Filtering
6 Temi principali del corso Creation UtilizationSearching Active Inactive Semi-Active Retention/ Mining Disposition Discard Using Creating Authoring Modifying Organizing Indexing Storing Retrieval Distribution Networking Accessing Filtering
7 Oggi Sistemi di recupero dellinformazione
8 Information Retrieval (IR) Lespressione information retrieval è coniata da C. Mooers nel 1952 Obiettivo dellIR è di recuperare, allinterno di una collezione, tutti e solo i documenti rilevanti per un particolare utente con una particolare richiesta informativa The goal is to search large document collections (millions of documents) to retrieve small subsets relevant to the users information need Rilevanza è un concetto chiave dellIR, su cui torneremo
9 Sistemi IR: prime rappresentazioni fisiche Pinakes – Biblioteca di Alessandria Indici e concordanze della Bibbia (Ugo di San Caro, 1247) Indici dei giornali
10 Sistemi IR: rappresentazioni mentali Mnemotecnica, palazzi della memoria (Simonide di Ceo)
11 Sistemi IR: rappresentazioni bibliografiche Cataloghi di biblioteca Bibliografie
12 Visioni di sistemi IR Paul Otlet (30) Emanuel Goldberg (20 – 40) H.G. Wells, World Brain: the idea of a permanent World Encyclopedia, 1937 (Introduzione al XVIII vol. dellEncyclopedie Francaise) Vannevar Bush, As we may think, Atlantic Monthly, Memex
13 Sistemi IR: storia più recente –Radici nella Information Explosion che segue la II GM –Lespressione Information Retrieval è coniata da C. Mooers nel 1952 –A partire dagli anni 50, interesse verso sistemi IR computer-based H.P. Luhn presso IBM (1958) Modello probabilistico (Maron & Kuhns 1960) Sviluppo del sistema booleano presso Lockheed (60) Modello vettoriale (Salton presso Cornell U. 1965) Metodi di statistical weighting (70 – 80) Interfacce utenti, applicazioni su larga scala (90)
14 Struttura di un sistema IR Search Line Interest profiles & Queries Documents & data Rules of the game = Rules for subject indexing + Thesaurus (which consists of Lead-In Vocabulary and Indexing Language Storage Line Potentially Relevant Documents Comparison/ Matching Store1: Profiles/ Search requests Store2: Document representations Indexing (Descriptive and Subject) Formulating query in terms of descriptors Storage of profiles Storage of Documents Information Storage and Retrieval System Adapted from Soergel, p. 19
15 Struttura di un sistema IR Search Line Interest profiles & Queries Documents & data Rules of the game = Rules for subject indexing + Thesaurus (which consists of Lead-In Vocabulary and Indexing Language Storage Line Potentially Relevant Documents Comparison/ Matching Store1: Profiles/ Search requests Store2: Document representations Indexing (Descriptive and Subject) Formulating query in terms of descriptors Storage of profiles Storage of Documents Information Storage and Retrieval System Adapted from Soergel, p. 19
16 Struttura di un sistema IR Search Line Interest profiles & Queries Documents & data Rules of the game = Rules for subject indexing + Thesaurus (which consists of Lead-In Vocabulary and Indexing Language Storage Line Potentially Relevant Documents Comparison/ Matching Store1: Profiles/ Search requests Store2: Document representations Indexing (Descriptive and Subject) Formulating query in terms of descriptors Storage of profiles Storage of Documents Information Storage and Retrieval System Adapted from Soergel, p. 19
17 Struttura di un sistema IR Search Line Interest profiles & Queries Documents & data Rules of the game = Rules for subject indexing + Thesaurus (which consists of Lead-In Vocabulary and Indexing Language Storage Line Potentially Relevant Documents Comparison/ Matching Store1: Profiles/ Search requests Store2: Document representations Indexing (Descriptive and Subject) Formulating query in terms of descriptors Storage of profiles Storage of Documents Information Storage and Retrieval System Adapted from Soergel, p. 19
18 Struttura di un sistema IR Search Line Interest profiles & Queries Documents & data Rules of the game = Rules for subject indexing + Thesaurus (which consists of Lead-In Vocabulary and Indexing Language Storage Line Potentially Relevant Documents Comparison/ Matching Store1: Profiles/ Search requests Store2: Document representations Indexing (Descriptive and Subject) Formulating query in terms of descriptors Storage of profiles Storage of Documents Information Storage and Retrieval System Adapted from Soergel, p. 19
19 04/07/989 Componenti di un sistema IR UC DATA: Data Archive & Technical Assistance University of California, Berkeley Fredric C. Gey Documents Authoritative Indexing Rules Indexing Process Index Records and Document Surrogates Retrieval Process Retrieval Rules Users Information Need severe information loss Query Specificatio n Process Query List of Documents Relevant to Users Information Need
20 Sistemi IR: struttura (Cooper - Maron, 1985) 1.linsieme delle possibili chiavi di accesso assegnate ai documenti; 2.linsieme delle domande formulabili dagli utenti; 3.linsieme degli indicatori di valore informativo da assegnare ai documenti; 4.una regola di recupero.
21 Sistemi IR - Modello A: registro / inventario / topografico 1.chiavi di accesso: UN SOLO DESCRITTORE PER OGNI DOCUMENTO 2.domande: UN SOLO DESCRITTORE IN OGNI DOMANDA 3.indicatori di valore informativo: 0 (IL DOC. NON HA VALORE INFORMATIVO) / 1 (IL DOC. HA VALORE INFORMATIVO) 4.regola di recupero: AL DOC. VIENE ATTRIBUITO VALORE INFORMATIVO SE IL DESCRITTORE DELLA DOMANDA E UGUALE A QUELLO ASSEGNATO COME CHIAVE DACCESSO
22 Sistemi IR - Modello A: registro / inventario / topografico Esempi: In biblioteca (ma anche altrove): inventario patrimoniale, registro topografico Registro di classe Elenco telefonico ? Modifica / Trova quando usate Word...
23 Sistemi IR - Modello B: catalogo 1.chiavi di accesso: PIU DI UN DESCRITTORE PUO ESSERE ASSEGNATO A OGNI DOCUMENTO COME CHIAVE DACCESSO 2.domande: COME NEL MODELLO A 3.indicatori di valore informativo: COME NEL MODELLO A 4.regola di recupero: AL DOC. VIENE ATTRIBUITO VALORE INFORMATIVO SE IL DESCRITTORE DELLA DOMANDA E UGUALE A UNO DI QUELLI ASSEGNATI COME CHIAVI DACCESSO AL DOC.
24 Sistemi IR – Pre-coordinati I sistemi IR modelli A-B sono pre-coordinati: lindicizzatore per rappresentare il contenuto dei documenti costruisce stringhe di ricerca, che lutente in fase di ricerca deve ripercorrere nello stesso ordine con cui sono state formulate.
25 Sistemi IR - Modello C: booleano limitato alloperatore AND 1.chiavi di accesso: COME NEL MODELLO B 2.domande: OGNI DOMANDA PUO CONTENERE PIU DI UN DESCRITTORE 3.indicatori di valore informativo: COME NEI MODELLI A, B 4.regola di recupero: AL DOC. VIENE ATTRIBUITO VALORE INFORMATIVO SE TUTTI I DESCRITTORI CONTENUTI NELLA DOMANDA SONO UGUALI A QUELLI ASSEGNATI COME CHIAVI DACCESSO AL DOC.
26 Sistemi IR - Modello C: esempi Schede UNITERM (metà anni 40) EXCURSION LUNAR
27 Sistemi IR - Modello C: esempi Schede Peek-a-Boo (1948) Lunar Excursion
28 Sistemi IR - Modello C: esempi Schede edge-notched (Mooers, 1951) Document 1 Title: lksd ksdj sjd sjsjfkl Author: Smith, J. Abstract: lksf uejm jshy ksd jh uyw hhy jha jsyhe Document 200 Title: Xksd Lunar sjd sjsjfkl Author: Jones, R. Abstract: Lunar uejm jshy ksd jh uyw hhy jha jsyhe Document 34 Title: lksd ksdj sjd Lunar Author: Smith, J. Abstract: lksf uejm jshy ksd jh uyw hhy jha jsyhe
29 Sistemi IR - Modello D: booleano 1.chiavi di accesso: COME NEI MODELLI B, C 2.domande: COME NEL MODELLO C; I DESCRITTORI UTILIZZABILI NELLE DOMANDE POSSONO ESSERE ASSOCIATI TRA LORO UTILIZZANDO GLI OPERATORI AND, OR, NOT 3.indicatori di valore informativo: COME NEI MODELLI A, B, C 4.regola di recupero: AL DOC. VIENE ATTRIBUITO VALORE INFORMATIVO SECONDO LA LOGICA COMBINATORIA BOOLEANA
30 Sistemi IR - Modello D: booleano Gatti Gatti OR Cani Gatti AND Cani Gatti NOT Cani Gatti AND Cani OR Pulci Gatti WITH Siamesi
31 Logica Booleana Gatti Cani Pulci
32 AND =
33 OR =
34 AND NOT =
35 Sistemi IR - Modello D: booleano Sul sistema booleano, vedere al sito:
36 Sistemi IR - Modello D: booleano Esempi: In biblioteca: OPAC Database; dominante nei sistemi commerciali prima del WWW
37 Sistemi IR - Modelli E - : vettoriale, statistical weighting, probabilistico... chiavi di accesso: COME NEI MODELLI B, C, D domande: COME NEI MODELLI D, E; E POSSIBILE FILTRARE LE DOMANDE indicatori di valore informativo: GLI INDICATORI DI VALORE INFORMATIVO SONO TUTTI I NUMERI REALI (il documento può avere maggiore o minore valore informativo in funzione di una domanda) regola di recupero:AL DOC. VIENE ATTRIBUITO UN INDICATORE DI VALORE (che ne determina la priorità di recupero) CALCOLATO SECONDO ALGORITMI diversi secondo i diversi sistemi
38 RANKING RESULTS The order in which search results appear. Each search tool uses its own unique algorithm. Most use "fuzzy and" combined with factors such as how often your terms occur in documents, whether they occur together as a phrase, and whether they are in title or how near the top of the text. Popularity is another ranking system.fuzzy andPopularity
39 Sistemi IR - Modelli E - : vettoriale, Statistical Weighting, probabilistico... Esempi: Ricerca Web – Motori e metamotori di ricerca
40 Sistemi IR – Post-coordinati I sistemi IR modelli C-E sono post-coordinati: lutente combina tra loro i diversi pezzi (gettoni) di informazione per descrivere doc. che potrebbero essere considerati rilevanti. I sistemi post-coordinati utilizzano gli inverted file.
41 Inverted File Inverted Files This is the primary data structure for text indexes Basic steps: –Make a dictionary of all the tokens in the collection –For each token, list all the docs it occurs in. –Do a few things to reduce redundancy in the data structure
42 Inverted Indexes An Inverted File is a file inverted so that rows become columns and columns become rows
43 How Are Inverted Files Created Documents are parsed to extract tokens. These are saved with the Document ID. Now is the time for all good men to come to the aid of their country Doc 1 It was a dark and stormy night in the country manor. The time was past midnight Doc 2
44 How Inverted Files are Created After all documents have been parsed the inverted file is sorted alphabetically.
45 How Inverted Files are Created Multiple term entries for a single document are merged. Within-document term frequency information is compiled.
46 How Inverted Files are Created Then the file can be split into –A Dictionary file and –A Postings file
47 How Inverted Files are Created Dictionary Postings
48 Inverted indexes Permit fast search for individual terms For each term, you get a list consisting of: –document ID –frequency of term in doc (optional) –position of term in doc (optional) These lists can be used to solve Boolean queries: country -> d1, d2 manor -> d2 country AND manor -> d2 Also used for statistical ranking algorithms
49 How Inverted Files are Used Dictionary Postings Query on time AND dark 2 docs with time in dictionary -> IDs 1 and 2 from posting file 1 doc with dark in dictionary -> ID 2 from posting file Therefore, only doc 2 satisfied the query.
50 Prossimamente IR: concetti di base Processo di ricerca e recupero dellinformazione Dalla prossima settimana vedremo alcuni esempi di sistemi IR modelli D, E