Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoTino Pini Modificato 11 anni fa
1
Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2004/2005
Teoria e tecniche della catalogazione e classificazione Utenti, documenti, linguaggi di indicizzazione ricerca5ir Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2004/2005
2
Abbiamo visto: Informazione Gerarchia dell’informazione
Teoria dell’informazione (C. Shannon) Ciclo di trasferimento dell’informazione Sistemi di recupero dell’informazione T&T 2004/05
3
Gerarchia dell’informazione
Wisdom Knowledge Information Data T&T 2004/05
4
Teoria dell’informazione
Source Decoding Encoding Destination Message Channel Noise Storage Source Decoding (Retrieval/Reading) Encoding (writing/indexing) Destination Message T&T 2004/05
5
Ciclo di trasferimento dell’informazione
Creation Utilization Searching Active Inactive Semi-Active Retention/ Mining Disposition Discard Using Creating Authoring Modifying Organizing Indexing Storing Retrieval Distribution Networking Accessing Filtering T&T 2004/05
6
Struttura di un sistema IR
Search Line Storage Line Interest profiles & Queries Documents & data Information Storage and Retrieval System Rules of the game = Rules for subject indexing + Thesaurus (which consists of Lead-In Vocabulary and Indexing Language Formulating query in terms of descriptors Indexing (Descriptive and Subject) Storage of profiles Storage of Documents Store1: Profiles/ Search requests Store2: Document representations Comparison/ Matching Adapted from Soergel, p. 19 Potentially Relevant Documents T&T 2004/05
7
Sistemi IR: struttura (Cooper - Maron, 1985)
l’insieme delle possibili chiavi di accesso assegnate ai documenti; l’insieme delle domande formulabili dagli utenti; l’insieme degli indicatori di valore informativo da assegnare ai documenti; una regola di recupero. T&T 2004/05
8
Oggi (e domani) IR: alcuni concetti di base T&T 2004/05
9
Concetti di base IR Utenti, bisogni informativi, domande
Documenti, raccolte di documenti Linguaggi di indicizzazione, vocabolari controllati Processo di ricerca Valutazione - Rilevanza T&T 2004/05
10
Concetti di base IR Utenti, bisogni informativi, domande
Documenti, raccolte di documenti Linguaggi di indicizzazione, vocabolari controllati Processo di ricerca Valutazione - Rilevanza T&T 2004/05
11
Utenti: bisogni informativi
Perchè costruire sitemi IR? Le diverse persone hanno bisogni informativi diversi e del tutto svariati Le persone spesso non sanno cosa cercano, o possono non essere in grado di esprimere il loro bisogno informativo in modo utile T&T 2004/05
12
Utenti: domande Una domanda (query) è una forma di espressione dei bisogni informativi dell’utente Può essere espressa in vari modi in linguaggio naturale nei termini di un linguaggio di indicizzazione Le domande talvolta non rappresentano in modo accurato il bisogno informativo Differenze tra una conversazione tra persone e una espressione formale di ricerca T&T 2004/05
13
Utenti: domande: cataloghi
Indagine sponsorizzata dal Council on Library Resources sull’utilizzo dei cataloghi online nelle biblioteche USA: Using online catalogs: a nationwide survey, New York, Neal-Schuman, 1983. T&T 2004/05
14
T&T 2004/05
15
Utenti: domande: Web Indagini sull’uso del Web:
La gente che cosa cerca? Come utilizza i motori di ricerca? In quale percentuale trova ciò che sta cercando? Qual è il livello di difficoltà nel trovare ciò che cerca? Come si possono migliorare i motori di ricerca? T&T 2004/05
16
La gente che cosa cerca nel Web?
Studio di Amanda Spink et al., Ott. 1998 Indagine su Excite; dati tratti da un campione di 316 utenti intervistati tramite questionario < T&T 2004/05
17
What Do People Search for on the Web? Self-reported topics
Genealogy/Public Figure: 12% Computer related: 12% Business: 12% Entertainment: % Medical: % Politics & Government % News % Hobbies % General info/surfing % Science % Travel % Arts/education/shopping/images % Something is missing… T&T 2004/05
18
What Do People Search for on the Web?
50,000 queries from Excite 1997 Most frequent terms: 4660 sex 3129 yahoo 2191 internal site administr. 1520 chat 1498 porn 1315 horoscopes 1284 pokemon 1283 SiteScope test 1223 hotmail 1163 games 1151 mp3 1140 weather 1127 1110 maps 1036 yahoo.com 983 ebay 980 recipes T&T 2004/05
19
Google come spirito del tempo Zeitgeist
Andiamo a vedere la pagina: < T&T 2004/05
20
Concetti di base IR Utenti, bisogni informativi, domande
Documenti, raccolte di documenti Linguaggi di indicizzazione, vocabolari controllati Processo di ricerca Valutazione - Rilevanza T&T 2004/05
21
Documenti Un documento è una rappresentazione di una aggregazione di informazioni, considerata come una unità Cosa intendiamo con documento? l’intero documento? un suo surrogato? pagine? M. Buckland, What is a Document, “JASIS”, Sept. 1997, pp J. LeGoff, Documento/Monumento, in Enciclopedia, Torino, Einaudi, , vol. 5, pp T&T 2004/05
22
Raccolte di documenti / Collezioni
Una collezione è una aggregazione fisica o logica di documenti museo, pinacoteca biblioteca base di dati biblioteca digitale ... Krzysztof POMIAN, Memoria, in Enciclopedia, Torino, Einaudi, , vol. 15, pp T&T 2004/05
23
Concetti di base IR Utenti, bisogni informativi, domande
Documenti, raccolte di documenti Linguaggi di indicizzazione, vocabolari controllati (da approfondire nel modulo B del corso) Processo di ricerca Valutazione - Rilevanza T&T 2004/05
24
Linguaggi di indicizzazione
Indicizzazione a parole chiave non controllate: p.e. KWIC, KWOC, “cerca” nel titolo in un OPAC Linguaggi di indicizzazione controllati ma non strutturati Thesauri: controllati e strutturati Schemi di classificazione: controllati, strutturati e codificati T&T 2004/05
25
Vocabolari controllati
Il controllo terminologico è un tentativo di fornire un insieme standardizzato e coerente di termini (quali voci di soggetto, nomi di persone o enti, notazioni di uno schema di classificazione) con lo scopo di portare un aiuto nella ricerca di informazioni Un esempio linguistico: Word Net < T&T 2004/05
26
Vocabolari controllati
Soggettari: p.e., Soggettario di Firenze, Library of Congress Subject Headings: < Thesauri: p.e., ERIC Thesaurus of Descriptors < The Art and Architecture Thesaurus < Medical Subject Headings (MESH) Name Authority File: < Schemi di classificazione: p.e., CDD, CDU, CC ... T&T 2004/05
27
Sistemi pre- e post-coordinati
Sistemi pre-coordinati: è l’indicizzatore (bibliotecario, etc.) che costruisce adeguate rappresentazioni del contenuto dei documenti. Sistemi post-coordinati: è l’utente o chi conduce la ricerca che combina i singoli concetti per descrivere documenti che potrebbero essere considerati rilevanti. T&T 2004/05
28
Concetti di base IR Utenti, bisogni informativi, domande
Documenti, raccolte di documenti Linguaggi di indicizzazione, vocabolari controllati Processo di ricerca Valutazione - Rilevanza T&T 2004/05
29
Prossimamente Processo di ricerca dell’informazione
Valutazione – Rilevanza Cataloghi e bibliografie come sistemi IR T&T 2004/05
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.