Teoria e tecniche della catalogazione e classificazione Sistemi di recupero dellinformazione ricerca4sistemi Prof.ssa Elisa Grignani Università degli studi.

Slides:



Advertisements
Presentazioni simili
Trieste, 26 novembre © 2005 – Renato Lukač Using OSS in Slovenian High Schools doc. dr. Renato Lukač LinuxDay Trieste.
Advertisements

Training On Line - CONP. 2 Richiesta Da Menu: Conferimenti ad inizio anno termico > Agosto > Pluriennali > Nuova Richiesta Si accede alla pagina di Richiesta.
Numeri a 100 Electronic flashcard. 1 uno ritorno.
I numeri, l’ora, I giorni della settimana
Dipartimento di Ingegneria Idraulica e Ambientale - Universita di Pavia 1 Caduta non guidata di un corpo rettangolare in un serbatoio Velocità e rotazione.
Presente e futuro della religiosità nel nord est DIFFERENZE TRA GENERAZIONI figli e padri italo de sandre 1ids.
Teoria e Tecniche del Riconoscimento
MONITORAGGIO MATEMATICA V A Alunni 26 Presenti 23 Quesiti 44 Risposte totali 650 Risultato medio 28,3 media 64,2%
1 MeDeC - Centro Demoscopico Metropolitano Provincia di Bologna - per Valutazione su alcuni servizi erogati nel.
TAV.1 Foto n.1 Foto n.2 SCALINATA DI ACCESSO ALL’EREMO DI SANTA CATERINA DEL SASSO DALLA CORTE DELLE CASCINE DEL QUIQUIO Foto n.3 Foto n.4.
1 Pregnana Milanese Assessorato alle Risorse Economiche Bilancio Preventivo P R O P O S T A.
1 Teaching Cloud Computing and Windows Azure in Academia Domenico Talia UNIVERSITA DELLA CALABRIA & ICAR-CNR Italy Faculty Days 2010.
MODULISTICA E MODELLI PER LE ISTANZE DI AUTORIZZAZIONE UNICA Proposte di semplificazione delle procedure amministrative nelle 12 Province aderenti al Progetto.
EBRCN General Meeting, Paris, 28-29/11/20021 WP4 Analysis of non-EBRCN databases and network services of interest to BRCs Current status Paolo Romano Questa.
Frontespizio Economia Monetaria Anno Accademico
INCONTRO REFERENTI DISABILITA’
Associazione Nazionale Medici Cardiologi Ospedalieri
HDM Information Design notation v.4. HDM Information Design.
Varianza campionaria Errore standard della varianza campionaria
Programmazione 1 9CFU – TANTE ore
ELEZIONI REGIONALI 2010 PRIMI RISULTATI E SCENARI 14 aprile 2010.
Canale A. Prof.Ciapetti AA2003/04
TIPOLOGIA DELLE VARIABILI SPERIMENTALI: Variabili nominali Variabili quantali Variabili semi-quantitative Variabili quantitative.
Ufficio Studi UNIONCAMERE TOSCANA 1 Presentazione di Riccardo Perugi Ufficio Studi UNIONCAMERE TOSCANA Firenze, 19 dicembre 2000.
Già primario f.f. U.O. di neurochirurgia
La partita è molto combattuta perché le due squadre tentano di vincere fino all'ultimo minuto. Era l'ultima giornata del campionato e il risultato era.
Teoria e tecniche della catalogazione e classificazione ricerca9web Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2005/2006.
Dipartimento di Ingegneria Idraulica e Ambientale - Universita di Pavia 1 Scritte scritte scritte scritte scritte scritte scritte Scritte scritte Titolo.
MP/RU 1 Dicembre 2011 ALLEGATO TECNICO Evoluzioni organizzative: organico a tendere - ricollocazioni - Orari TSC.
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%%%%%% % Accrescimento della PECORA IN TASMANIA % % dal 1820 ad oggi % % ( MODELLO LOGISTICO ) % %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
Cos’è un problema?.
Gli italiani e il marketing di relazione: promozioni, direct marketing, digital marketing UNA RICERCA QUANTITATIVA SVOLTA DA ASTRA RICERCHE PER ASSOCOMUNICAZIONE.
STILI DI APPRENDIMENTO ED EVOLUZIONE INTERFACCE
CHARGE PUMP Principio di Funzionamento
Settimana: 3-7 marzo Orariolunedimartedi Mercoledi 5 Giovedi 6 Venerdi lezione intro alla fis mod DR lezione intro alla fis mod DR.
2 3 4 RISERVATEZZA INTEGRITA DISPONIBILITA 5 6.
Palermo, may 2010 F.Doumaz, S.Vinci (INGV-CNT- Gruppo di telerilevamento)
Melfi, 1 aprile 2011 – MediaShow 1 Social Network: possibilità di uso consapevole nella didattica Uso, consapevolezza, opportunità, proposte Caterina Policaro.
PASTIS CNRSM, Brindisi – Italy Area Materiali e Processi per lAgroindustria Università degli Studi di Foggia, Italy Istituto di Produzioni e Preparazioni.
Pregare con i Salmi.
Regolarità nella griglia dei numeri
Q UESTIONI ETICHE E BIOETICHE DELLA DIFESA DELLA VITA NELL AGIRE SANITARIO 1 Casa di Cura Villa San Giuseppe Ascoli Piceno 12 e 13 dicembre 2011.
CORSO TECNICO R.C.A. ELABORATO PERITALE
Q UESTIONI ETICHE E BIOETICHE DELLA DIFESA DELLA VITA NELL AGIRE SANITARIO 1 Casa di Cura Villa San Giuseppe Ascoli Piceno 12 e 13 dicembre 2011.
1 Negozi Nuove idee realizzate per. 2 Negozi 3 4.
ISOIVA (LOCALE) TO ISOIVA (WEB) RIPARTIZIONE INFORMATICA UFFICIO APPLICATIVI AMMINISTRATIVI 13/04/2011 UNIVERSITÀ DEGLI STUDI DI FERRARA 1.
ORDINE DI CHIAMATA a 1minuto e 2 minuti PRINCIPALI TEMPI DELLA COMPETIZIONE ORDINE DI CHIAMATA a 1minuto e 2 minuti PRINCIPALI TEMPI DELLA COMPETIZIONE.
Scheda Ente Ente Privato Ente Pubblico. 2ROL - Richieste On Line.
1 Guida per linsegnamento nei corsi per il conseguimento del CERTIFICATO DI IDONEITÀ ALLA GUIDA DEL CICLOMOTORE.
ISTITUTO COMPRENSIVO “G. BATTAGLINI” MARTINA FRANCA (TA)
Bando Arti Sceniche. Per poter procedere è indispensabile aprire il testo del Bando 2ROL - Richieste On Line.
1 Questionario di soddisfazione del servizio scolastico Anno scolastico 2011/2012 Istogramma- risposte famiglie.
Un trucchetto di Moltiplicazione per il calcolo mentale
21 marzo 2002 (ri-)Avvisi: Giovedi 28 marzo la lezione e sospesa. Nuovo indirizzo di Spedire messaggi e esercizi solo.
Tutor: Elisa Turrini Mail:
Project Review Novembrer 17th, Project Review Agenda: Project goals User stories – use cases – scenarios Project plan summary Status as of November.
Esempi risolti mediante immagini (e con excel)
Single knowledge project
-17 Aspettative economiche – Europa Settembre 2013 Indicatore > +20 Indicatore 0 a +20 Indicatore 0 a -20 Indicatore < -20 Unione Europea Totale: +6 Indicatore.
1 Sky 2 Sky 3 Sky L’Universo Aperto La teoria del Big Bang prevede che, se la densità globale dell’universo non raggiunge un valore di Ωo (Omega Zero)
NO WASTE Progetto continuità scuola primaria scuola secondaria Salorno a.s. 2013_
Sistemi di elaborazione dell’informazione Modulo 3 -Protocolli applicativi Unità didattica 4 - Protocolli del Web Ernesto Damiani Lezione 3 – Esempi HTTP.
Mercato del lavoro e condizione giovanile: la crisi si acuisce
1 Acceleratori e Reattori Nucleari Saverio Altieri Dipartimento di Fisica Università degli Studi - Pavia
Customer satisfaction anno 2013 Ospedale di Circolo Fondazione Macchi Varese Presentazione risultati (Febbraio 2014)
DIRETTIVI UNITARI SPI-CGI – FNP-CISL - UILP-UIL TERRITORIO LODIGIANO Lunedì 23 marzo 2015 dalle ore 9,00 alle ore 13,00 Presso la sala Conferenze Confartigianato.
1 Ministero dell’Istruzione, dell’Università e della Ricerca Dipartimento per la Programmazione e la Gestione delle risorse umane, finanziarie e strumentali.
Indagine Congiunturale 2011 Confcooperative Emilia Romagna CONFERENZA STAMPA CONFCOOPERATIVE EMILIA ROMAGNA Bologna, 30 Luglio 2013.
IL GIOCO DEL PORTIERE CASISTICA. Caso n. 1 Il portiere nella seguente azione NON commette infrazioni.
Transcript della presentazione:

Teoria e tecniche della catalogazione e classificazione Sistemi di recupero dellinformazione ricerca4sistemi Prof.ssa Elisa Grignani Università degli studi di Parma aa. 2005/2006

2 Abbiamo visto: Informazione Dati/Informazione/Conoscenza/Sapere Teoria dellinformazione ( C. Shannon) Ciclo di trasferimento dellinformazione

3 Gerarchia dellinformazione Wisdom Knowledge Information Data

4 Teoria dellinformazione Meglio indicata come Teoria della comunicazione La comunicazione oltrepassa tempo e spazio Noise SourceDecodingEncodingDestination Message Channel StorageSource Decoding (Retrieval/Reading) Encoding (writing/indexing) Destination Message

5 Ciclo di trasferimento dellinformazione Creation UtilizationSearching Active Inactive Semi-Active Retention/ Mining Disposition Discard Using Creating Authoring Modifying Organizing Indexing Storing Retrieval Distribution Networking Accessing Filtering

6 Temi principali del corso Creation UtilizationSearching Active Inactive Semi-Active Retention/ Mining Disposition Discard Using Creating Authoring Modifying Organizing Indexing Storing Retrieval Distribution Networking Accessing Filtering

7 Oggi Sistemi di recupero dellinformazione

8 Information Retrieval (IR) Lespressione information retrieval è coniata da C. Mooers nel 1952 Obiettivo dellIR è di recuperare, allinterno di una collezione, tutti e solo i documenti rilevanti per un particolare utente con una particolare richiesta informativa The goal is to search large document collections (millions of documents) to retrieve small subsets relevant to the users information need Rilevanza è un concetto chiave dellIR, su cui torneremo

9 Sistemi IR: prime rappresentazioni fisiche Pinakes – Biblioteca di Alessandria Indici e concordanze della Bibbia (Ugo di San Caro, 1247) Indici dei giornali

10 Sistemi IR: rappresentazioni mentali Mnemotecnica, palazzi della memoria (Simonide di Ceo)

11 Sistemi IR: rappresentazioni bibliografiche Cataloghi di biblioteca Bibliografie

12 Visioni di sistemi IR Paul Otlet (30) Emanuel Goldberg (20 – 40) H.G. Wells, World Brain: the idea of a permanent World Encyclopedia, 1937 (Introduzione al XVIII vol. dellEncyclopedie Francaise) Vannevar Bush, As we may think, Atlantic Monthly, Memex

13 Sistemi IR: storia più recente –Radici nella Information Explosion che segue la II GM –Lespressione Information Retrieval è coniata da C. Mooers nel 1952 –A partire dagli anni 50, interesse verso sistemi IR computer-based H.P. Luhn presso IBM (1958) Modello probabilistico (Maron & Kuhns 1960) Sviluppo del sistema booleano presso Lockheed (60) Modello vettoriale (Salton presso Cornell U. 1965) Metodi di statistical weighting (70 – 80) Interfacce utenti, applicazioni su larga scala (90)

14 Struttura di un sistema IR Search Line Interest profiles & Queries Documents & data Rules of the game = Rules for subject indexing + Thesaurus (which consists of Lead-In Vocabulary and Indexing Language Storage Line Potentially Relevant Documents Comparison/ Matching Store1: Profiles/ Search requests Store2: Document representations Indexing (Descriptive and Subject) Formulating query in terms of descriptors Storage of profiles Storage of Documents Information Storage and Retrieval System Adapted from Soergel, p. 19

15 Struttura di un sistema IR Search Line Interest profiles & Queries Documents & data Rules of the game = Rules for subject indexing + Thesaurus (which consists of Lead-In Vocabulary and Indexing Language Storage Line Potentially Relevant Documents Comparison/ Matching Store1: Profiles/ Search requests Store2: Document representations Indexing (Descriptive and Subject) Formulating query in terms of descriptors Storage of profiles Storage of Documents Information Storage and Retrieval System Adapted from Soergel, p. 19

16 Struttura di un sistema IR Search Line Interest profiles & Queries Documents & data Rules of the game = Rules for subject indexing + Thesaurus (which consists of Lead-In Vocabulary and Indexing Language Storage Line Potentially Relevant Documents Comparison/ Matching Store1: Profiles/ Search requests Store2: Document representations Indexing (Descriptive and Subject) Formulating query in terms of descriptors Storage of profiles Storage of Documents Information Storage and Retrieval System Adapted from Soergel, p. 19

17 Struttura di un sistema IR Search Line Interest profiles & Queries Documents & data Rules of the game = Rules for subject indexing + Thesaurus (which consists of Lead-In Vocabulary and Indexing Language Storage Line Potentially Relevant Documents Comparison/ Matching Store1: Profiles/ Search requests Store2: Document representations Indexing (Descriptive and Subject) Formulating query in terms of descriptors Storage of profiles Storage of Documents Information Storage and Retrieval System Adapted from Soergel, p. 19

18 Struttura di un sistema IR Search Line Interest profiles & Queries Documents & data Rules of the game = Rules for subject indexing + Thesaurus (which consists of Lead-In Vocabulary and Indexing Language Storage Line Potentially Relevant Documents Comparison/ Matching Store1: Profiles/ Search requests Store2: Document representations Indexing (Descriptive and Subject) Formulating query in terms of descriptors Storage of profiles Storage of Documents Information Storage and Retrieval System Adapted from Soergel, p. 19

19 04/07/989 Componenti di un sistema IR UC DATA: Data Archive & Technical Assistance University of California, Berkeley Fredric C. Gey Documents Authoritative Indexing Rules Indexing Process Index Records and Document Surrogates Retrieval Process Retrieval Rules Users Information Need severe information loss Query Specificatio n Process Query List of Documents Relevant to Users Information Need

20 Sistemi IR: struttura (Cooper - Maron, 1985) 1.linsieme delle possibili chiavi di accesso assegnate ai documenti; 2.linsieme delle domande formulabili dagli utenti; 3.linsieme degli indicatori di valore informativo da assegnare ai documenti; 4.una regola di recupero.

21 Sistemi IR - Modello A: registro / inventario / topografico 1.chiavi di accesso: UN SOLO DESCRITTORE PER OGNI DOCUMENTO 2.domande: UN SOLO DESCRITTORE IN OGNI DOMANDA 3.indicatori di valore informativo: 0 (IL DOC. NON HA VALORE INFORMATIVO) / 1 (IL DOC. HA VALORE INFORMATIVO) 4.regola di recupero: AL DOC. VIENE ATTRIBUITO VALORE INFORMATIVO SE IL DESCRITTORE DELLA DOMANDA E UGUALE A QUELLO ASSEGNATO COME CHIAVE DACCESSO

22 Sistemi IR - Modello A: registro / inventario / topografico Esempi: In biblioteca (ma anche altrove): inventario patrimoniale, registro topografico Registro di classe Elenco telefonico ? Modifica / Trova quando usate Word...

23 Sistemi IR - Modello B: catalogo 1.chiavi di accesso: PIU DI UN DESCRITTORE PUO ESSERE ASSEGNATO A OGNI DOCUMENTO COME CHIAVE DACCESSO 2.domande: COME NEL MODELLO A 3.indicatori di valore informativo: COME NEL MODELLO A 4.regola di recupero: AL DOC. VIENE ATTRIBUITO VALORE INFORMATIVO SE IL DESCRITTORE DELLA DOMANDA E UGUALE A UNO DI QUELLI ASSEGNATI COME CHIAVI DACCESSO AL DOC.

24 Sistemi IR – Pre-coordinati I sistemi IR modelli A-B sono pre-coordinati: lindicizzatore per rappresentare il contenuto dei documenti costruisce stringhe di ricerca, che lutente in fase di ricerca deve ripercorrere nello stesso ordine con cui sono state formulate.

25 Sistemi IR - Modello C: booleano limitato alloperatore AND 1.chiavi di accesso: COME NEL MODELLO B 2.domande: OGNI DOMANDA PUO CONTENERE PIU DI UN DESCRITTORE 3.indicatori di valore informativo: COME NEI MODELLI A, B 4.regola di recupero: AL DOC. VIENE ATTRIBUITO VALORE INFORMATIVO SE TUTTI I DESCRITTORI CONTENUTI NELLA DOMANDA SONO UGUALI A QUELLI ASSEGNATI COME CHIAVI DACCESSO AL DOC.

26 Sistemi IR - Modello C: esempi Schede UNITERM (metà anni 40) EXCURSION LUNAR

27 Sistemi IR - Modello C: esempi Schede Peek-a-Boo (1948) Lunar Excursion

28 Sistemi IR - Modello C: esempi Schede edge-notched (Mooers, 1951) Document 1 Title: lksd ksdj sjd sjsjfkl Author: Smith, J. Abstract: lksf uejm jshy ksd jh uyw hhy jha jsyhe Document 200 Title: Xksd Lunar sjd sjsjfkl Author: Jones, R. Abstract: Lunar uejm jshy ksd jh uyw hhy jha jsyhe Document 34 Title: lksd ksdj sjd Lunar Author: Smith, J. Abstract: lksf uejm jshy ksd jh uyw hhy jha jsyhe

29 Sistemi IR - Modello D: booleano 1.chiavi di accesso: COME NEI MODELLI B, C 2.domande: COME NEL MODELLO C; I DESCRITTORI UTILIZZABILI NELLE DOMANDE POSSONO ESSERE ASSOCIATI TRA LORO UTILIZZANDO GLI OPERATORI AND, OR, NOT 3.indicatori di valore informativo: COME NEI MODELLI A, B, C 4.regola di recupero: AL DOC. VIENE ATTRIBUITO VALORE INFORMATIVO SECONDO LA LOGICA COMBINATORIA BOOLEANA

30 Sistemi IR - Modello D: booleano Gatti Gatti OR Cani Gatti AND Cani Gatti NOT Cani Gatti AND Cani OR Pulci Gatti WITH Siamesi

31 Logica Booleana Gatti Cani Pulci

32 AND =

33 OR =

34 AND NOT =

35 Sistemi IR - Modello D: booleano Sul sistema booleano, vedere al sito:

36 Sistemi IR - Modello D: booleano Esempi: In biblioteca: OPAC Database; dominante nei sistemi commerciali prima del WWW

37 Sistemi IR - Modelli E - : vettoriale, statistical weighting, probabilistico... chiavi di accesso: COME NEI MODELLI B, C, D domande: COME NEI MODELLI D, E; E POSSIBILE FILTRARE LE DOMANDE indicatori di valore informativo: GLI INDICATORI DI VALORE INFORMATIVO SONO TUTTI I NUMERI REALI (il documento può avere maggiore o minore valore informativo in funzione di una domanda) regola di recupero:AL DOC. VIENE ATTRIBUITO UN INDICATORE DI VALORE (che ne determina la priorità di recupero) CALCOLATO SECONDO ALGORITMI diversi secondo i diversi sistemi

38 RANKING RESULTS The order in which search results appear. Each search tool uses its own unique algorithm. Most use "fuzzy and" combined with factors such as how often your terms occur in documents, whether they occur together as a phrase, and whether they are in title or how near the top of the text. Popularity is another ranking system.fuzzy andPopularity

39 Sistemi IR - Modelli E - : vettoriale, Statistical Weighting, probabilistico... Esempi: Ricerca Web – Motori e metamotori di ricerca

40 Sistemi IR – Post-coordinati I sistemi IR modelli C-E sono post-coordinati: lutente combina tra loro i diversi pezzi (gettoni) di informazione per descrivere doc. che potrebbero essere considerati rilevanti. I sistemi post-coordinati utilizzano gli inverted file.

41 Inverted File Inverted Files This is the primary data structure for text indexes Basic steps: –Make a dictionary of all the tokens in the collection –For each token, list all the docs it occurs in. –Do a few things to reduce redundancy in the data structure

42 Inverted Indexes An Inverted File is a file inverted so that rows become columns and columns become rows

43 How Are Inverted Files Created Documents are parsed to extract tokens. These are saved with the Document ID. Now is the time for all good men to come to the aid of their country Doc 1 It was a dark and stormy night in the country manor. The time was past midnight Doc 2

44 How Inverted Files are Created After all documents have been parsed the inverted file is sorted alphabetically.

45 How Inverted Files are Created Multiple term entries for a single document are merged. Within-document term frequency information is compiled.

46 How Inverted Files are Created Then the file can be split into –A Dictionary file and –A Postings file

47 How Inverted Files are Created Dictionary Postings

48 Inverted indexes Permit fast search for individual terms For each term, you get a list consisting of: –document ID –frequency of term in doc (optional) –position of term in doc (optional) These lists can be used to solve Boolean queries: country -> d1, d2 manor -> d2 country AND manor -> d2 Also used for statistical ranking algorithms

49 How Inverted Files are Used Dictionary Postings Query on time AND dark 2 docs with time in dictionary -> IDs 1 and 2 from posting file 1 doc with dark in dictionary -> ID 2 from posting file Therefore, only doc 2 satisfied the query.

50 Prossimamente IR: concetti di base Processo di ricerca e recupero dellinformazione Dalla prossima settimana vedremo alcuni esempi di sistemi IR modelli D, E