La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

La ricerca dell'informazione nel Web: Indici e motori

Presentazioni simili


Presentazione sul tema: "La ricerca dell'informazione nel Web: Indici e motori"— Transcript della presentazione:

1 La ricerca dell'informazione nel Web: Indici e motori
Dalla Biblioteca alla Rete La ricerca dell’informazione nel Web: indici e motori Evelina Ceccato 8 aprile 2003 Evelina Ceccato - dicembre 2002

2 La ricerca dell'informazione nel Web: Indici e motori
Parleremo di … Strumenti per la ricerca dell’informazione nel Web-space: quali sono e come funzionano Indici Motori Meta-motori Evelina Ceccato - dicembre 2002

3 Al termine della lezione dovreste saper…
La ricerca dell'informazione nel Web: Indici e motori Al termine della lezione dovreste saper… Individuare lo strumento più utile per una determinata ricerca d’informazioni nel Web-space Utilizzare indici e motori in modalità semplice ed avanzata Ricercare nel Web invisibile Evelina Ceccato - dicembre 2002

4 Una precisazione necessaria: Internet non è il Web
La ricerca dell'informazione nel Web: Indici e motori Una precisazione necessaria: Internet non è il Web Evelina Ceccato - dicembre 2002

5 La ricerca dell'informazione nel Web: Indici e motori
Prima d’iniziare una qualsiasi ricerca d’informazioni nel Web, è utile rammentare che: il Web è un self-publishing medium che consente, a chiunque possieda un computer collegato alla Rete, di diffondere informazione a costo zero; l’informazione è immediatamente accessibile e può essere aggiornata in tempo reale; non ci sono regole per la pubblicazione sul Web; non ci sono filtri; chiunque può accedere all’informazione disponibile gratuitamente su Internet ed infine … Evelina Ceccato - dicembre 2002

6 è indispensabile rammentare che…
La ricerca dell'informazione nel Web: Indici e motori è indispensabile rammentare che… non è difficile recuperare informazione nel Web, è difficile reperire l'informazione che ci serve in quel preciso momento, è difficile individuare l'informazione "giusta". Evelina Ceccato - dicembre 2002

7 La ricerca dell'informazione nel Web: Indici e motori
Per facilitare la ricerca d’informazioni nel Web, esistono degli strumenti che, per comodità e per convenzione, sono raggruppati in due tipologie: gli indici sistematici alias indici di ricerca per categorie, per soggetti o per argomenti, indici ragionati, subject directories, subject gateways, etc. i motori di ricerca alias indici di ricerca per termini o per parole, search engine, robot, spider, etc. Evelina Ceccato - dicembre 2002

8 Indici e motori presuppongono un diverso approccio alla ricerca
ricerca per argomento ricerca nei titoli e, a volte, negli abstract e/o recensioni delle pagine indicizzate Motori ricerca per parola ricerca nel testo completo delle pagine indicizzate (full-text)

9 La ricerca dell'informazione nel Web: Indici e motori
Indici sistematici Gli indici sistematici sono siti Web che selezionano gli altri siti e li organizzano all’interno di un sistema di classificazione gerarchica allo scopo di facilitare il recupero dell’informazione da parte del ricercatore. Evelina Ceccato - dicembre 2002

10 Si può interrogare un indice:
La ricerca dell'informazione nel Web: Indici e motori Si può interrogare un indice: navigando da una categoria all’altra fino a giungere al “soggetto” cercato ricercando per parole Evelina Ceccato - dicembre 2002

11 Colleghiamoci ad un indice
La ricerca dell'informazione nel Web: Indici e motori Colleghiamoci ad un indice Yahoo! Evelina Ceccato - dicembre 2002

12 Ed ora vediamo la versione italiana
La ricerca dell'informazione nel Web: Indici e motori Ed ora vediamo la versione italiana Yahoo! Italia È necessario precisare che la versione italiana non costituisce la traduzione integrale della versione anglosassone, ma raccoglie semplicemente le risorse in lingua italiana. È utile quindi quando si tratta di ricerche volte ad individuare risorse, in lingua italiana, su argomenti "nazionali", anche se è comunque opportuno lanciare la stessa ricerca anche sulla versione anglosassone dell'indice. Evelina Ceccato - dicembre 2002

13 La ricerca dell'informazione nel Web: Indici e motori
Diversi tipi di indici Generali (Yahoo!) Generali, curati da bibliotecari universitari (Infomine o di biblioteche pubbliche (Librarians’ Index to the Internet etc. Specializzati in un determinato settore (SOSIG Con recensioni e valutazioni (The Argus Clearinghouse Organizzati per classi biblioteconomiche (BUBL Evelina Ceccato - dicembre 2002

14 È utile interrogare un indice quando:
La ricerca dell'informazione nel Web: Indici e motori È utile interrogare un indice quando: si cercano informazioni su un argomento che non si conosce bene e del quale non si padroneggia la terminologia si desidera “esplorare” un argomento generale o si cercano informazioni di ogni tipo su un argomento si vuole sapere quali sono le risorse dedicate ad un certo settore disciplinare si cerca un database specializzato (invisible Web) Evelina Ceccato - dicembre 2002

15 Alcuni esempi BUBL LINK / 5:15 http://bubl.ac.uk/link/
The WWW Virtual Library Infomine

16 Caratteristiche degli indici
La ricerca dell'informazione nel Web: Indici e motori Caratteristiche degli indici Le risorse sono: Selezionate da persone (+ o - esperte): pro e contro del “filtro umano” Spesso valutate e aggiornate, ma non sempre Spesso organizzate in categorie ordinate gerarchicamente Archivio relativamente piccolo (no full-text) Una stessa voce, una stessa pagina, in più punti dello schema (ipertestualità) Presentazione dei risultati semplice elenco descrizione e valutazione delle risorse Evelina Ceccato - dicembre 2002

17 La ricerca dell'informazione nel Web: Indici e motori
I motori di ricerca Sono strumenti che raccolgono automaticamente, grazie ad appositi programmi, centinaia di milioni di pagine web ed offrono la possibilità di ricercare all’interno dei loro archivi (daabase) nei quali, talvolta, sono conservati anche i messaggi dei newsgroup. Evelina Ceccato - dicembre 2002

18 Il funzionamento dei motori
La ricerca dell'informazione nel Web: Indici e motori Il funzionamento dei motori Il funzionamento di un motore può essere schematizzato in 4 fasi: acquisizione delle pagine indicizzazione dei documenti interrogazione presentazione dei risultati Evelina Ceccato - dicembre 2002

19 La ricerca dell'informazione nel Web: Indici e motori
Più in dettaglio… acquisizione delle pagine: gli spiders seguono i link delle pagine già presenti nel database ed archiviano le nuove pagine recuperate indicizzazione delle pagine: avviene in modo automatico e si basa, generalmente, sul full-text, sui campi delle pagine HTML e sui metatag. I metatag sono delle informazioni che vengono inserite, dall’autore, nell’intestazione (HEAD) delle pagine Web e sono relative, per esempio, all'autore o al contenuto della pagina, oppure indicano una serie di parole chiave associate al documento [AUTHOR GENERATOR ROBOT TITLE DESCRIPTION KEYWORD sono i metatag più comuni] interrogazione: da parte dell’utente presentazione dei risultati: in base a tecniche statistiche Evelina Ceccato - dicembre 2002

20 Possibilità di ricerca offerte dai motori
Ricerca semplice e/o avanzata Ricerca per parola, frase, stringa Possibilità di limitare la ricerca per: tipo di documento (testo, immagine, MP3, video, etc.) lingua del documento formato del documento (HTML, PDF, Word, etc.) data campo dominio ricerca di link ad una determinata URL ricerca di pagine simili

21 Proviamo ad interrogare un motore:
La ricerca dell'informazione nel Web: Indici e motori Proviamo ad interrogare un motore: AltaVista Evelina Ceccato - dicembre 2002

22 AltaVista riepilogo funzionalità
3 maschere di ricerca: semplice, maggior precisione (ALL/AND, frase, ANY/OR, NOT), avanzata ricerca Web, immagini, MP3, video, directory ricerca semplice e maggior precisione ricerca limitata a tutto il mondo/Italia e lingua ricerca avanzata: maggior precisione + booleani (sintassi all’URL: + ranking limiti per: data tipo di file (HTML, PDF) dominio solo all’interno di un sito comprimi sito: max 2 risultati per sito

23 Ed ora vediamone un altro
La ricerca dell'informazione nel Web: Indici e motori Ed ora vediamone un altro Google Evelina Ceccato - dicembre 2002

24 Google riepilogo funzionalità
2 maschere di ricerca: semplice, avanzata ricerca Web, immagini, gruppi (newsgroup), directory ricerca semplice ricerca limitata a Web/Italia opzione Mi sento fortunato! ricerca avanzata: ALL/AND, frase, ANY/OR, NOT limiti per: lingua tipo di file (HTML, PDF, post-script, Word, Excell, PowerPoint, RTF) data campo dominio cerca pagine simili cerca i link ad una pagina

25 Presentazione dei risultati
La ricerca dell'informazione nel Web: Indici e motori Presentazione dei risultati I risultati di una ricerca vengono spesso ordinati IN BASE ALLA RILEVANZA RELEVANCE RANKING ALGORITMO si vedano in appendice i criteri adottati per il relevance ranking Evelina Ceccato - dicembre 2002

26 Risultati diversi per motori diversi
AltaVista Google

27 È utile interrogare un motore quando
La ricerca dell'informazione nel Web: Indici e motori È utile interrogare un motore quando si desidera la risposta ad una domanda precisa si cercano informazioni su un argomento circoscritto, insolito, misconosciuto si possono utilizzare termini di ricerca non comuni, specifici si cercano nomi propri Evelina Ceccato - dicembre 2002

28 Statistiche e classifiche

29 La ricerca dell'informazione nel Web: Indici e motori
Meta-motori Consentono d’interrogare, spesso simultaneamente, diversi motori ed indici sistematici. I meta-motori non hanno un proprio archivio di pagine Web, ma utilizzano quelli dei singoli motori. Ci sono tantissimi meta-motori, ma quelli utili hanno le seguenti funzionalità: accettano ricerche complesse schiacciano i risultati eliminando le ripetizioni presentano i risultati in base a tecniche di ranking oppure li raggruppano per soggetto/argomento (clustering) Evelina Ceccato - dicembre 2002

30 Vivísimo http://www.vivisimo.com/
La ricerca dell'informazione nel Web: Indici e motori Vivísimo Organizza, automaticamente, i risultati dell'interrogazione simultanea di diversi motori e indici sistematici in base alle URL, ai titoli ed alle brevi descrizioni delle risorse Internet. In pratica, Vivísimo funziona in questo modo: interroga uno o più motori o indici analizza i risultati e li raggruppa,automaticamente, in base alle URL, ai titoli ed alle descrizioni presenta i risultati in cartelle simili a quelle di Windows Funziona solamente su documenti testuali. Vivísimo offre due possibilità di ricerca: semplice ed avanzata. Ricerca semplice: Ricerca automatica in AND supporta OR, le virgolette “” per le frasi e - per il NOT Ricerca avanzata: Ricerca per campo Uso dei booleani e delle parentesi Varie possibilità di limitare la ricerca e di visualizzare i risultati Evelina Ceccato - dicembre 2002

31 Copernic http://www.copernic.com/
Si tratta di un software da scaricare ed installare. Offre una versione gratuita, Copernic Agent Basic, che interroga circa 90 risorse, tra motori ed indici sistematici, raggruppati in 10 categorie. Le versioni a pagamento, Copernic Agent Personal e Copernic Agent Professional, raggruppano le circa 1000 risorse interrogabili in 120 categorie. Funzioni della versione Basic: interroga simultaneamente i motori di ricerca supporta la ricerca per ALL, ANY e per frase elimina i risultati doppi ed i collegamenti non attivi i risultati sono disponibili in 3 formati: standard, compatto, dettagliato i risultati possono essere ordinati in diversi modi (per punteggio, per titolo, per data, per motore, etc.) i risultati possono essere filtrati per STATUS (pagine già viste, nuove, etc.), per locazione geografica, per dominio si può raffinare la ricerca all’interno dei risultati

32 Ixquick http://ixquick.com/
Ricerca documenti testuali, immagini, MP3, news; interroga simultaneamente i motori di ricerca; traduce semplici stringhe di ricerca nella sintassi utilizzata dai singoli motori; supporta i booleani e la ricerca per frasi; elimina i duplicati; assegna una stella ad un sito per ogni motore di ricerca che lo ha classificato nelle prime dieci posizioni; dà priorità ai siti che compaiono tra i primi dieci risultati di ogni motore.

33 Dove i motori non cercano:
IL WEB INVISIBILE Invisible Web o Deep Web

34 Cos’è il Web invisibile?
Contenuti di database interrogabili via Web I risultati delle interrogazioni sono pagine Web generate dinamicamente e non archiviate in nessun luogo Esempio: i cataloghi in linea delle biblioteche (OPAC) Pagine escluse dall’indicizzazione dei motori I motori possono scegliere di non includere pagine non scritte in linguaggio HTML oppure pagine costituite interamente da immagini Esempio: documenti scritti in PDF o in Word

35 Come ricercare nel Web invisibile?
The Invisible Web Catalog Collezione di oltre database interrogabili Complete Planet Collezione mista di database interrogabili, pagine Web con maschera di ricerca e pagine Web statiche

36 Combinare il/i termini ricercati con la parola database
E ancora … Google oppure Yahoo!* Combinare il/i termini ricercati con la parola database *Yahoo! Utilizza il termine database per descrivere gli archivi interrogabili recensiti

37 e se volete ancora un aiuto … eccovi un ottimo tutorial
Ed ora … BUONA RICERCA e se volete ancora un aiuto … eccovi un ottimo tutorial Search strategies

38 The End

39 Appendici

40 Criteri per il relevance ranking
La ricerca dell'informazione nel Web: Indici e motori Criteri per il relevance ranking Frequenza numero di occorrenze dei termini utilizzati per la ricerca all'interno della singola pagina recuperata. Densità rapporto fra il numero di occorrenze dei termini all'interno della pagina e il totale delle parole contenute nella pagina. Rarità rapporto inverso fra il numero di occorrenze dei termini utilizzati per la ricerca all'interno del database del motore e il totale delle parole contenute nel database stesso. Alcuni motori dispongono anche di una lista di stopwords che vengono ignorate. Compresenza presenza, nella pagina, di più d'uno dei termini richiesti o addirittura di tutti. Prossimità presenza, nella pagina, di più d'uno dei termini richiesti - o addirittura di tutti - nella medesima frase o comunque vicini fra loro. Evelina Ceccato - dicembre 2002

41 Criteri per il relevance ranking 2
La ricerca dell'informazione nel Web: Indici e motori Criteri per il relevance ranking 2 Priorità ordine in cui sono stati immessi i termini nel form di ricerca. Posizione presenza dei termini in particolari zone della pagina […] Aggiornamento a parità di requisiti, alcuni motori privilegiano le pagine più recenti Popolarità numero dei link "in entrata" provenienti da altre pagine contenute nel database del motore e numero delle selezioni della pagina effettuate dagli utenti a partire dalle schermate di risposta del motore. […] Tariffazione Altavista ha recentemente annunciato che sarà possibile, pagando, garantire una posizione di rilievo alle proprie pagine nella schermata di risposta. Fonte: Ridi, Riccardo Strumenti e strategie per la ricerca di informazioni WWW Versione 2.1 ( ) Evelina Ceccato - dicembre 2002

42 Riepilogo dei criteri per il relevance ranking
La ricerca dell'informazione nel Web: Indici e motori Frequenza: numero di occorrenze Densità: numero di occorrenze / parole totali del documento Rarità: 1 / (numero di occorrenze nella base dati / parole totali della base dati) Compresenza (default solitamente OR) Prossimità: parole vicine fra loro nel documento Posizione: parole nei titoli di sezioni (<H>), nei link (<A HREF>), nelle intestazioni (<HEAD>) e in particolare nel titolo (<TITLE>) o in altri metatag come "keyword" e "description" Aggiornamento: documenti più recenti Popolarità Sponsorizzazione Analisi di citazione (Google, progetto Clever): utilizzo di un algoritmo che considera il numero di link al documento, distinguendo fra repertori (hub) e fonti primarie (authority), con risultati brillanti Somiglianza delle parole con quelle di documenti già rintracciati Fonte: Gnoli, Claudio Cercare informazioni in Internet: strumenti e strategie Versione 2.2 ( ) Evelina Ceccato - dicembre 2002

43 Indici e motori a confronto
Indici semantici Ricerca per argomento Basso richiamo / Alta precisione Selezione “umana” delle risorse Archivio piccolo Ricerca nei titoli e, a volte, negli abstract e/o recensioni Risultati in ordine alfabetico Motori Ricerca per parola Alto richiamo / Bassa precisione Raccolta automatica delle risorse Archivio enorme Ricerca full-text Risultati ordinati in base ad un “relevancy ranking algorithm”

44 Se volete saperne di più… in linea
La ricerca dell'informazione nel Web: Indici e motori Se volete saperne di più… in linea AltaVista Education <http://www.altavista.wwmind.com/education2/index.php3> Bergman, Michael K., The deep Web: surfacing hidden value, <http://www.brightplanet.com/deepcontent/Tutorials/DeepWeb> Finding It Online: Web Search Strategies <http://home.sprintmail.com/~debflanagan/main.html> Guida completa ai motori di ricerca <http://www.motoridiricerca.it/index.htm> Guide per la ricerca in Internet a cura di Maria Teresa Pesenti <http://www.aib.it/aib/lis/motori.htm> The Major Search Engines <http://searchenginewatch.com/facts/major.html> Les moteurs de recherche : fonctions et langages d'interrogation <http://pages.infinit.net/duvalm/dossiers/moteurs_de_recherche.html> Evelina Ceccato - dicembre 2002

45 Se volete saperne di più… a stampa
La ricerca dell'informazione nel Web: Indici e motori Se volete saperne di più… a stampa BASILI, Carla [1995] La ricerca "per soggetto" dell'informazione in Internet, "Biblioteche oggi", XIII, 6, p GRIFONI, Giovanna [1997] Come orientarsi tra i motori di ricerca. Una panoramica sugli strumenti di recupero delle informazioni in Internet, “Biblioteche oggi”, XV, 5, pp , oppure <http://www.burioni.it/forum/grif-mot.htm>. KROL, Ed [1994] Internet, Milano, Jackson libri (Tit. orig.: The whole Internet. User’s guide & catalog, 2 ed., Sebastopol (Cal.), O’Reilly, 1994). LESK, Michael [1997] Biblioteche digitali, “Le Scienze”, 350 (ottobre), pp LYNCH, Clifford [1997] La ricerca su Internet, “Le Scienze”, 350 (ottobre), pp RIDI, Riccardo [1996] Internet in biblioteca, Milano, Bibliografica (Bibliografia e biblioteconomia ; 51). SALARELLI, Alberto [1997] WWW, Roma, AIB (Enciclopedia tascabile ; 11). Evelina Ceccato - dicembre 2002

46 The End


Scaricare ppt "La ricerca dell'informazione nel Web: Indici e motori"

Presentazioni simili


Annunci Google