Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoBeatrice Longo Modificato 8 anni fa
1
Edizione 2015-16 Risorse di Rete e Web 2.0 per il lavoro Sociale Corso di Studio in Servizio Sociale A.A. 2015-2016 6.La ricerca sul Web Antonio Capodieci
2
Queste slides… 2 Queste slides fanno parte del corso “Risore di Rete per il Web 2.0”. Il presente materiale è pubblicato con licenza Creative Commons “Attribuzione - Non commerciale - Condividi allo stesso modo - 2.5 Italia”: NOTA: Al materiale hanno contribuito in molti, studenti, amici e la rete. Ove possibile ne ho indicato la fonte; segnalatemi eventuali dimenticanze, sarò lieto di correggerle appena possibile. Molte slide sono tratte dal materiale didattico del Prof. Roberto Polillo dell’Università Milano Bicocca, pubblicato secondo analoga licenza.
3
Una visualizzazione [di una parte] del web La immagine mostra una porzione di Internet costituita da 535.000 nodi e più di 600.000 links WALRUS Visualization tool, 2001 http://www.caida.org/tools/visualization/walrus/http://www.caida.org/tools/visualization/walrus/ 3
4
4 Una visualizzazione [di una parte] del web
5
5
6
Come trovare l'informazione in rete Directories Indici strutturati di argomenti (gestiti da una redazione) Wikipedia Enciclopedia collaborativa Motori di ricerca Query Risultati Motori semantici www.wolframalpha.com, … www.wolframalpha.com Sistemi di Q&A sociale Yahoo! Answer, … Esplorazione Browsing, serendipity 6
7
Web directories 7 Storicamente, il primo strumento di ausilio alle ricerche nel Web Classificazione gerarchica dei siti (e non delle pagine) in categorie e sottocategorie, a più livelli, effettuata "a mano" -> varie "tassonomie" Directories “generaliste” e directories verticali o di nicchia, anche prodotte in modo collaborativo http://en.wikipedia.org/wiki/Web_directory http://en.wikipedia.org/wiki/Web_directory
8
Tassonomia 8 Emporio celeste dei riconoscimenti benevoli (Enciclopedia cinese, J.L.Borges, 1973) Gli animali si dividono in: a)Appartenenti all’imperatore b)Imbalsamati c)Ammaestrati d)Lattonzoli e)Sirene f)Favolosi g)Cani randagi h)Inclusi in questa classificazione i)Che si agitano come pazzi j)Innumerevoli k)Disegnati con un pennello finissimo di peli di cammello l)Eccetera m)Che hanno ritto il vaso n)Che da lontano sembrano mosche. Raggruppamento di oggetti in classi, secondo qualche criterio taxis=ordine nomos=regola Ogni tassonomia è arbitraria, e dipende dagli obiettivi
9
Yahoo! (http://dir.yahoo.com)http://dir.yahoo.com 9 -Nasce come “La guida al WWW di Jerry e David”, nel 1994 -Qui la home del 1996, da www.archive.org http://en.wikipedia.org/wiki/Int ernet_Archive www.archive.org http://en.wikipedia.org/wiki/Int ernet_Archive
10
The Open Directory Project (ODP) 10 Nota anche come DMOZ (Directory Mozilla http://www.dmoz.org/http://www.dmoz.org/ Directory gratuita, aperta e multilingua Fondata nel 1998, poi acquisita da Netscape (1998), poi AOL, e manutenuta da una comunità di editor volontari http://en.wikipedia.org/wiki/Open_Directory_Projecthttp://en.wikipedia.org/wiki/Open_Directory_Project
11
Domoz vs Yahoo! 11 DmozYahoo!
12
Wikipedia come strumento di ricerca 12 Wikipedia è un formidabile strumento di ricerca e accesso al web Ogni voce di Wikipedia è corredata da numerosi link interni ed esterni, che spesso permettono di raggiungere i siti più significativi correlati all’argomento esaminato Inoltre Wikipedia contiene numerosi indici e directories, fra cui anche veri e propri portali tematici (http://en.wikipedia.org/wiki/Portal:Contents/Portals)http://en.wikipedia.org/wiki/Portal:Contents/Portals
13
Motori di ricerca per il Web Componente software (utilizzabile come servizio online) progettato per ricercare informazioni sul World Wide Web Le informazioni (di solito nella forma di link) sono presentate in una serie di Search Engine Results Page (SERP) La qualità di un motore si valuta sulla base della pertinenza e rilevanza dei risultati 13
14
Motori di ricerca Una storia complessa, iniziata negli anni '90. Oggi, i primi: Google - Dal 1998 Baidu - dal 2000, cinese Yahoo ! - Con motori esterni ( dal 2009 "Powered by Bing") Bing - Dal 2009 (prima: MSN Search, Windows Live Search, Live Search) 14
15
Search engine market share 15 Fonte: http://www.netmarketshare.comhttp://www.netmarketshare.com Dic 2013, solo desktop
16
Motori di ricerca: struttura 16 Interfaccia Query processing Ranking dei risultati Query Risultati (SERP) Front-end process Indici + cached pages Crawler IndicizzatoreCrawler Richieste Pagine web WWW Back-end process
17
Motori di ricerca: struttura 17 Ogni motore di ricerca è composto da cinque componenti fondamentali: crawler, indice, interfaccia, query processor e il sistema di ranking Il crawler è un software specializzato che naviga la rete e porta le pagine nell'indice. Il crawler tiene anche nota dei link che trova e li usa per raggiungere via via nuove pagine con nuovi link... L'indice è un enorme database dove le pagine vengono memorizzate con tutti i metadati e dove tutte le parole vengono “invertite” creando indici/chiavi per ognuna di esse L'interfaccia interpreta la richiesta dell'utente, tenta di interpretarla e passa la richiesta al query processor che agisce sull'indice Il sistema di ranking ordina i risultati della query in funzione della loro "rilevanza" (eventualmente filtrando risultati non pertinenti)
18
Web crawling I crawler (robot, spider, bot) sono programmi che navigano il Web, esaminando le diverse pagine e seguendo i link in esse presenti Seguono opportune politiche di navigazione (per es. per decidere quando riesaminare una pagina già vista) L'interazione con i Web server segue specifici protocolli (per es. robot exclusion protocol, o robot.txt) Non tutto il Web è accessibile ai crawler 18
19
robots.txt: esempio www.domain.com 19 / robots.txt utenti foto about User-agent: Google Disallow /utenti/foto Allow: * Crawl-delay: 20 sec
20
Deep vs surface Web Non tutto il Web è accessibile ai motori di ricerca Il Web invisibile ("deep Web") è parecchi ordini di grandezza più vasto del Web visibile ("surface Web") Deep Web, esempi: Pagine "vietate" dai Web server (robots.txt) Pagine generate dinamicamente a fronte di query o di input forniti attraverso form Pagine senza link entranti Pagine accessibili tramite registrazione e login Ecc. 20
21
Tipi di query Informativa Obiettivo: trovare un'informazione Navigazionale Obiettivo: trovare una pagina web, che conosco già Risorsa Obiettivo: trovare una risorsa (non informativa) disponibile sul web Il risultato è di solito (ma non sempre!) una lista di link a pagine web Evoluzione: dal contenitore (anche) al contenuto 21
22
Uso dei motori di ricerca Web e banche dati sono i campi in cui i motori di ricerca sono più usati Google - che indicizza oltre 9 miliardi di pagine - è il motore di ricerca più usato al mondo 22
23
Funzionamento dei motori di ricerca In risposta alla richiesta dell’utente, i motori di ricerca elencano i siti recuperati in ordine di rilevanza rispetto alla domanda posta Per stabilire tale rilevanza, ogni motore di ricerca classifica allinterno del proprio indice le pagine trovate usando i propri algoritmi 23
24
Google PageRank Algoritmo sviluppato da S.Brin e Larry Page nella loro tesi di PhD a Stanford (progetto BackRub, 1995-96), brevettato a nome della Stanford University L'idea: la "importanza" di una pagina Web è tanto maggiore quante più sono le pagine Web (a loro volta "importanti") che la linkano In sostanza, è il meccanismo con cui vengono valutati i paper accademici S.Brin, L.Page, “The anatomy of a large-scale hypertextual Web search engine” 1998: Brin e Page fondano Google Inc R.Polillo - Marzo 2014 24
25
Pesi e misure: PageRank PageRank assegna un peso a ogni elemento della pagina e la classifica in base al contenuto della pagina (occorrenza dei termini cercati) al numero di link che puntano alla pagina al contenuto delle pagine che linkano alla pagina Linkando le proprie pagine a un’altra pagina, gli utenti influenzano (nel bene e nel male) la sua valutazione da parte di Google 25
26
PageRank: esempio 26 R.Polillo - Marzo 2014 7 1 1 6 1 1
27
PageRank: esempio 27 http://en.wikipedia.org/wiki/PageRank R.Polillo - Marzo 2014 Per la spiegazione dell'algoritmo: http://www.cs.cornell.edu/home/kleinber/networks-book/networks-book-ch14.pdfhttp://www.cs.cornell.edu/home/kleinber/networks-book/networks-book-ch14.pdf
28
L’algoritmo: altri criteri Google utilizza oltre 200 criteri per il ranking delle pagine I criteri sono segreti e in continua evoluzione Esempi: Parole chiave nella pagina (titolo, header, testo …) Età del sito Qualità dei contenuti Ranking fra i siti di analogo argomento Numero di accessi via URL della pagina Numero di accessi da parte di chi cerca Tempo speso sulla pagina dagli utenti …. R.Polillo - Marzo 2014 28
29
Limiti dei motori di ricerca I motori di ricerca… setacciano periodicamente il web rintracciando le pagine grazie ai loro contenuti aggiornano i propri indici fotografando la realtà documentaria in un dato momento possono non trovare tutti i risultati utili classificano le pagine web con criteri in gran parte non noti algoritmi proprietari, base di ricerca non dichiarata non hanno un effettivo controllo sulla qualità dei documenti trovati 29
30
Prossimità dei termini cercati Google attribuisce un valore positivo alla vicinanza dei termini cercati all'interno della pagina Le pagine in cui le parole cercate sono adiacenti sono mostrate per prime nell’elenco dei risultati Perché? Il presupposto di Google è che più i termini cercati dall’utente sono vicini all’interno di una pagina, più la pagina è di suo interesse 30
31
Google Suggest e Web history Via via che si digita nella casella di ricerca, la funzione di autocompletamento (Google Suggest) mostra ricerche simili effettuate dagli utenti Se si è collegati con il proprio account Google i primi suggerimenti si baseranno su proprie ricerche effettuate in passato Le ricerche fatte con l’account Google sono mantenute nella Cronologia Web (Web history) e da qui possono essere eseguite nuovamente I suggerimenti possono essere disattivati sospendendo o rimuovendo la Cronologia Web e uscendo dall’account Google Informazioni sulla Cronologia Web http://support.google.com/accounts/bin/topic.py?hl=it&topic=14148 31
32
La ricerca sul web Google cerca esattamente e soltanto le parole digitate nel campo di ricerca: ignora le Stop Words, cioè i termini che servono a legare più parole chiave (quel, il, the, that, why..) il singolare è diverso dal plurale non c’è distinzione tra lettere minuscole e maiuscole non può cercare parole tronche 32
33
Caratteri per la ricerca - 1 Asterisco (*): sostituisce una o più parole intere fra due termini (Presidente * Italiana), come anche ogni termine ignoto (Presidente *) L’asterisco riempie uno spazio vuoto Da usare solo con parole intere, non con parole troncate Meno (-): da inserire prima di un termine che non si vuol cercare. Va preceduto, ma non seguito da spazio. Per trovare pagine sulle protesi escludendo le pagine sulla Repubblica Italiana : Repubblica - Italiana 33
34
Caratteri per la ricerca - 2 Per trovare solo una frase esatta è utile inserire le parole fra virgolette “Assistenti Sociali” “Pubblica Amministrazione” Le virgolette servono anche per trovare i termini ignorati da Google, le cosiddette stopword: the, of, or... del, di, in, la... protesi “di ginocchio” Disagio “dei giovani” “Disagio “dei giovani ” 34
35
Operatori per la ricerca Usando il booleano OR (in MAIUSCOLO) si trovano le pagine in cui è presente sia il termine A sia il termine B, o anche uno solo di essi In alternativa, si possono separare le parole col simbolo | Disagio OR disturbo Sociale | sociali Il booleano AND non va digitato: Google lo usa automaticamente 35
36
Cercare specifici documenti - 1 Filetype: per stabilire il tipo di file da recuperare evidence based medicine filetype:pdf Site: per restringere la ricerca a un sito o a un dominio Assisenti sociali site:www.comune.brindisi.it guidelines site:.gov (con o senza punto prima del dominio) Link: per visualizzare le pagine che linkano a un sito link:pubmed central Define: per ottenere la definizione di un termine Define:social science 36
37
Cercare specifici documenti - 2 Stands for: per sciogliere sigle e acronimi IBM stands for Related: per trovare siti simili o collegati a quello indicato related:http://www.unisalento.it 37
38
Cercare specifici documenti - 3 Allintext: per trovare pagine che hanno nel testo tutti i termini indicati Allintext: assistenti sociali Allintitle: per trovare pagine che hanno nel titolo tutti i termini indicati allintitle:allergic contact dermatitis Allinurl: per trovare pagine che hanno nell’URL tutti i termini indicati allinurl: disagio giovanile 38
39
Operatori di calcolo x + y addizione x – y sottrazione x / y divisione (es. 10 / 2) x * y moltiplicazione (es. 2 * 4) x% of y percentuale (es. 25% of 10) x % y resto della divisione (es. 5 % 2) x^y elevamento a potenze (es. 2^4) 39
40
Ricerca avanzata Link: per visualizzare le pagine collegate (link) ad un preciso URL (es.:link:www.unimi.it) 40
41
Ricerca avanzata: 1. Contenuti I campi di ricerca sono combinati con booleani preimpostati per trovare le pagine che… contengono tutte le parole inserite oppure contengono una parola o una frase esatta oppure contengono una qualunque delle parole inserite oppure non contengono una o più parole Sono indicate le modalità per impostare le diverse ricerche direttamente nella stringa di ricerca del motore 41
42
Ricerca avanzata: 2. Limiti Una volta definita, la ricerca può essere circoscritta a determinate pagine in base a... lingua area geografica ultimo aggiornamento sito o dominio posizione delle parole formato delle pagine diritti di utilizzo (licenza d’uso) 42
43
I campi della ricerca avanzata 43
44
Da ricordare La ricerca in Google non fa distinzione fra termini di ricerca scritti in maiuscolo o in minuscolo La posizione dei termini all’interno delle pagine ne influenza il ranking Google privilegia i siti descritti con keyword chiare, precise e facilmente intuibili dagli utenti 44
45
Google libri 45 http://books.google.it Consultazione gratuita di parti di volumi (anche protetti da copyright) Frontespizio, indice Descrizione del contenuto, capitoli saggio L’intera opera (se non soggetta a copyright) Indice Informazioni sugli autori Recensioni sul web
46
Ricerca libri avanzata 46
47
La letteratura accademica 47 Google propone come primo risultato una selezione di Articoli accademici
48
Google Scholar http://scholar.google.it/ Nato nel 2004 per la ricerca della letteratura accademica, sia online sia conservata in specifiche biblioteche documenti pubblicati o in corso di stampa libri tesi atti di congressi articoli abstract report tecnici 48
49
Google scholar: copertura disciplinare e fonti Scienze di base: chimica, fisica, biologia Umane: arte, letteratura Scienze applicate: medicina, economia … Editori Agenzie governative Società scientifiche e ordini professionali Repository universitari e istituzionali 49
50
Impostare le preferenze: importazione dei risultati 50
51
Impostare le preferenze: link alle biblioteche 51
52
La ricerca libera 52 La frase pain relief è stata chiusa tra virgolette per escludere la ricerca delle due singole parole. La parola osteoarthritis è preceduta dalla tilde per includere anche i sinonimi
53
La ricerca avanzata La parte superiore del modulo di ricerca avanzata permette di ricercare i termini sia nel titolo dell’articolo che nel corpo dello stesso La parte inferiore dà la possibilità di parametrare la ricerca per autore, data, rivista La ricerca per pubblicazione è un’opzione che andrebbe utilizzata solo quando si è certi che un determinato articolo sia pubblicato su una determinata rivista. Ciò infatti potrebbe condizionare la completezza dei risultati perché Google raccoglie le informazioni da un insieme di fonti molto diverse. Anche la ricerca per data potrebbe non essere completa a causa delle possibili lacune nella indicizzazione bibliografica. 53
54
I link di Google Scholar 54 1.Titolo (con le parole cercate in neretto) 2.Autore 3.Fonte 4.Documenti che citano il riferimento in questione 5.Altri documenti di interesse collegato 6.Elenca le versioni del documento presenti su web 7.Segnala la presenza del documento in biblioteche specializzate 8.Accesso al FT in rete di ateneo 1 23 4 5 6 7 8
55
Le citazioni e gli indici bibliometrici L’analisi citazionale è una delle funzioni più caratteristiche di Scholar L’ordine col quale restituisce i risultati si basa sul numero e sulla qualità delle citazioni che i singoli articoli hanno ricevuto Scholar non calcola automaticamente l’H index, ma sono alcuni software a farlo, partendo dai dati recuperati da Scholar Il più conosciuto e aggiornato è Publish or Perish; è gratuito e deve essere installato sul proprio pc: http://www.harzing.com/pop.htm 55
56
Google Trends http://www.google.com/trends Applicazione che fornisce i dati relativi alle ricerche eseguite nel database di Google e alle news correlate Un diagramma misura l’interesse degli utenti di Google per determinati termini e argomenti Le ricerche sono analizzate per periodo, città, regione, lingua Per effettuare una comparazione fra più termini di ricerca, questi vanno separati da una virgola (dreaming, nightmare) 56
57
Buon lavoro! 57
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.