La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Edizione 2015-16 Risorse di Rete e Web 2.0 per il lavoro Sociale Corso di Studio in Servizio Sociale A.A. 2015-2016 6.La ricerca sul Web Antonio Capodieci.

Presentazioni simili


Presentazione sul tema: "Edizione 2015-16 Risorse di Rete e Web 2.0 per il lavoro Sociale Corso di Studio in Servizio Sociale A.A. 2015-2016 6.La ricerca sul Web Antonio Capodieci."— Transcript della presentazione:

1 Edizione 2015-16 Risorse di Rete e Web 2.0 per il lavoro Sociale Corso di Studio in Servizio Sociale A.A. 2015-2016 6.La ricerca sul Web Antonio Capodieci

2 Queste slides… 2 Queste slides fanno parte del corso “Risore di Rete per il Web 2.0”. Il presente materiale è pubblicato con licenza Creative Commons “Attribuzione - Non commerciale - Condividi allo stesso modo - 2.5 Italia”: NOTA: Al materiale hanno contribuito in molti, studenti, amici e la rete. Ove possibile ne ho indicato la fonte; segnalatemi eventuali dimenticanze, sarò lieto di correggerle appena possibile. Molte slide sono tratte dal materiale didattico del Prof. Roberto Polillo dell’Università Milano Bicocca, pubblicato secondo analoga licenza.

3 Una visualizzazione [di una parte] del web La immagine mostra una porzione di Internet costituita da 535.000 nodi e più di 600.000 links WALRUS Visualization tool, 2001 http://www.caida.org/tools/visualization/walrus/http://www.caida.org/tools/visualization/walrus/ 3

4 4 Una visualizzazione [di una parte] del web

5 5

6 Come trovare l'informazione in rete  Directories Indici strutturati di argomenti (gestiti da una redazione)  Wikipedia Enciclopedia collaborativa  Motori di ricerca Query  Risultati  Motori semantici www.wolframalpha.com, … www.wolframalpha.com  Sistemi di Q&A sociale Yahoo! Answer, …  Esplorazione Browsing, serendipity 6

7 Web directories 7  Storicamente, il primo strumento di ausilio alle ricerche nel Web  Classificazione gerarchica dei siti (e non delle pagine) in categorie e sottocategorie, a più livelli, effettuata "a mano" -> varie "tassonomie"  Directories “generaliste” e directories verticali o di nicchia, anche prodotte in modo collaborativo  http://en.wikipedia.org/wiki/Web_directory http://en.wikipedia.org/wiki/Web_directory

8 Tassonomia 8 Emporio celeste dei riconoscimenti benevoli (Enciclopedia cinese, J.L.Borges, 1973) Gli animali si dividono in: a)Appartenenti all’imperatore b)Imbalsamati c)Ammaestrati d)Lattonzoli e)Sirene f)Favolosi g)Cani randagi h)Inclusi in questa classificazione i)Che si agitano come pazzi j)Innumerevoli k)Disegnati con un pennello finissimo di peli di cammello l)Eccetera m)Che hanno ritto il vaso n)Che da lontano sembrano mosche.  Raggruppamento di oggetti in classi, secondo qualche criterio  taxis=ordine nomos=regola  Ogni tassonomia è arbitraria, e dipende dagli obiettivi

9 Yahoo! (http://dir.yahoo.com)http://dir.yahoo.com 9 -Nasce come “La guida al WWW di Jerry e David”, nel 1994 -Qui la home del 1996, da www.archive.org http://en.wikipedia.org/wiki/Int ernet_Archive www.archive.org http://en.wikipedia.org/wiki/Int ernet_Archive

10 The Open Directory Project (ODP) 10  Nota anche come DMOZ (Directory Mozilla http://www.dmoz.org/http://www.dmoz.org/  Directory gratuita, aperta e multilingua  Fondata nel 1998, poi acquisita da Netscape (1998), poi AOL, e manutenuta da una comunità di editor volontari  http://en.wikipedia.org/wiki/Open_Directory_Projecthttp://en.wikipedia.org/wiki/Open_Directory_Project

11 Domoz vs Yahoo! 11 DmozYahoo!

12 Wikipedia come strumento di ricerca 12  Wikipedia è un formidabile strumento di ricerca e accesso al web  Ogni voce di Wikipedia è corredata da numerosi link interni ed esterni, che spesso permettono di raggiungere i siti più significativi correlati all’argomento esaminato  Inoltre Wikipedia contiene numerosi indici e directories, fra cui anche veri e propri portali tematici (http://en.wikipedia.org/wiki/Portal:Contents/Portals)http://en.wikipedia.org/wiki/Portal:Contents/Portals

13 Motori di ricerca per il Web  Componente software (utilizzabile come servizio online) progettato per ricercare informazioni sul World Wide Web  Le informazioni (di solito nella forma di link) sono presentate in una serie di Search Engine Results Page (SERP)  La qualità di un motore si valuta sulla base della pertinenza e rilevanza dei risultati 13

14 Motori di ricerca Una storia complessa, iniziata negli anni '90. Oggi, i primi: Google - Dal 1998 Baidu - dal 2000, cinese Yahoo ! - Con motori esterni ( dal 2009 "Powered by Bing") Bing - Dal 2009 (prima: MSN Search, Windows Live Search, Live Search) 14

15 Search engine market share 15 Fonte: http://www.netmarketshare.comhttp://www.netmarketshare.com Dic 2013, solo desktop

16 Motori di ricerca: struttura 16 Interfaccia Query processing Ranking dei risultati Query Risultati (SERP) Front-end process Indici + cached pages Crawler IndicizzatoreCrawler Richieste Pagine web WWW Back-end process

17 Motori di ricerca: struttura 17 Ogni motore di ricerca è composto da cinque componenti fondamentali: crawler, indice, interfaccia, query processor e il sistema di ranking  Il crawler è un software specializzato che naviga la rete e porta le pagine nell'indice. Il crawler tiene anche nota dei link che trova e li usa per raggiungere via via nuove pagine con nuovi link...  L'indice è un enorme database dove le pagine vengono memorizzate con tutti i metadati e dove tutte le parole vengono “invertite” creando indici/chiavi per ognuna di esse  L'interfaccia interpreta la richiesta dell'utente, tenta di interpretarla e passa la richiesta al query processor che agisce sull'indice  Il sistema di ranking ordina i risultati della query in funzione della loro "rilevanza" (eventualmente filtrando risultati non pertinenti)

18 Web crawling  I crawler (robot, spider, bot) sono programmi che navigano il Web, esaminando le diverse pagine e seguendo i link in esse presenti  Seguono opportune politiche di navigazione (per es. per decidere quando riesaminare una pagina già vista)  L'interazione con i Web server segue specifici protocolli (per es. robot exclusion protocol, o robot.txt)  Non tutto il Web è accessibile ai crawler 18

19 robots.txt: esempio www.domain.com 19 / robots.txt utenti foto about User-agent: Google Disallow /utenti/foto Allow: * Crawl-delay: 20 sec

20 Deep vs surface Web  Non tutto il Web è accessibile ai motori di ricerca  Il Web invisibile ("deep Web") è parecchi ordini di grandezza più vasto del Web visibile ("surface Web")  Deep Web, esempi:  Pagine "vietate" dai Web server (robots.txt)  Pagine generate dinamicamente a fronte di query o di input forniti attraverso form  Pagine senza link entranti  Pagine accessibili tramite registrazione e login  Ecc. 20

21 Tipi di query  Informativa Obiettivo: trovare un'informazione  Navigazionale Obiettivo: trovare una pagina web, che conosco già  Risorsa Obiettivo: trovare una risorsa (non informativa) disponibile sul web  Il risultato è di solito (ma non sempre!) una lista di link a pagine web  Evoluzione: dal contenitore (anche) al contenuto 21

22 Uso dei motori di ricerca  Web e banche dati sono i campi in cui i motori di ricerca sono più usati  Google - che indicizza oltre 9 miliardi di pagine - è il motore di ricerca più usato al mondo 22

23 Funzionamento dei motori di ricerca  In risposta alla richiesta dell’utente, i motori di ricerca elencano i siti recuperati in ordine di rilevanza rispetto alla domanda posta  Per stabilire tale rilevanza, ogni motore di ricerca classifica allinterno del proprio indice le pagine trovate usando i propri algoritmi 23

24 Google PageRank  Algoritmo sviluppato da S.Brin e Larry Page nella loro tesi di PhD a Stanford (progetto BackRub, 1995-96), brevettato a nome della Stanford University  L'idea: la "importanza" di una pagina Web è tanto maggiore quante più sono le pagine Web (a loro volta "importanti") che la linkano  In sostanza, è il meccanismo con cui vengono valutati i paper accademici  S.Brin, L.Page, “The anatomy of a large-scale hypertextual Web search engine”  1998: Brin e Page fondano Google Inc  R.Polillo - Marzo 2014 24

25 Pesi e misure: PageRank  PageRank assegna un peso a ogni elemento della pagina e la classifica in base  al contenuto della pagina (occorrenza dei termini cercati)  al numero di link che puntano alla pagina  al contenuto delle pagine che linkano alla pagina  Linkando le proprie pagine a un’altra pagina, gli utenti influenzano (nel bene e nel male) la sua valutazione da parte di Google 25

26 PageRank: esempio 26 R.Polillo - Marzo 2014 7 1 1 6 1 1

27 PageRank: esempio 27 http://en.wikipedia.org/wiki/PageRank R.Polillo - Marzo 2014 Per la spiegazione dell'algoritmo: http://www.cs.cornell.edu/home/kleinber/networks-book/networks-book-ch14.pdfhttp://www.cs.cornell.edu/home/kleinber/networks-book/networks-book-ch14.pdf

28 L’algoritmo: altri criteri  Google utilizza oltre 200 criteri per il ranking delle pagine  I criteri sono segreti e in continua evoluzione  Esempi:  Parole chiave nella pagina (titolo, header, testo …)  Età del sito  Qualità dei contenuti  Ranking fra i siti di analogo argomento  Numero di accessi via URL della pagina  Numero di accessi da parte di chi cerca  Tempo speso sulla pagina dagli utenti  …. R.Polillo - Marzo 2014 28

29 Limiti dei motori di ricerca I motori di ricerca…  setacciano periodicamente il web rintracciando le pagine grazie ai loro contenuti  aggiornano i propri indici fotografando la realtà documentaria in un dato momento  possono non trovare tutti i risultati utili  classificano le pagine web con criteri in gran parte non noti  algoritmi proprietari, base di ricerca non dichiarata  non hanno un effettivo controllo sulla qualità dei documenti trovati 29

30 Prossimità dei termini cercati  Google attribuisce un valore positivo alla vicinanza dei termini cercati all'interno della pagina  Le pagine in cui le parole cercate sono adiacenti sono mostrate per prime nell’elenco dei risultati  Perché?  Il presupposto di Google è che più i termini cercati dall’utente sono vicini all’interno di una pagina, più la pagina è di suo interesse 30

31 Google Suggest e Web history  Via via che si digita nella casella di ricerca, la funzione di autocompletamento (Google Suggest) mostra ricerche simili effettuate dagli utenti  Se si è collegati con il proprio account Google i primi suggerimenti si baseranno su proprie ricerche effettuate in passato  Le ricerche fatte con l’account Google sono mantenute nella Cronologia Web (Web history) e da qui possono essere eseguite nuovamente  I suggerimenti possono essere disattivati sospendendo o rimuovendo la Cronologia Web e uscendo dall’account Google  Informazioni sulla Cronologia Web http://support.google.com/accounts/bin/topic.py?hl=it&topic=14148 31

32 La ricerca sul web  Google cerca esattamente e soltanto le parole digitate nel campo di ricerca:  ignora le Stop Words, cioè i termini che servono a legare più parole chiave (quel, il, the, that, why..)  il singolare è diverso dal plurale  non c’è distinzione tra lettere minuscole e maiuscole non può cercare parole tronche 32

33 Caratteri per la ricerca - 1  Asterisco (*): sostituisce una o più parole intere fra due termini (Presidente * Italiana), come anche ogni termine ignoto (Presidente *)  L’asterisco riempie uno spazio vuoto  Da usare solo con parole intere, non con parole troncate  Meno (-): da inserire prima di un termine che non si vuol cercare. Va preceduto, ma non seguito da spazio.  Per trovare pagine sulle protesi escludendo le pagine sulla Repubblica Italiana : Repubblica - Italiana 33

34 Caratteri per la ricerca - 2  Per trovare solo una frase esatta è utile inserire le parole fra virgolette  “Assistenti Sociali”  “Pubblica Amministrazione”  Le virgolette servono anche per trovare i termini ignorati da Google, le cosiddette stopword: the, of, or... del, di, in, la...  protesi “di ginocchio”  Disagio “dei giovani”  “Disagio “dei giovani ” 34

35 Operatori per la ricerca  Usando il booleano OR (in MAIUSCOLO) si trovano le pagine in cui è presente sia il termine A sia il termine B, o anche uno solo di essi In alternativa, si possono separare le parole col simbolo |  Disagio OR disturbo  Sociale | sociali  Il booleano AND non va digitato: Google lo usa automaticamente 35

36 Cercare specifici documenti - 1  Filetype: per stabilire il tipo di file da recuperare  evidence based medicine filetype:pdf  Site: per restringere la ricerca a un sito o a un dominio  Assisenti sociali site:www.comune.brindisi.it  guidelines site:.gov (con o senza punto prima del dominio)  Link: per visualizzare le pagine che linkano a un sito  link:pubmed central  Define: per ottenere la definizione di un termine  Define:social science 36

37 Cercare specifici documenti - 2  Stands for: per sciogliere sigle e acronimi  IBM stands for  Related: per trovare siti simili o collegati a quello indicato  related:http://www.unisalento.it 37

38 Cercare specifici documenti - 3  Allintext: per trovare pagine che hanno nel testo tutti i termini indicati  Allintext: assistenti sociali  Allintitle: per trovare pagine che hanno nel titolo tutti i termini indicati  allintitle:allergic contact dermatitis  Allinurl: per trovare pagine che hanno nell’URL tutti i termini indicati  allinurl: disagio giovanile 38

39 Operatori di calcolo  x + y addizione  x – y sottrazione  x / y divisione (es. 10 / 2)  x * y moltiplicazione (es. 2 * 4)  x% of y percentuale (es. 25% of 10)  x % y resto della divisione (es. 5 % 2)  x^y elevamento a potenze (es. 2^4) 39

40 Ricerca avanzata  Link: per visualizzare le pagine collegate (link) ad un preciso URL (es.:link:www.unimi.it) 40

41 Ricerca avanzata: 1. Contenuti I campi di ricerca sono combinati con booleani preimpostati per trovare le pagine che…  contengono tutte le parole inserite oppure  contengono una parola o una frase esatta oppure  contengono una qualunque delle parole inserite oppure  non contengono una o più parole Sono indicate le modalità per impostare le diverse ricerche direttamente nella stringa di ricerca del motore 41

42 Ricerca avanzata: 2. Limiti Una volta definita, la ricerca può essere circoscritta a determinate pagine in base a...  lingua  area geografica  ultimo aggiornamento  sito o dominio  posizione delle parole  formato delle pagine  diritti di utilizzo (licenza d’uso) 42

43 I campi della ricerca avanzata 43

44 Da ricordare  La ricerca in Google non fa distinzione fra termini di ricerca scritti in maiuscolo o in minuscolo  La posizione dei termini all’interno delle pagine ne influenza il ranking  Google privilegia i siti descritti con keyword chiare, precise e facilmente intuibili dagli utenti 44

45 Google libri 45 http://books.google.it  Consultazione gratuita di parti di volumi (anche protetti da copyright)  Frontespizio, indice  Descrizione del contenuto, capitoli saggio  L’intera opera (se non soggetta a copyright)  Indice  Informazioni sugli autori  Recensioni sul web

46 Ricerca libri avanzata 46

47 La letteratura accademica 47 Google propone come primo risultato una selezione di Articoli accademici

48 Google Scholar http://scholar.google.it/ Nato nel 2004 per la ricerca della letteratura accademica, sia online sia conservata in specifiche biblioteche  documenti pubblicati o in corso di stampa  libri  tesi  atti di congressi  articoli  abstract  report tecnici 48

49 Google scholar: copertura disciplinare e fonti  Scienze di base: chimica, fisica, biologia  Umane: arte, letteratura  Scienze applicate: medicina, economia …  Editori  Agenzie governative  Società scientifiche e ordini professionali  Repository universitari e istituzionali 49

50 Impostare le preferenze: importazione dei risultati 50

51 Impostare le preferenze: link alle biblioteche 51

52 La ricerca libera 52 La frase pain relief è stata chiusa tra virgolette per escludere la ricerca delle due singole parole. La parola osteoarthritis è preceduta dalla tilde per includere anche i sinonimi

53 La ricerca avanzata  La parte superiore del modulo di ricerca avanzata permette di ricercare i termini sia nel titolo dell’articolo che nel corpo dello stesso  La parte inferiore dà la possibilità di parametrare la ricerca per autore, data, rivista La ricerca per pubblicazione è un’opzione che andrebbe utilizzata solo quando si è certi che un determinato articolo sia pubblicato su una determinata rivista. Ciò infatti potrebbe condizionare la completezza dei risultati perché Google raccoglie le informazioni da un insieme di fonti molto diverse. Anche la ricerca per data potrebbe non essere completa a causa delle possibili lacune nella indicizzazione bibliografica. 53

54 I link di Google Scholar 54 1.Titolo (con le parole cercate in neretto) 2.Autore 3.Fonte 4.Documenti che citano il riferimento in questione 5.Altri documenti di interesse collegato 6.Elenca le versioni del documento presenti su web 7.Segnala la presenza del documento in biblioteche specializzate 8.Accesso al FT in rete di ateneo 1 23 4 5 6 7 8

55 Le citazioni e gli indici bibliometrici  L’analisi citazionale è una delle funzioni più caratteristiche di Scholar  L’ordine col quale restituisce i risultati si basa sul numero e sulla qualità delle citazioni che i singoli articoli hanno ricevuto  Scholar non calcola automaticamente l’H index, ma sono alcuni software a farlo, partendo dai dati recuperati da Scholar  Il più conosciuto e aggiornato è Publish or Perish; è gratuito e deve essere installato sul proprio pc: http://www.harzing.com/pop.htm 55

56 Google Trends http://www.google.com/trends  Applicazione che fornisce i dati relativi alle ricerche eseguite nel database di Google e alle news correlate  Un diagramma misura l’interesse degli utenti di Google per determinati termini e argomenti  Le ricerche sono analizzate per periodo, città, regione, lingua  Per effettuare una comparazione fra più termini di ricerca, questi vanno separati da una virgola (dreaming, nightmare) 56

57 Buon lavoro! 57


Scaricare ppt "Edizione 2015-16 Risorse di Rete e Web 2.0 per il lavoro Sociale Corso di Studio in Servizio Sociale A.A. 2015-2016 6.La ricerca sul Web Antonio Capodieci."

Presentazioni simili


Annunci Google