Scaricare la presentazione
La presentazione è in caricamento. Aspetta per favore
PubblicatoSelvaggia Castelli Modificato 10 anni fa
1
Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto
2
Internet ARPANET (1960 – 1970) INTERNET 1983 (NFS network) 1985 (commerciale) 1989 (WWW - Tim Barners-Lee)
3
Web – docuverse (T.H. Nelson, 1974, teorico ipertesto) Universo organizzato dei documenti – infosfera (L. Floridi, 2002, teorico filosofia dellinformazione) Spazio semantico (documenti, agenti, operazioni)
4
Web Hubs and Authorities (HITS algorithm) - 1998 Kleinberg identifica due due tipi di pagine web: authority: pagine che rappresentano autorevoli sorgenti di informazione per la query hub: liste che contengono puntatori a pagine relative allargomento della query Good hubs point to good authorities and vice versa Google nel 1998 progetta PageRank (brevettato nel 2001 US PTO Patent )US PTO Patent
5
Web Hubs and Authorities (HITS algorithm) - 1998 Kleinberg identifica due due tipi di pagine web: authority: pagine che rappresentano autorevoli sorgenti di informazione per la query hub: liste che contengono puntatori a pagine relative allargomento della query Good hubs point to good authorities and vice versa Google nel 1998 progetta PageRank (brevettato nel 2001 US PTO Patent )US PTO Patent
6
Web 2.0 – Riuso dei dati (e degli utenti) – Contributo del singolo utente (dati e servizi) – Architettura della partecipazione – Autorganizzazione dellazione dal basso Source: Internet World Search Web 3.0
7
Risorse digitali – Utilizzo delle risorse digitali ipertestualità, accesso simultaneo, delocalizzazione, ubiquità – Risorse digitali modificabili, replicabili, personalizzate, ambigue, obsolescenti, instabili, volatili documento digitale: qualsiasi oggetto fisico: testo, immagine o filmato, rappresentato tramite una grandezza fisica che assume valori binari ottenuti attraverso un processo di elaborazione elettronica
8
Motori di ricerca: perché – Consultare il web (docuverse) Difficoltà di reperimento a causa dellenorme numero di informazioni non strutturate – Navigare con i link Partire da un punto e cercare i percorsi giusti Utilizzare i motori di ricerca semplicità di utilizzo (intuitivo), con una query si ottengono risultati rilevanti (o suggerimenti di ulteriori ricerche a partire dai link suggeriti)
9
Motori di ricerca: funzioni recupero informazioni dal web indicizzazione delle informazioni distribuzione agli utenti delle informazioni tramite query sintattico semantico realizzare profitto
10
Motori di ricerca: evoluzione – Archie e Gopher (1990-1991) Ricerca file in siti FTP – Lykos, Infoseek, AltaVista, Excite (1994-1995) Ricerca file in siti WWW – Yahoo! (1994) Acquisisce nel 2002 Inktomi, Overture, Altavista – MSN (1995) Accordo con Overture nel 2006 Dal 2006 cambia nome: Windows Live Dal 2009 cambia nome: Bing – Google (1997- sito 1999) Numero ricerche giornaliere(!?): 1999 500m; 2000 100mln; 2003 250mln; 2008 2mld 2010 3mld Cronologia completa
11
Motori di ricerca: Top Google Yahoo! BingBing (ex Live Search ex MSN)Live Search
12
Motori di ricerca: Italia Virgilio Libero Tiscali
13
Motori di ricerca: metamotori Attingono i risultati da altri motori di ricerca e ne elaborano i risultati
14
Motori di ricerca: DMOZ DMOZ (Open Directory Project) Una directory NON un motore di ricerca
15
Motori di ricerca: dati (US) – 2008 (feb) Google 59,2% Yahoo! 21,6% Live 9,6% Altri 9,5% (Ask, AOL) – 2009 (feb) Google 63,3% Yahoo! 20,6% Live/Bing 8,1% Altri 8,0% (Ask, AOL) – 2010 (feb) Google 65,5% Yahoo! 16,8% Bing 11,5% Altri 6,2% (Ask, AOL) – 2011 (feb) Google 64,9% Yahoo! 17,3% Bing 13,4% Altri 4,4% (Ask, AOL) Source: comscore.com ITALIA (2009) Google* 96,81% Bing 1,35% Yahoo! 1,22% Altri 1,12% Source: StatCounter – GlobalStats
16
Motori di ricerca: dati (2010)
19
Motori di ricerca: moduli
21
Motori di ricerca: gatherer Collezionare documenti nel web – Tipologia extensive crawl, focused crawl, incremental crawl – Problemi dimensioni del web quantità dei dati nel web loop e trappole costi (di banda e hardware) – Soluzione metodologie distribuite e fault-tolerant
22
Motori di ricerca: crawler
23
1. Robots.txt (Robotstxt.org)Robotstxt.org 2. Nel codice di una pagina HTML … Perché alcune pagine non appaiono nei risultati dei motori di ricerca? Funzionamento di un crawler
24
Motori di ricerca: indexing Analisi del contenuto testuale Analisi dei contenuti multimediali Informazioni sui links Informazioni sul sito Analisi dei documenti
25
Motori di ricerca: indexing ordina i documenti ricevuti dal crawler crea lindice (inverso) delle parole immagazzina le informazioni recuperate in un database (o in database distribuiti)
26
Motori di ricerca: retrieval riceve le richieste (query) dal modulo search recupera le informazioni nel/i database fornisce le risposte al modulo search
27
Motori di ricerca: search Riceve la richiesta dellutente (query) invia la query al modulo retrieval recupera le risposte dal modulo retrieval restituisce le risposte allutente in forma testuale e/o grafica aggiunge risultati pay
28
Motori di ricerca: search
30
Ricorda: puoi utilizzare per ricerche a corrispondenza esatta + includi - escludi site: cerca in un dominio filetype: cerca un formato documento
31
Motori di ricerca: search
32
Motori di ricerca: le relazioni http://www.bruceclay.it/searchenginerelationshipchart.htm
33
Motori di ricerca: le relazioni http://www.ihelpyou.com/search-engine-chart.html
34
Motori di ricerca: le relazioni http://www.search-this.com/search-engine-decoder/
35
Motori di ricerca: le relazioni Se cerchiamo bonifica amianto su – Google – Virgilio – Libero – Tiscali Otteniamo gli stessi risultati (anche pay)
36
Motori di ricerca: specializzati Elenco motori di ricerca
37
Motori di ricerca: news Google News Alerts http://www.google.com/alerts?hl=en Non una mailing list ma un servizio di Google (2003). Scegli la parola chiave e la frequenza della ricezione di una email contenente le ultime news (abstract e link) sull'argomento scelto (funziona anche per le news delle singole nazioni, http://www.google.it/alerts?hl=it )http://www.google.com/alerts?hl=enhttp://www.google.it/alerts?hl=it Utilizzare i motori di ricerca
38
Motori di ricerca: news Google News Alerts
39
Università degli Studi G.DAnnunzio Chieti e Pescara Grazie per lattenzione maurizio gatto
Presentazioni simili
© 2024 SlidePlayer.it Inc.
All rights reserved.