Università degli Studi G.DAnnunzio Chieti e Pescara Seminario MOTORI DI RICERCA aprile 2011 maurizio gatto
Internet ARPANET (1960 – 1970) INTERNET 1983 (NFS network) 1985 (commerciale) 1989 (WWW - Tim Barners-Lee)
Web – docuverse (T.H. Nelson, 1974, teorico ipertesto) Universo organizzato dei documenti – infosfera (L. Floridi, 2002, teorico filosofia dellinformazione) Spazio semantico (documenti, agenti, operazioni)
Web Hubs and Authorities (HITS algorithm) Kleinberg identifica due due tipi di pagine web: authority: pagine che rappresentano autorevoli sorgenti di informazione per la query hub: liste che contengono puntatori a pagine relative allargomento della query Good hubs point to good authorities and vice versa Google nel 1998 progetta PageRank (brevettato nel 2001 US PTO Patent )US PTO Patent
Web Hubs and Authorities (HITS algorithm) Kleinberg identifica due due tipi di pagine web: authority: pagine che rappresentano autorevoli sorgenti di informazione per la query hub: liste che contengono puntatori a pagine relative allargomento della query Good hubs point to good authorities and vice versa Google nel 1998 progetta PageRank (brevettato nel 2001 US PTO Patent )US PTO Patent
Web 2.0 – Riuso dei dati (e degli utenti) – Contributo del singolo utente (dati e servizi) – Architettura della partecipazione – Autorganizzazione dellazione dal basso Source: Internet World Search Web 3.0
Risorse digitali – Utilizzo delle risorse digitali ipertestualità, accesso simultaneo, delocalizzazione, ubiquità – Risorse digitali modificabili, replicabili, personalizzate, ambigue, obsolescenti, instabili, volatili documento digitale: qualsiasi oggetto fisico: testo, immagine o filmato, rappresentato tramite una grandezza fisica che assume valori binari ottenuti attraverso un processo di elaborazione elettronica
Motori di ricerca: perché – Consultare il web (docuverse) Difficoltà di reperimento a causa dellenorme numero di informazioni non strutturate – Navigare con i link Partire da un punto e cercare i percorsi giusti Utilizzare i motori di ricerca semplicità di utilizzo (intuitivo), con una query si ottengono risultati rilevanti (o suggerimenti di ulteriori ricerche a partire dai link suggeriti)
Motori di ricerca: funzioni recupero informazioni dal web indicizzazione delle informazioni distribuzione agli utenti delle informazioni tramite query sintattico semantico realizzare profitto
Motori di ricerca: evoluzione – Archie e Gopher ( ) Ricerca file in siti FTP – Lykos, Infoseek, AltaVista, Excite ( ) Ricerca file in siti WWW – Yahoo! (1994) Acquisisce nel 2002 Inktomi, Overture, Altavista – MSN (1995) Accordo con Overture nel 2006 Dal 2006 cambia nome: Windows Live Dal 2009 cambia nome: Bing – Google (1997- sito 1999) Numero ricerche giornaliere(!?): m; mln; mln; mld mld Cronologia completa
Motori di ricerca: Top Google Yahoo! BingBing (ex Live Search ex MSN)Live Search
Motori di ricerca: Italia Virgilio Libero Tiscali
Motori di ricerca: metamotori Attingono i risultati da altri motori di ricerca e ne elaborano i risultati
Motori di ricerca: DMOZ DMOZ (Open Directory Project) Una directory NON un motore di ricerca
Motori di ricerca: dati (US) – 2008 (feb) Google 59,2% Yahoo! 21,6% Live 9,6% Altri 9,5% (Ask, AOL) – 2009 (feb) Google 63,3% Yahoo! 20,6% Live/Bing 8,1% Altri 8,0% (Ask, AOL) – 2010 (feb) Google 65,5% Yahoo! 16,8% Bing 11,5% Altri 6,2% (Ask, AOL) – 2011 (feb) Google 64,9% Yahoo! 17,3% Bing 13,4% Altri 4,4% (Ask, AOL) Source: comscore.com ITALIA (2009) Google* 96,81% Bing 1,35% Yahoo! 1,22% Altri 1,12% Source: StatCounter – GlobalStats
Motori di ricerca: dati (2010)
Motori di ricerca: moduli
Motori di ricerca: gatherer Collezionare documenti nel web – Tipologia extensive crawl, focused crawl, incremental crawl – Problemi dimensioni del web quantità dei dati nel web loop e trappole costi (di banda e hardware) – Soluzione metodologie distribuite e fault-tolerant
Motori di ricerca: crawler
1. Robots.txt (Robotstxt.org)Robotstxt.org 2. Nel codice di una pagina HTML … Perché alcune pagine non appaiono nei risultati dei motori di ricerca? Funzionamento di un crawler
Motori di ricerca: indexing Analisi del contenuto testuale Analisi dei contenuti multimediali Informazioni sui links Informazioni sul sito Analisi dei documenti
Motori di ricerca: indexing ordina i documenti ricevuti dal crawler crea lindice (inverso) delle parole immagazzina le informazioni recuperate in un database (o in database distribuiti)
Motori di ricerca: retrieval riceve le richieste (query) dal modulo search recupera le informazioni nel/i database fornisce le risposte al modulo search
Motori di ricerca: search Riceve la richiesta dellutente (query) invia la query al modulo retrieval recupera le risposte dal modulo retrieval restituisce le risposte allutente in forma testuale e/o grafica aggiunge risultati pay
Motori di ricerca: search
Ricorda: puoi utilizzare per ricerche a corrispondenza esatta + includi - escludi site: cerca in un dominio filetype: cerca un formato documento
Motori di ricerca: search
Motori di ricerca: le relazioni
Motori di ricerca: le relazioni
Motori di ricerca: le relazioni
Motori di ricerca: le relazioni Se cerchiamo bonifica amianto su – Google – Virgilio – Libero – Tiscali Otteniamo gli stessi risultati (anche pay)
Motori di ricerca: specializzati Elenco motori di ricerca
Motori di ricerca: news Google News Alerts Non una mailing list ma un servizio di Google (2003). Scegli la parola chiave e la frequenza della ricezione di una contenente le ultime news (abstract e link) sull'argomento scelto (funziona anche per le news delle singole nazioni, ) Utilizzare i motori di ricerca
Motori di ricerca: news Google News Alerts
Università degli Studi G.DAnnunzio Chieti e Pescara Grazie per lattenzione maurizio gatto