IL PROBLEMA DELLA RICERCA DI INFORMAZIONI su Internet e sul web

Slides:

Advertisements

Presentazioni simili

Presentazione della tesi di laurea di Flavio Casadei Della Chiesa Newsletter: un framework per una redazione web.

Advertisements

Il gestore di posta elettronica per le aziende e per gli studi

Internet costituisce unenorme risorsa informativa Conoscere la rete vuol dire anche capire dove ed attraverso quali strumenti linformazione può essere.

G1RD-CT e-Volution II Page 1 Project funded by the European Community under the Competitive and Sustainable Growth Programme ( )PROJECT.

TIC per ricerca e condivisione dell'informazione

IlTrovatore S.p.a. IlTrovatore RemoteSearch IlTrovatore mette a disposizione di portali Internet, piccole e medie imprese, tutto il suo know-how nel settore.

INTERNET Prof. Zini Maura.

Unità D2 Database nel web. Obiettivi Comprendere il concetto di interfaccia utente Comprendere la struttura e i livelli che compongono unapplicazione.

Lorganizzazione dei periodici elettronici vista dagli utenti Unindagine effettuata allUniversità di Parma Fabrizia Bevilacqua.

L’azienda Volocom.

BIBLIOTECAScuola Superiore Sant'Anna LA RICERCA INTEGRATA DELLE RISORSE ELETTRONICHE : metasearch e link resolver CONCETTI E STRUMENTI A cura di Maria.

REGIONE PUGLIATECNOPOLIS CSATA Sustainable and Effective Entrepreneurship Development Scheme INTERREG IIIB – CADSES WORKSHOP LA PUGLIA DELLA COOPERAZIONE.

Unintroduzione a…PowerWeb. n Articoli attuali n Notizie specifiche per il proprio corso n Aggiornamenti settimanali n Esercizi interattivi n Centinaia.

A cura di Lida Barazzutti. Col passare degli anni si moltiplicarono i computer collegati tra loro; intere reti, che nel frattempo si erano sviluppate.

DIFFICOLTA’ DEL LINGUAGGIO

TESTO ARGOMENTATIVO PASSI SMONTAGGIO SCHEMA 2. RICONOSCIMENTO PARTI

1 Introduzione Necessità per utenti e progettisti di sistemi di calcolo Formalizzare le aspettative dellutente nei confronti del calcolatore Fornire degli.

Promozione presso le Camere di Commercio dei servizi ICT avanzati resi disponibili dalla banda larga Camera di Commercio di Parma Parma.

LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: è meglio Google o Pubmed? CENTRO DI BIOTECNOLOGIE SETTORE DOCUMENTAZIONE BIOMEDICA A.O.R.N. A.CARDARELLI-

LA RICERCA BIBLIOGRAFICA NEL SETTORE BIOMEDICO: i motori di ricerca e la gestione dellinformazione biomedica CENTRO DI BIOTECNOLOGIE SETTORE DOCUMENTAZIONE.

LA RETORICA DIGITALE COME COSTRUIRE SITI INTERNET AVANZATI UTILIZZANDO LANTICA ARTE DEL DIRE Tesi di Laurea di VALENTINA MAGGI Prof. Silvia Luraghi Ing.

Approcci avanzati alla ricerca in rete. La capacità dellutente Information literacy: imparare a cercare su Internet La situazione: –problemi di Internet.

La vendita online b2c. PROBLEMATICHE (I) 1.Le caratteristiche del prodotto è adatto alla vendita online? 2.Il mercato in cui si opera come avviene la.

IL PATRIMONIO DI DATI - LE BASI DI DATI. Il patrimonio dei dati Il valore del patrimonio di dati: –Capacità di rispondere alle esigenze informative di.

La Ricerca in Rete Danco Singer novembre 2002 novembre 2002 Master in Editoria Multimediale La Ricerca in Rete: strategie di navigazione.

Corso pratico di EBM n I database n I database: nozioni generali sulle basi di dati, con approfondimento sulle basi bibliografiche Paolo Gardois Torino,

Lautore e il ricercatore nellambiente digitale 2. edizione 12 aprile 2007 Introduzione al Portale AIRE A cura di Cristina Capodaglio (Biblioteca del Dipartimento.

Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo.

I database per il medico / 2 n I database n I database: nozioni generali sulle basi di dati, con approfondimento sulle basi bibliografiche Paolo Gardois.

4 Cosa è una rete? ã Punto di vista logico: sistema di dati ed utenti distribuito ã Punto di vista fisico: insieme di hardware, collegamenti, e protocolli.

Cos’è un CMS? Content Management System

1 CSB di Economia Le nuove risorse per linformazione online settembre 2006 SFX cosa è e a cosa serve SFX è un software acquisito e implementato dallAteneo.

Banche dati in rete dateneo Cosa faremo: Primo giorno Introduzione alle principali banche dati umanistiche Secondo giorno Esercitazioni.

La ricerca in rete e la comunicazione/collabor azione Laboratorio Le fonti e la ricerca nel web.

Applicazioni mobile Better Software 2009 Massimiliano Zani Sms Italia.

PiemonteShopping.com. - Pag. 2 - Alfa Layer S.r.l.: progetto PiemonteShopping.com © giugno 2004 La società opera.

Modulo 7 – reti informatiche u.d. 1 (syllabus – )

Gruppo 4: Gelmi Martina, Morelato Francesca, Parisi Elisa La mia scuola ha un sito Web: modelli per la qualità dei siti (Ingegneria del Web)

Webmobili per ART: progetto di implementazione dellarea dedicata Articoli Tavola e Regalo webmobili srl – c.so Venezia, Milano

ECDL Patente europea del computer

Realizzazione siti e web marketing. The spy at work. Social Media Marketing. Web Marketing. Grafica e Design. Contenuti e comunicazione. Siti ottimizzati.

Internet Ricerche nel web Gli indici sistematici (directory)

La Conoscenza e il Cittadino Tratto da un articolo di Paola Capitani Slides di Riccardo Peroni Giugno 2005

A cura di Alice Ferri. NUOVI CANONI BIBLIOGRAFICI Periodici non commerciali Periodici solo elettronici Archivi di pre-print Siti Web o portali dinamici.

Domande rivolte: 1.Chi eravate nel 1998, quando avete fondato Google? 2.Qual era il vostro obiettivo? 3.Volevate diventare ricchi? 4.Qual è stata.

Il World Wide Web Lidea innovativa del WWW è che esso combina tre importanti e ben definite tecnologie informatiche: Documenti di tipo Ipertesto. Sono.

ECDL Patente europea del computer

Università degli studi di Roma la Sapienza --- Laboratorio di Basi di Dati II - a.a. 2003/04 Presentato da: CAU Simone Matricola:

EM 09 INTERNET … UN PO DI STORIA. EM 09 Nasce per garantire comunicazioni efficienti … Tra le sedi delle forze armate americane Tra le sedi delle forze.

Il portale di commercio elettronico per le pmi italiane Napoli,

Editoria culturale piemontese Catalogo

Diventa blogger Analisi degli obiettivi Piattaforma Wordpress Francesca Sanzo -

Posizionamento sui motori di ricerca: l’indicizzazione di Fiam Italia S.p.A. Problematiche di partenza : il sito era rigido nell’aggiornamento e poco fruibile.

MOTORI DI RICERCA. Un motore di ricerca è un sistema automatico che analizza un insieme di dati spesso da esso stesso raccolti e restituisce un indice.

InternetInternet Sede: Salvo D’acquisto 2010/2011 Docente: Vito Monno.

Tecnologie dell'informazione e della comunicazione - Stacey S. Sawyer, Brian K. Williams Copyright © The McGraw-Hill Companies srl “Commercio elettronico,

Titolo della sezione Eventuale sottotitolo Formazione Volontari SCN 2011 Centro Linguistico di Ateneo - Mediateca Motori di ricerca non solo Google.

Servizi Internet Claudia Raibulet

Tecnologie dell'informazione e della comunicazione - Stacey S. Sawyer, Brian K. Williams Copyright © The McGraw-Hill Companies srl Introduzione.

CORSO DI ALFABETIZZAZIONE INFORMATICA ORIENTATO A INTERNET E ALLA PIATTAFORMA NOVARETE DIREZIONE DIDATTICA VI CIRCOLO NOVARA USABILITA’ E ACCESSIBILITA’

UNIVERSITA’ DEGLI STUDI DI PAVIA CORSO DI LAUREA IN COMUNICAZIONE INTERCULTURALE E MULTIMEDIALE Relatore: Ing. Marco Porta Correlatore: Prof. Giampaolo.

Università degli Studi di Pavia Facoltà di Economia, Giurisprudenza, Ingegneria, Lettere e Filosofia, Scienze Politiche Corso di laurea in Comunicazione.

Tecnologie lato Server: i Server Web © 2005 Stefano Clemente I lucidi sono in parte realizzati con materiale tratto dal libro di testo adottato tradotto.

Flipped classroom e nuove metodologie didattiche Modulo 2 – Terza lezione Antonio Todaro “ Il Sito Web del docente ” prima parte.

Cercare In Internet. Cercare in Rete La scuola ha un ruolo preciso in relazione a quella che nei paesi anglosassoni viene denominata: Information Literacy.

L’IFS in Lombardia Ufficio Scolastico Regionale per la Lombardia WEB & COMMUNICATION IMPRESA FORMATIVA SIMULATA Centrale di Simulazione IS Carlo Dell’

Enea Topi 1 ^B AS. 2014/2015. LA STORIA DI INTERNET Internet non è mai stata una rete militare, ma i militari sono alla radice della tecnologia su cui.

Transcript della presentazione:

IL PROBLEMA DELLA RICERCA DI INFORMAZIONI su Internet e sul web Internet e il Web rappresentano una risorsa informativa immensa, una delle più ricche ed eterogenee che siano mai state rese disponibili a un pubblico così vasto, eterogeneo e disperso quali gli utenti Internet attuali. Tuttavia la natura e le caratteristiche di Internet sollevano problematiche rilevanti con riferimento alle modalità di ricerca e reperimento dell’informazione in rete.

Internet come “rete informativa”: uno schema Gli utenti Le risorse informative La “rete” Le fonti di informazione Può essere utile introdurre un semplice schema degli elementi fondamentali in gioco quando si parla di Internet come risorsa informativa. Da un lato vi sono le fonti di informazione, qui intese come l’insieme dei soggetti (singoli individui, imprese, enti, istituzioni, ecc.) che mettono a disposizione contenuti informativi in rete. I contenuti (le “risorse informative” della rete) possono avere forma di documenti di testo, ma anche molti altri formati. Le risorse informative vengono rese disponibili al pubblico attraverso la rete, ossia l’insieme dei calcolatori e delle applicazioni Internet (i server, i siti e le pagine web, i database, ecc.). Infine vi sono gli utenti delle risorse informative, ossia i soggetti (privati, ricercatori, professionisti, o quant’altro) che effettuano ricerche in rete al fine di reperire il contenuto di cui hanno bisogno.

La rete Internet: alcuni caratteri distintivi facilità d’accesso (per fonti e utenti) varie modalità di accesso (rete dati, telefonica, satellite,…) costi (relativamente) modesti protocolli standard largamente diffusi dimensione in continua espansione e potenzialmente “illimitata” struttura non gerarchica “link”ipertestuali struttura “peer-to-peer” ambiente dinamico e “ricco” configurazione e struttura facilmente modificabile supporto multimediale (informazioni “ricche”; elaborazioni) varietà dei canali di comunicazione possibile bidirezionalità one to one, one to many, many to many, ecc. Con riferimento allo schema introdotto, esaminiamo brevemente le caratteristiche fondamentali degli elementi in gioco, che rendono la rete un ambiente unico rispetto agli altri “media” esistenti. Per quanto riguarda innanzitutto la rete Internet in quanto tale, essa rappresenta come è noto la prima rete di comunicazione globale che permettere a un’utenza potenzialmente vastissima di trasmettere, ricevere, comunicare, rendere disponibili contenuti informativi ricchi, articolati, multimediali, a costi sostanzialmente modesti e senza limitazioni geografiche. La dimensione della rete, già oggi considerevole, è in continua espansione (v. lucido successivo). Un ulteriore dato importante riguarda il numero di utenti che accedono alla rete (saltuariamente o frequentemente), e che secondo alcune stime sarebbero già centinaia di milioni in tutto il mondo. Una caratteristica importante della rete, che deriva dalla sua stessa struttura tecnica, è la sua organizzazione sostanzialmente non gerarchica (di tipo “peer-to-peer”), nella quale i nodi o utenti collegati risultano a un livello sostanzialmente paritario per quanto riguarda accessi e comunicazione in rete. Inoltre se consideriamo il World Wide Web, anche l’organizzazione delle diverse pagine Web non ha una struttura preordinata; anzi, i collegamenti ipertestuali fanno sì che da un nodo della rete sia possibile raggiungerne qualsiasi altro senza che vi siano percorsi obbligatori secondo livelli gerarchici predefiniti. Data la facilità con cui è possibile aggiungere un nuovo nodo o far accedere un nuovo utente, la rete risulta un ambiente altamente dinamico la cui struttura si modifica continuamente. Risulta inoltre molto semplice per una qualsiasi singola fonte informativa modificare i contenuti e i documenti pubblicati in rete, il che accresce ulteriormente il carattere dinamico del Web. Il supporto applicativo multimediale, sempre più articolato come formati (audio, video, dati, testi, immagini, spesso integrati tra loro e spesso con la possibilità di consultazioni interattive - basta pensare alle “visite virtuali” ad un museo), consente inoltre di veicolare attraverso lo stesso unico “medium” una considerevole ricchezza di contenuto. Rispetto agli altri mezzi di comunicazione, Internet è in grado di consentire attraverso la stessa infrastruttura un’estrema varietà di modalità di comunicazione (essendo possibile agli utenti scegliere ad esempio modalità monodirezionali o bidirezionali; oppure one-to-one, one-to-many, o many-to-many, e così via).

Fonti e risorse di informazione su Internet estrema eterogeneità delle fonti (istituzioni, aziende, singoli individui, ….) estrema varietà delle informazioni (come contenuti, formati, ….) collegamenti multidimensionali, multilivello, ridondanti (il “deep Web”) assenza di censura/controllo facilità di “aggiornamento” varie modalità di fornitura (es: informazioni protette, a pagamento, libere, etc.) Per quanto riguarda le fonti e le risorse informative, come detto Internet risulta un contenitore a cui si può avere accesso in modo estremamente facile, specialmente in confronto a tutti gli altri media esistenti; la facilità di inserimento e di aggiornamento consentono praticamente a chiunque di inserire in rete i propri contenuti in tempi rapidi e a costi quasi nulli. Inoltre gli aggiornamenti possono essere effettuati in tempi altrettanto rapidi e senza la necessità di procedure complesse. Tutto ciò ha contribuito a determinare l’estrema eterogeneità sia delle fonti di informazione su Internet (che possono andare dal singolo individuo, alla grande multinazionale, all’istituzione nazionale o internazionale), sia dei tipi di contenuti in rete o del loro formato. I materiali disponibili sono talmente tanti e vari che si parla ormai di “information overload”, intendendo con questo termine il rischio di sovraccarico a cui è soggetto chi cerchi del materiale in rete. Il meccanismo dei link ipertestuali favorisce la costruzione di connessioni tra contenuti diversi, il che aumenta ulteriormente la ricchezza informativa del mezzo, apre anche nuove opportunità di comunicazione, ma può anche rendere più complessa la navigazione. Inoltre all’interno della stessa piattaforma Internet ciascuna fonte informativa può privilegiare le modalità di fornitura delle informazioni che preferisce - dall’accesso libero a quello protetto, dall’informazione gratuita a quella a pagamento. Un’altra caratteristica dell’Internet attuale è la sostanziale assenza o difficoltà di porre controlli e censure sui contenuti e sulle fonti; ciò ha espanso la libertà di informazione e comunicazione, talvolta al punto di sollevare problemi di decenza o di legalità.

Il “deep Web” Il livello più “interno” dell’informazione reperibile in Internet e/o tramite il World Wide Web: i database e le banche dati accessibili da Internet i file interni dei server ecc. Un cenno speciale va fatto al cosiddetto “deep Web”. Nel considerare Internet come risorsa di informazione spesso ci si limita agli aspetti più “superficiali” ossia più direttamente accessibili e conteggiabili: vale a dire ad esempio le pagine Web (o meglio ancora, le pagine Web dei primi livelli che sono più facilmente accessibili a un navigatore in Internet). Tuttavia, all’interno dei milioni di computer connessi in rete è disponibile in realtà infinitamente di più: i dati interni dei database, le banche dati, i file residenti in molti computer e che sono in molti casi accessibili da Internet e dal Web. Poniamo il caso di una banca dati (ad es. bibliografica) che viene consultata attraverso il Web. Utilizzando una parola chiave i dati richiesti (ad es. il testo di un articolo scientifico), reperiti all’interno del calcolatore che ospita la banca dati, vengono resi disponibili su Internet all’utente (ad esempio viene generata “dinamicamente” una pagina web che riporta le informazioni richieste, reperite all’interno della banca dati).

Se consideriamo tutti i dati accessibili in questo modo, possiamo parlare di “deep Web” intendendo tutto l’insieme delle informazioni potenzialmente disponibili su Internet effettuando una ricerca all’interno dei singoli database. Si tratta di un bacino di informazioni la cui dimensione è pressoché impossibile da misurare, ma che secondo molti è presumibilmente molto più grande di ciò che è accessibile direttamente esaminando le pagine Web “statiche” direttamente consultabili con una navigazione. Fonte: Brightplanet

Utenti delle informazioni su Internet estrema eterogeneità dei fabbisogni informativi tra utenti diversi per lo stesso utente diverse modalità di accesso tempi, costi, disponibilità numero crescente di “non specialisti” Anche per gli utenti delle informazioni su Internet vi sono alcuni aspetti importanti da sottolineare. Innanzitutto si tratta ormai di un pubblico estremamente eterogeneo, che esprime i fabbisogni informativi più disparati. Inoltre lo stesso utente generalmente ricerca in rete informazioni di tipo assai diverso tra loro. Anche le modalità di accesso possono essere estremamente differenziate, in relazione alle disponibilità di tempo o denaro. Si può andare dall’utente specialista in grado magari di effettuare ricerche lunghe e onerose da postazioni di enti di ricerca, ai navigatori occasionali “da casa” che hanno necessità di effettuare ricerche rapide a basso costo. Si assiste comunque alla progressiva modificazione delle tipologie di utenti che accedono alla rete. Dalle élite di specialisti che caratterizzavano i primi usi, con l’apertura al grande pubblico sta crescendo rapidamente la percentuale di utenti “non specialisti”, magari anche caratterizzati da livelli di istruzione non elevati, o comunque con competenze non sofisticate nell’uso del mezzo. Questo rende ancora più varie e articolate le modalità e le strategie di ricerca delle informazioni in rete che ciascun utente adotta.

Come reperire informazione? I motori di ricerca e i relativi problemi

Information Retrieval “classico” Schema tipico del meccanismo dell’information retrieval in grandi database di documenti. Un software analizza i testi e li “classifica” (indicizza) sulla base della frequenza con cui compaiono le parole nel testo. Viene creato un database che memorizza questi indici. L’utente che sta cercando un determinato documento lancia una ricerca (“query”) inserendo le relative parole chiave da ricercare. Il software ricerca il/i documento/i a cui corrisponde l’indice più elevato come frequenza di comparsa delle parole chiave, e restituisce la risposta all’utente.

I MOTORI DI RICERCA Come dicevamo, i motori di ricerca sono stati progettati (almeno inizialmente) secondo una logica di “information retrieval”. Dispongono di un “generatore di indirizzi Web” che con determinate cadenze produce una lista di indirizzi entro i quali il motore ricercherà le pagine da esaminare. Un programma (denominato “spider”, oppure anche “robot”) effettua la visita automatica di tali siti e ne costruisce un’immagine “indicizzata” (basata sostanzialmente - con qualche differenza tra motore e motore - sul calcolo delle ricorrenze delle parole presenti). Alla richiesta dell’utente il motore restituisce gli indirizzi delle pagine prima esaminate con la ricorrenza maggiore delle parole. Questo meccanismo di information retrieval applicato al Web ha alcuni limiti fondamentali. L’analisi delle ricorrenze appare un modo non sempre efficace per l’analisi dei siti, per la dimensione della rete e l’elevato dinamismo ed eterogeneità delle risorse informative, e della mancanza di una catalogazione. Nessun motore di ricerca ha una copertura totale della rete (i migliori non supererebbero il 40% delle pagine esistenti), il che significa che in ogni caso gran parte del Web non risulta coperto (per non parlare del “profondo Web”). Per molti motori risulta poi difficoltosa la gestione dei “link alle sottopagine” (sono pochi i motori che analizzano non solo una data pagina ma anche le pagine a cui essa è collegata). Inoltre per l’applicazione del metodo delle ricorrenze risulta ancora più complicata considerando anche che i contenuti non sempre hanno un formato omogeneo; vi sono inoltre problemi di vario tipo nella gestione delle diverse lingue. Ancora, il conteggio delle ricorrenze non fornisce necessariamente un buon parametro per misurare la “rilevanza” di un sito rispetto a un altro con riferimento a un dato argomento o parola. Infine va ricordato che non sempre l’utente (generico, ma talvolta anche quello specialista) è in grado di tradurre adeguatamente le proprie interrogazioni in parole chiave adeguate, e spesso le ricerche risultano infruttuose o complicate per questa ragione. Da ultimo, va ricordato che le tendenze dei motori di ricerca sembrano (almeno in alcuni casi) quelle di fornire posizioni privilegiate alle pagine “sponsorizzate”, il che evidentemente rende meno trasparente il processo di retrieval.

I problemi dei motori di ricerca difficoltà di reperimento mancanza di catalogazione struttura non gerarchica elevato dinamismo mancanza di controllo d’accesso varietà di formati varietà di livelli (il “deep Web”) QUINDI il problema della COPERTURA INSUFFICIENTE NESSUNO > 40% di pagine Web coperte (fonte: The Industry Standard) Gli aspetti prima indicati hanno implicazioni dirette in termini di problemi che si pongono nella ricerca delle informazioni in Internet. Al crescere della dimensione della rete e dell’eterogeneità dei formati aumenta evidentemente la difficoltà di reperimento di una data informazione in rete. Il reperimento è inoltre più difficile data l’assenza di catalogazione dei contenuti, oltre al fatto che questi possono trovarsi a livelli diversi nella rete (ad es. entro pagine interne di un sito, o nel deep web). Ma anche nel caso in cui sia possibile reperire facilmente l’informazione, sorgono problemi relativamente alla qualità del contenuto trovato, sia per l’incertezza sul grado di aggiornamento di tale contenuto, sia per quanto riguarda le garanzie di affidabilità e reputazione di chi ha pubblicato tale contenuto. Infine gli utenti stessi possono trovare difficile l’esplicitazione del proprio fabbisogno di informazione, così come la sua traduzione nell’appropriata strategia o procedura di ricerca in rete anche per evitare di cadere nella trappola dell’information overload; non esistono del resto modalità o procedure standard o ottimali che possano essere apprese e usate: in questo caso conta anche molto l’esperienza (e il tempo a disposizione).

Altri problemi dei motori di ricerca modalità di ricerca troppo semplici analisi delle ricorrenze non sufficiente insufficiente gestione dei “link” insufficiente gestione della varietà di formati insufficiente gestione della lingua difficoltà di ricerca da parte dell’utente nell’esplicitare/formalizzare il bisogno informativo nella messa a punto della “strategia di ricerca” per l’assenza di procedure “ottimali” o standard i motori di ricerca sono cambiati come funzionano “veramente” il problema dei siti sponsorizzati Gli aspetti prima indicati hanno implicazioni dirette in termini di problemi che si pongono nella ricerca delle informazioni in Internet. Al crescere della dimensione della rete e dell’eterogeneità dei formati aumenta evidentemente la difficoltà di reperimento di una data informazione in rete. Il reperimento è inoltre più difficile data l’assenza di catalogazione dei contenuti, oltre al fatto che questi possono trovarsi a livelli diversi nella rete (ad es. entro pagine interne di un sito, o nel deep web). Ma anche nel caso in cui sia possibile reperire facilmente l’informazione, sorgono problemi relativamente alla qualità del contenuto trovato, sia per l’incertezza sul grado di aggiornamento di tale contenuto, sia per quanto riguarda le garanzie di affidabilità e reputazione di chi ha pubblicato tale contenuto. Infine gli utenti stessi possono trovare difficile l’esplicitazione del proprio fabbisogno di informazione, così come la sua traduzione nell’appropriata strategia o procedura di ricerca in rete anche per evitare di cadere nella trappola dell’information overload; non esistono del resto modalità o procedure standard o ottimali che possano essere apprese e usate: in questo caso conta anche molto l’esperienza (e il tempo a disposizione).

Un ulteriore problema problemi di qualità/affidabilità grado di “aggiornamento” della pagina mancanza di controllo reputazione dei siti …. …. o certificazione dei siti?

Altri problemi dei motori di ricerca modalità di ricerca troppo semplici analisi delle ricorrenze insufficiente gestione dei “link” insufficiente gestione della varietà di formati insufficiente gestione della lingua problemi di qualità/affidabilità grado di “aggiornamento” della pagina reputazione/certificazione dei siti, delle pagine difficoltà di ricerca da parte dell’utente nell’esplicitare/formalizzare il bisogno informativo nella messa a punto della “strategia di ricerca” per l’assenza di procedure “ottimali” o standard Gli aspetti prima indicati hanno implicazioni dirette in termini di problemi che si pongono nella ricerca delle informazioni in Internet. Al crescere della dimensione della rete e dell’eterogeneità dei formati aumenta evidentemente la difficoltà di reperimento di una data informazione in rete. Il reperimento è inoltre più difficile data l’assenza di catalogazione dei contenuti, oltre al fatto che questi possono trovarsi a livelli diversi nella rete (ad es. entro pagine interne di un sito, o nel deep web). Ma anche nel caso in cui sia possibile reperire facilmente l’informazione, sorgono problemi relativamente alla qualità del contenuto trovato, sia per l’incertezza sul grado di aggiornamento di tale contenuto, sia per quanto riguarda le garanzie di affidabilità e reputazione di chi ha pubblicato tale contenuto. Infine gli utenti stessi possono trovare difficile l’esplicitazione del proprio fabbisogno di informazione, così come la sua traduzione nell’appropriata strategia o procedura di ricerca in rete anche per evitare di cadere nella trappola dell’information overload; non esistono del resto modalità o procedure standard o ottimali che possano essere apprese e usate: in questo caso conta anche molto l’esperienza (e il tempo a disposizione).

Se i motori di ricerca non risolvono il problema, cosa si può fare? La risposta tecnologica? analisi del linguaggio naturale agenti “intelligenti” di ricerca il “semantic Web” ... Al momento non sembra la soluzione QUINDI?

Strategie (diverse) dei motori di ricerca Specializzazione (es. “www.scirus.com”) integrazione (es. google) o ancora sponsorizzazione …. I principali modelli di riferimento per la ricerca di informazione nei grandi database documentali (e in particolare ci riferiamo ai tradizionali metodi di “information retrieval” classico) si dimostrano spesso inadeguati (per uno schema v. lucido seguente). Tali metodi sono essenzialmente basati sulle procedure di “indicizzazione”, ossia la costruzione in anticipo di “indici” dei contenuti dei diversi documenti, che vengono cioè preclassificati sulla base di parole chiave (in genere sulla base del conteggio delle “ricorrenze” in un testo). Tali indici sono poi usati per facilitare il reperimento del documento da parte dell’utente attraverso le parole chiave. Al momento lo strumento di ricerca largamente usato in Internet sono i motori di ricerca, che nella loro versione base o tradizionale funzionano su principi derivati di fatto dalle tecniche di information retrieval. Come vedremo, tale approccio presenta però serie limitazioni. D’altro canto allo stato non sono ancora state messe a punto tecniche davvero efficaci per espandere le funzionalità degli strumenti di ricerca in Internet. Le principali direzioni di ricerca riguardano: gli strumenti per analizzare il linguaggio naturale, in modo da superare i limiti delle classiche ricerche con parole chiave, e interpretare invece richieste informative anche complesse e articolate dell’utente lanciando ricerche in rete più efficaci. gli agenti di ricerca intelligenti, che aiutano l’utente nel reperimento e nella gestione delle risorse informative in Internet, automatizzando compiti routinari (svolti anche senza l’intervento diretto dell’utente – ad es. la verifica dell’aggiornamento di una data pagina web), oppure riproducendo alcuni “modelli comportamentali” tipici del profilo di un dato utente (ad es. tenendo traccia dei suoi “argomenti di ricerca” preferiti) la ristrutturazione del Web in modo che il contenuto di ogni pagina non sia semplicemente un testo, ma un testo arricchito di indicazioni sulla sua struttura e sul contenuto di ogni parte (v. il progetto del “semantic Web”); questo dovrebbe facilitare la definizione di motori di ricerca molto più efficaci. MOTORI DI RICERCA COME “OPERATORI BUSINESS” (INTERMEDIARI INFORMATIVI)

Strumenti di ricerca, ossia: Intermediari informativi Le fonti di informazione Le risorse informative La “rete” Gli utenti In definitiva, l’ambiente di Internet se pure informativamente ricchissimo risulta particolarmente difficile da trattare. Inoltre, non esistono metodi o strumenti “ideali” per la ricerca di informazione. Gli stessi motori di ricerca non sono l’unico strumento (né necessariamente il più efficace) per reperire i contenuti informativi. Ciò lascia spazio a una pluralità di strumenti e di operatori che possono offrire “servizi di intermediazione informativa”, ossia offrire un qualche tipo di “assistenza” nel facilitare il reperimento delle informazioni da parte degli utenti, o migliorare la visibilità delle fonti e delle risorse.

Gli intermediari informativi Funzione chiave: facilitare l’interazione domanda-offerta di informazione rendere visibile delle risorse/fonti di informazione facilitare il reperimento da parte degli utenti Intermediari come operatori business Varietà di situazioni  varietà di operatori in relazione alla classe di utenti (specializzazione, competenze, lingua, …. in relazione alla copertura in relazione alle prestazioni richieste( velocità, precisione, affidabilità …) in relazione al “costo” di intermediazione Catene di intermediari Il ruolo di tali “intermediari informativi” è quello di facilitare l’interazione e l’incontro tra la domanda e l’offerta di informazione in Internet, da un lato facilitando il reperimento da parte degli utenti, dall’altro rendendo maggiormente visibili le fonti e le risorse informative disponibili in rete. Dato che l’operazione di reperimento di informazione in Internet può avere meccanismi e gradi di efficienza diversi a seconda della situazione (ossia in relazione al tipo di utenti, ai loro fabbisogni informativi, alle fonti e risorse informative, al mezzo utilizzato), e non esistendo una soluzione unica “massimamente efficiente” per ogni specifico problema informativo, gli intermediari informativi possono anche rappresentare operatori in competizione tra loro e in grado di offrire soluzioni più o meno valide o efficienti a seconda della situazione e del contesto di applicazione. Ciò rende anche possibile la nascita di un “business” dei servizi di ricerca in rete. Si assiste a un proliferare di servizi di ricerca e di intermediazione informativa assai differenti tra loro, in relazione ad esempio al target di utenza, alla copertura della rete, alle prestazioni (in termini ad es. di velocità, piuttosto che di precisione, di affidabilità, ecc.), al costo di tale intermediazione informativa e alle modalità di pagamento di tale servizio (dall’erogazione gratuita o “sponsorizzata” - come del caso dei motori, ai servizi in abbonamento, ecc.) . Si assiste anche a fenomeni di alleanza e “concatenamento” tra tali intermediari, ossia a vere e proprie catene del valore nell’intermediazione informativa nelle quali ciascun operatore svolge particolari porzioni o funzioni del servizio complessivo fornito agli utenti.

Varietà di intermediari informativi: esempi motori di ricerca (www.google.com) --> Ricerca libera “generalista” nel Web metamotori (www.mamma.com) ---> Ricerca “superficiale” ma tramite diversi motori di ricerca directory (www.yahoo.com) --> Ricerca all’interno di elenchi preclassificati Portali istituzionali (www.istat.it) --> Fornitura specifica di informazioni “ufficiali” Portali specializzati (www.2night.it) --> informazione su argomenti specifici Portali di settore (“vortal” - www.paginetessili.it) --> informazione economica settoriale Cybermall (es. www.mrprice.it) --> informazioni commerciali su prodotti, ecc. “Yellow page” e altri elenchi (www.paginegialle.it, www.whowhere.com) --> elenchi di nominativi, email, ecc. (USA) Siti di comparazione (o “shopbot” - www.kelkoo.com): informazione comparativa di prodotti Banche dati bibliografiche (v. ad es. www.cab.unipd.it): documentazione e pubblicazioni editori online (es. www.ilsole24ore.com): informazione di fonte giornalistica servizi con operatore (es. www.profinder.it ): ricerca “assistita” A titolo di esempio, si può costruire elenchi di operatori di natura molto differente tra loro, ciascuno specializzato nella fornitura di informazioni specifiche via Internet, nella gestione di risorse/fonti specifiche, nell’utilizzo di tecnologie o metodi di ricerca diversi, ecc.

Intermediari informativi: comparazione interazione automazione affidabilità motori portali editori online servizi con operatore Questi strumenti hanno evidentemente prestazioni diverse relativamente a vari possibili aspetti. Ciò è importante nel momento in cui si imposta una ricerca in rete.

La capacità dell’utente Information literacy: imparare a cercare su Internet Oggi: utenti sempre più vari non competenti del mezzo Internet approccio di ricerca “intuitivo”

Impostare una ricerca: elementi Il quesito, l’oggetto, l’obiettivo della ricerca (“cosa” e “perché”) Il tempo e la capacità di chi cerca La qualità delle risposte Adeguatezza agli obiettivi/domande di ricerca Completezza – esaustività oppure: focalizzazione Affidabilità/autorevolezza della fonte; possibili modalità di verifica Grado di aggiornamento

Quali strumenti per quali ricerche? La navigazione diretta necessario conoscere in anticipo l’indirizzo pre-selezione da altre fonti (non in rete) metodo “snowball” come reperire all’interno del sito? NAVIGAZIONE LIBERA MOTORI DI RICERCA INTERNI Siti “autorevoli”? Ufficiali? Motori di ricerca google, ecc. ricerca “banale” (analisi delle ricorrenze); come scegliere le parole chiave? Servizi aggiuntivi (es. traduzioni, cache) fonti integrate (mappe, foto, news, libri, …) siti sponsor? Directory (yahoo) Esaustive? siti sponsor Ecco una ulteriore comparazione tra i possibili tipi di metodi o strumenti per la ricerca in rete (v. anche lucido successivo).

Quali strumenti per quali ricerche? (2) Metamotori motori di motori (es.: mamma; metacrawler) stesse problematiche dei motori, con un’estensione della copertura Portali ricerca specifica e delimitata. Adeguatezza alla ricerca? problema affidabilità del servizio Servizi specifici (es. yellow page, shopbot, ecc. Quale copertura? Adeguatezza alla ricerca? Come sono classificate le informazioni? Sono sponsorizzati? Come si effettua la ricerca? Editori online stessi limiti dei quotidiani su carta (fonte secondaria, problema affidabilità,..)

Approcci alla ricerca: il “browsing” QUESITO/OBIETTIVO DI RICERCA RICERCA SU UN MOTORE VALUTAZIONE (RAPIDA) DEI RISULTATI OUTPUT NAVIGAZIONE OUTPUT

Approcci alla ricerca: il “berry picking” QUESITO/OBIETTIVO DI RICERCA RICERCA (su vari strumenti); NAVIGAZIONE VALUTAZIONE (RAPIDA) DEI RISULTATI OUTPUT

Approcci alla ricerca: il “searching” QUESITO/OBIETTIVO DI RICERCA IMPOSTAZIONE: - identificazione del problema e del contesto cognitivo - identificazione e scelta di concetti, nozioni, parole chiave - scelta degli strumenti di ricerca più opportuni RICERCA (su vari strumenti) COMPARAZIONE E VALUTAZIONE DEI RISULTATI OUTPUT

COME RENDERE VISIBILI LE PROPRIE PAGINE? Conoscendo il funzionamento dei motori di ricerca Ad es.: includere le parole che si vuole siano indicizzate; ripetere più volte le parole (si deve ragionare sul modo di cercare degli utenti nel motore di ricerca) Evitando di mettere le informazioni chiave nelle sotto-sotto-sotto pagine “Pagando” per una migliore collocazione Ricorrendo ad altri servizi (es. banner o link in “siti di traffico”)