Carlo Bianchini - Univ. Udine 1 Gli strumenti per la ricerca I portali I motori di ricerca Le directory
Carlo Bianchini - Univ. Udine 2 I portali Definizione: Un portale è un prodotto editoriale in linea che svolge la funzione di punto privilegiato di accesso al Web per gli utenti e che fornisce loro risorse informative, servizi di comunicazione personale e strumenti con i quali localizzare e raggiungere i contenuti e i servizi in linea di cui hanno bisogno
Carlo Bianchini - Univ. Udine 3 Origine dei portali Le ragioni di nascita dei portali sono da individuare nei seguenti fattori: grande mobilità degli utenti di Internet grande popolarità dei motori di ricerca, dei provider di accesso, dei servizi editoriali o informativi, dei servizi di community (chat, forum) e dei siti aziendali pubblicità pagata in relazione al numero di utenti di un sito
Carlo Bianchini - Univ. Udine 4 Sviluppo dei portali Due tendenze di sviluppo: A) sempre maggiore integrazione di servizi di navigazione e offerta generale di contenuti B) posizionamento di dominanza in un settore di nicchia e offerta specializzata di contenuti Due tipologie di portali: A) Meta-portali (portali orizzontali o megaportali) B) Portali di secondo livello (portali verticali)
Carlo Bianchini - Univ. Udine 5 I megaportali Definizione: sono portali nel senso classico: punti di accesso alla rete che offrono strumenti di ricerca, contenuti e servizi ad ampio spettro tematico. Punti di ingresso alla rete e di ricerca di informazione (Virgilio, Kataweb, Arianna) Natura profit Necessità di alto numero di utenti Indagini di mercato sui profili degli utenti
Carlo Bianchini - Univ. Udine 6 I megaportali 2 Cercano di espandere la loro offerta informativa: a monte: proponendosi come Internet Providers, a costi minori o nulli a valle: con offerta di servizi –strumenti di ricerca (directory e motori di ricerca) –canali –offerta di contenuti proprietari (notizie giornalistiche o contenuti verticali) –intrattenimento –Informazioni di servizio (meteo, oroscopo, annunci, programmazione tv e cinema, consultazione banche dati o elenchi telefonici ecc.) –personalizzazioni, creazione di agende personalizzate, servizi di commercio elettronico proprietari
Carlo Bianchini - Univ. Udine 7 I portali di secondo livello (verticali) Definizione: siti che offrono contenuti, servizi e (non sempre) strumenti di ricerca dedicati a particolari domini tematici (sport, cinema, informatica, finanza ecc.) o rivolti a ben definiti gruppi sociali e comunità Corporate Portals: vasta gamma di informazioni di proprietà del gestore, dei suoi partner commerciali o di terzi (evoluzione delle Intranet aziendali)
Carlo Bianchini - Univ. Udine 8 I portali di secondo livello (verticali) 2 Portale locale: siti dedicati ai bisogni e alle necessità di una comunità di utenti spazialmente definita (tipicamente le reti civiche) Portale di comunità: dedicati a segmenti di utenza effettuata in base a caratteristiche demografiche (ad es. età o etnia) o occupazionali (ad es. Portale di interesse: siti fortemente specializzati, indirizzati indistintamente a chiunque abbia interesse per un argomento specifico (ad es.
Carlo Bianchini - Univ. Udine 9 I Portali italiani Siti italiani più visitati: 1. Italia On Line 2. Virgilio 3. Tiscalinet 4. Tin.it 5. KataWeb 6. Yahoo.it 7. Supereva 8. Jumpy Portali verticali: Alice, Il Sole 24 Ore, Sportal
Carlo Bianchini - Univ. Udine 10 Gli strumenti per la ricerca I motori di ricerca (o Search Engines) Modalità di ricerca –ricerca basata sulla potenza di calcolo –tecnica a controllo di stringhe –elevato numero di risposte Le Directory –Modalità di ricerca –analisi diretta dei siti –organizzazione classificata delle informazioni –numero di risposte selezionato
Carlo Bianchini - Univ. Udine 11 Motori di ricerca per parole Funzioni: 1) navigare (spiders o crawlers); 2) indicizzare Basati su robot (sistemi di indicizzazione automatica): Raccolta di archivi immensi Ricerca per parola Ordinamento in base alla rilevanza Problema: fare individuare ad una macchina omonimie, sinonimie ed equivalenze semantiche
Carlo Bianchini - Univ. Udine 12 Motori di ricerca per parole 2 Altavista ( o.it) –1100 milioni di pagine –25 milioni di utenti al mese (marzo 2003) –Individua la lingua dei documenti (unico) e traduce Google ( oppure –1,2 miliardo di pagine –PageRank (2 miliardi di variabili) Northern Light ( Nuovo motore per ricerche bibliografiche
Carlo Bianchini - Univ. Udine 13 Ordinamento in base alla rilevanza Frequenza = n. occorrenze dei termini utilizzati per la ricerca all'interno della singola pagina recuperata Densità = rapporto fra il n. occorrenze dei termini all'interno della pagina e il totale delle parole contenute nella pagina Rarità = rapporto inverso fra il numero di occorrenze dei termini utilizzati per la ricerca all'interno del database del motore e il totale delle parole contenute nel database stesso. Alcuni motori dispongono anche di una lista di stopwords che vengono ignorate Compresenza = presenza, nella pagina, di più d'uno dei termini richiesti o addirittura di tutti.
Carlo Bianchini - Univ. Udine 14 Ordinamento in base alla rilevanza 2 Prossimità = presenza, nella pagina, di più d'uno dei termini richiesti - o addirittura di tutti - nella medesima frase o comunque vicini fra loro Priorità = ordine in cui sono stati immessi i termini nel form di ricerca Posizione = presenza dei termini in particolari zone della pagina Aggiornamento = a parità di requisiti, alcuni motori privilegiano le pagine più recenti Popolarità = numero dei link "in entrata" provenienti da altre pagine contenute nel database del motore Tariffazione = è possibile, pagando, garantire una posizione di rilievo alle proprie pagine nella schermata di risposta
Carlo Bianchini - Univ. Udine 15 Metadati e Metatag Per il recupero dellinformazione si utilizzano: Metadata ("dati sui dati", ovvero informazioni, general-mente strutturate e scandite in campi, relative a documenti primari "a testo pieno" o full-text) Metatag (sono quei tag, o marcatori, del linguaggio HTML che possono venire inseriti, con funzione di metadata, nella parte nascosta HEAD del file a cui si riferiscono
Carlo Bianchini - Univ. Udine 16 Metadati e Metatag 2 AUTHOR: più chi stende la pagina HTML che chi scrive il contenuto COPYRIGHT: Dichiarazione espli- cita e sintetica sui diritti relativi al documento GENERATOR = Indica il software utilizzato per creare il file HTML ROBOT = Indica ai software di ricerca dei motori se e come tenere conto della pagina TITLE: E' il metatag più utilizzato e più "pesante" per i motori di ricerca DESCRIPTION = Breve descri- zione del contenuto della pagina KEYWORD = Ulteriori parole chiave ritenute particolarmente significative
Carlo Bianchini - Univ. Udine 17 Le Directory Siti a selezione manuale di risorse di qualità Giustapposizione di classe e soggetto Ricorso a strutture gerarchiche (spesso mal strutturate) Fattore umano (qualità e dimensioni) Validità limitata nel tempo Un esempio: Yahoo ( oppure.it)
Carlo Bianchini - Univ. Udine 18 I motori di ricerca di seconda generazione Google ( Si basa su macchine che effettuano la ricerca delle parole chiave allinterno delle pagine registrate dal motore come i motori di prima generazione Si differenzia nel modo di valutare i risultati ottenuti (ranking) grazie al nuovo algoritmo PageRank (TM)
Carlo Bianchini - Univ. Udine 19 I motori di ricerca di terza generazione Teoma ( Si basa su macchine che effettuano la ricerca delle parole chiave allinterno delle pagine registrate dal motore come i motori di prima generazione Si differenzia nel modo di valutare i risultati ottenuti (ranking) grazia ad una nuovo algoritmo più restrittivo (Subject-specific popularity) Si differenzia nel modo di presentare i risultati (document clustering)
Carlo Bianchini - Univ. Udine 20 Document clustering Classificazione dei documenti: i documenti vengono scandagliati nei contenuti e presentati suddivisi per argomento e per rilevanza. Il processo è suddiviso in tre fasi: –Data mining –Text mining –Web mining
Carlo Bianchini - Univ. Udine 21 Data, Text Web mining Data mining: processo di estrazione di conoscenza da banche dati di grandi dimensioni attraverso lapplicazione di algoritmi che individuano le associazioni tra informazioni Text mining: estrazione e mappatura di informazioni direttamente dai testi, per realizzare una mappa cartografica delle informazioni Web mining: applicazione simultanea dei precedenti per la ricerca di associazioni sul piano dei contenuti, della struttura e delluso delle informazioni
Carlo Bianchini - Univ. Udine 22 Altri motori di terza generazione Vivisimo ( ) WiseNut ( ) Clusty ( ) Turbo10 ( ) Kart00 ( )