La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

La ricerca di risorse in rete. Il paradigma di querying.

Presentazioni simili


Presentazione sul tema: "La ricerca di risorse in rete. Il paradigma di querying."— Transcript della presentazione:

1 La ricerca di risorse in rete

2

3 Il paradigma di querying

4 Network information retrieval I motori di ricerca Tecniche di querying Qualità dell'informazione La ricerca bibliografica

5 I motori di ricerca Tipologia –Motori Ricerca per Keywords Ricerca per directory –Metamotori Metacrawler Dogpile Funzionamento –Interfaccia Ricerca semplice –Spider e crawling Keywords Stringhe Struttura codice HTML –Codici di marcatura Metatag Web usability –Web semantico XML Il Dublin core

6 Tipologia Motori –Ricerca per Keywords Google Altavista –Ricerca per directory Yahoo! Metamotori –Metacrawler –Dogpile

7 Motori Ricerca per Keywords –Google Ricerca semplice Ricerca avanzata La Google Toolbar –Altavista Ricerca per directory –Yahoo!

8 Ricerca per Keywords Google –Ricerca semplice –Ricerca avanzata –La Google Toolbar Altavista

9 Google Ricerca semplice Ricerca avanzata La Google Toolbar

10 Ricerca semplice La ricerca attraverso Google è possibile in due modalità: la ricerca semplice e quella avanzata. Nella modalità di ricerca semplice, 'Web' conferma che la ricerca si svolgerà sulla base dati costituita dalle pagine Web, mentre 'Directory' porta all'indice sistematico che Google mutua da Open Directory. I termini da cercare vanno inseriti in un semplicissimo modulo composto da un unico campo. Se inseriamo più di un termine la ricerca avviene in 'AND' e restituisce le pagine in cui compaiono tutti i termini inseriti. Il pulsante 'Mi sento fortunato' è una peculiarità di Google: se si preme al posto del pulsante 'Cerca con Google', anziché arrivare a una lista di pagine Web che soddisfano i nostri criteri di ricerca salteremo direttamente alla prima di tali pagine. La presenza di questa opzione vuole richiamare quello che è stato fin dalla nascita uno dei vanti principali di Google: l'algoritmo di ordinamento dei risultati, che, in continua evoluzione e sempre più sofisticato ed efficace, ha la funzione di elencare per prime le pagine più rilevanti per la ricerca. Google restituisce i suoi risultati dieci alla volta: Il titolo di ognuna delle pagine di corrispondenze è in blu ed è cliccabile e sotto di esso compare un breve estratto della pagina per capire in che contesto sono usati i termini cercati e, se la pagina è compresa nell'indice sistematico di Google, anche la relativa descrizione e categoria. L'integrazione fra motore di ricerca e indice sistematico costituisce una novità del 2003 ed è lineare e di immediata interpretazione. Troviamo in verde l'indirizzo completo della pagina, una stima del suo 'peso' in Kbyte e il comodissimo link alla 'copia cache' della pagina stessa: nell'indicizzare un sito, infatti, Google conserva sui propri server una copia locale di tutte le pagine trovate. La copia locale può mancare di diverse caratteristiche della pagina originaria (immagini, ecc.) e alcuni link possono non funzionare, ma in molti casi essa consente di arrivare all'informazione che cerchiamo anche quando il sito in questione per qualche motivo non sia raggiungibile, o la pagina sia stata cancellata o modificata. In alcuni casi può essere utile anche il link 'pagine simili', che sfrutta un algoritmo di 'filtraggio collaborativo' (basato sull'analisi delle abitudini di navigazione degli utenti) elaborato per collegare fra loro siti di argomento analogo.

11 Ricerca avanzata Gli utenti più abili preferiranno spesso alla pagina della ricerca di base quella della ricerca avanzata: attraverso qualche campo in più e comodi menu a tendina, tale pagina consente un controllo raffinato delle opzioni di ricerca e l'impostazione di ricerche anche assai complesse. Nei campi attivi, a scelta dell'utente, occorre solo digitare il termine o i termini della ricerca; il software è predisposto per attivare le procedure di ricerca booleana. Per operare con maggiore precisione, è consigliabile leggere attentamente le opzioni della maschera.

12 La Google Toolbar Nell'analisi delle funzionalità di Google una menzione particolare merita infine la Google toolbar, plug-in disponibile per Internet Explorer (versione 5 o successiva). Una volta installata, la toolbar compare come barra aggiuntiva nella porzione superiore della finestra di Explorer. Le funzionalità offerte sono in effetti assai utili: oltre alla disponibilità in ogni momento di una casella di ricerca su Google (con la possibilità di ricercare non solo pagine web ma anche immagini, notizie, quotazioni di borsa, la Open Directory, i newsgroup e un dizionario inglese), la Google toolbar permette di visualizzare, attraverso una piccola barra verde, il Page Rank, un indice di attendibilità della pagina comunque interessante, di tradurla ( comunque traduzioni poco attendibili),di svolgere ricerche all'interno della pagina o del sito, di ricercare automaticamente pagine simili, e infine (assai utile nel caso di pagine un po' lunghe e complesse) di evidenziare automaticamente all'interno della pagina le parole cercate. Le funzioni non gradite, tuttavia, possono essere facilmente disattivate dal menu 'Opzioni' della toolbar.

13 Altavista Altavista è il risultato di un progetto di ricerca iniziato nell'estate del 1995 nei laboratori di Palo Alto della Digital, azienda storica del mondo dell'informatica, e prima dell'avvento di Google, dal 1997 al 1999, è stato leader tra i motori di ricerca. Anche se attualmente ha perduto diverse posizioni, non per la qualità della sua struttura, ma per vicende connesse al mercato, continua comunque ad essere tra i più grandi con un indice analitico di oltre 550 milioni di pagine web (marzo 2001). Possiede una funzionalità di ricerca multilingue che si avvale del software di traduzione Babel Fish, prodotto dalla stessa azienda; il servizio, che è stato il primo di questo genere in rete, può tradurre parole, espressioni e siti interi. Tuttavia, le traduzioni automatiche lasciano ancora molto a desiderare. I risultati includono il titotlo della pagina, una descrizione,la data e le opzioni per visualizzare altre pagine dello stesso sito o per tradurre le informazioni. La versione italiana non utilizza l'intero database della versione americana che resta, quindi, preferibile, anche perchè tanti siti italiani sono registrati come ".com". I risultati sono classificati in base alla pertinenza all'interrogazione. Anche Altavista presenta una Toolbar.

14 Ricerca per directory Yahoo!

15 Yahoo!, acronimo di "Yet Another Hierarchical Officious Oracle, anche se somiglia molto ad un'espressione di giubilo, è nato nell'aprile 1994, quando due studenti di ingegneria elettronica dell'Università di Stanford, David Filo e Jerry Yang, crearono pagine riassuntive con link ai siti Internet di loro interesse. Nel corso del 1994 Yahoo! si trasformò in un vero e proprio database, ricco di migliaia di pagine indicizzate. All'inizio del 1995 Mark Andreessen, cofondatore della Netscape, percepì l'interesse dello strumento creato da Filo e Yang e si offrì di contribuire alla trasformazione della iniziativa in una impresa commerciale. Adesso è una impresa privata, quotata in borsa, finanziata fra l'altro attraverso le inserzioni pubblicitarie accolte a rotazione nelle sue pagine (Calvo, Roncaglia,2004). L'indice vero e proprio inizia sotto la linea di separazione; le voci in grassetto sono le categorie principali, quelle in carattere più piccolo sono alcune fra le loro sottocategorie. Yahoo! permette inoltre una ricerca per parole chiave che si rivela spesso il sistema più rapido per individuare la categoria cercata; infatti, a differenza di quanto avviene nel caso dei motori di ricerca per termini, questa ricerca non riguarda il testo integrale delle pagine web, ma solo il database interno di Yahoo!. Questa funzione permette di individuare, più che le singole risorse informative, le specifiche categorie. Se però il termine ricercato con questa modalità non compare all'interno delle voci del database di Yahoo!, esso viene "inviato" ad un vero motore di ricerca per termini. La sua funzione di indice sistematico di risorse è stata progressivamente affiancata da una miriade di funzionalità aggiuntive: uno dei maggiori servizi per la gestione via web di indirizzi gratuiti (Yahoo! Mail) una delle maggiori raccolte di pagine personali (Yahoo! GeoCities), la gestione di comunità web (Yahoo! Groups) il servizio di instant messaging (Yahoo! Messenger), collegato a una delle chat più vaste, articolate e frequentate della rete (Yahoo! Chat). Yahoo! permette, inoltre, una ricerca per parole chiave che - a patto di saperne interpretare i risultati - si rivela spesso il sistema più rapido per individuare la categoria cercata.

16 Metamotori Metacrawler Dogpile

17 Metacrawler Metacrawler è un importante strumento di metaricerca della rete Lycos, che presenta i risultati in base alla pertinenza, al sito o alla provenienza. Esso estrae i risultati da un gran numero di motori, quindi li raccoglie e li presenta in un lungo elenco di corrispondenze, disposte in base alle preferenze derivanti dall'ordine dei termini da cercare immessi dall'utente. Inoltre, indica la provenienza dei risultati e fornisce una breve descrizione del sito di ciascun fornitore di ricerca che ha restituito una corrispondenza. È disponibile anche un collegamento ad altri fornitori di ricerche. La funzione View Related indica altre possibili corrispondenze e consente di restringere la ricerca a vari tipi di formati. MiniCrawler è una piccola finestra di desktop; MetaSpy mostra le interrogazioni di altri utenti.

18 Dogpile Dogpile è un motore di metaricerca molto diffuso; può accedere a numerose fonti di informazione, tra cui listini di Borsa, pagine gialle, previsioni del tempo. Esso presenta i risultati raggruppati in base ai singoli fornitori di ricerche; anzichè interrogare simultaneamente tutti i fornitori di ricerche, Dogpile presenta l'interrogazione a una selezione di fornitori per volta. La funzione di ricerca avanzata consente di determinare l'ordine in cui queste fonti vengono interrogate e di rimuovere dall'elenco delle metaricerche fonti non pertinenti. Scegliendo il pulsante di opzione appropiato sotto la casella di ricerca, può essere specificata un'area precisa; dopo la lettura delle corrispondenze trovate, è possibile impartire al metamotore il comando di interrogare altri fornitori di ricerche, cliccando su Next Set of Search Engines in fondo alla pagina.

19 Funzionamento Interfaccia –Ricerca semplice Ricerca avanzata Spider e crawling –Keywords –Stringhe

20 Interfaccia Ricerca semplice –Ricerca avanzata Ricerca di immagini

21 Ricerca semplice Ricerca avanzata –Ricerca di immagini

22 Ricerca avanzata Ricerca di immagini

23 L'informazione presente su internet non è solo testuale; componente essenziale dei file sono i contenuti multimediali. La maggior parte dei principali motori di ricerca ha la capacità di svolgere ricerche specifiche anche sulle immagini e per accedere a questa funzione basta clikkare sull'apposito link presente nella pagina principale. Successivamente, i termini di ricerca inseriti vanno riferiti per cercare nomi, descrizioni o testo di contorno relativi alle immagini richieste. Le immagini vengono catalogate attraverso questi valori testuali che, se scelti con cura, facilitano il loro recupero. Ai fini della ricerca è importante, quindi, che chi realizza pagine web, oltre ad attribuire titoli appropriati alle pagine, scelga accuratamente anche il testo descrittivo delle immagini.

24 Spider e crawling Keywords Stringhe

25 Keywords Per Keywords si intendono le singole parole o le frasi composte da 2-4 termini, definite in base al contenuto del documento da ricercare ed efficaci in termini di risultati e accessi qualificati. Da parte del browser, sono parole, espressioni o codici caratteristici memorizzati in un campo chiave ed impiegati per condurre operazioni di ordinamento o ricerca sui record di un data base. Molto spesso, il risultato di una ricerca è affidata proprio alla pertinenza e alla capacità evocativa delle parole inserite: più identificano l'oggetto cercato, più alta è la probabilità di reperire proprio ciò che si cerca.

26 Stringhe La ricerca per frase, o, più propriamente, la ricerca su stringa di caratteri, è ancor più restrittiva e selettiva della ricerca in AND: anziché offrirci tutte le pagine in cui compaiono i termini cercati, restituisce tutte le pagine in cui i termini cercati compaiono uno di seguito all'altro, nello specifico ordine indicato. In generale, la ricerca per frase è assai comoda quando si ha a che fare con nomi e cognomi (attenzione però, soprattutto nel caso dei nomi anglosassoni, alle eventuali iniziali intermedie). La si può svolgere anche attraverso la pagina della ricerca di base, avendo l'accortezza di includere fra apici doppi ("...") la stringa di caratteri sulla quale si conduce la ricerca.

27 Struttura codice HTML Codici di marcatura –Metatag –Web usability Netiquette Web semantico –XML –Il Dublin core

28 Codici di marcatura Metatag Web usability –Netiquette

29 Metatag Nei documenti HTML o XML vengono inseriti dei marcatori definiti Metatag che consentono al creatore della pagina web di includere informazioni quali il nome dell'autore, le parole chiave che identificano il contenuto e dettagli descrittivi ( ad esempio oggetti non di testo sulla pagina). Le informazioni contrassegnate con i metatag non appaiono sulla pagina web quando l'utente la visualizza con il browser, ma possono essere visualizzate nel codice sorgente. I metatag sono inclusi nell'intestazione di un documento e sono spesso usati per assistere i motori di ricerca nell'indicizzazione della pagina. Nel codice del documento HTML va inserito il tag, seguito dall'attributo "name" e dal valore "description" accanto all'altro attributo "content" che precede una chiara descrizione della pagina da indicizzare. La descrizione può contenere un massimo di 120 caratteri. La maggior parte dei motori di ricerca possiede un proprio regolamento per garantire agli utenti il miglior servizio di indicizzazione ed i più utilizzati esplicitano in guide apposite. Utilizzando i tag META per inserire parole chiave nelle pagine, si aiuteranno i motori di ricerca ad indicizzare i siti; esistono diverse regole per tale procedura, ma tutte si basano sul buon senso: Evitare di ripere le parole chiave in una situazione inappropriata Visitare regolarmente i siti web dei principali motori per conoscere con precisione i metodi usati per l'inserimento di nuovi URL nell'indice. name= "keywords" content= tecniche, metodologia, e-learning, ricerca, risorse"> Con il tag “meta” si possono specificare l’autore di una pagina, il programma con cui è stata realizzata, la data di creazione, la validità temporale e altri parametri che non vengono visualizzati a video, ma possono essere utilizzati per scopi diversi. La sintassi HTML per indicare l’autore di una pagina è la seguente: Alcuni metatag sono molto utili per la catalogazione dei siti e vengono utilizzati dai motori per l’indicizzazione. Fondamentale in questo senso è il tag che consente di definire le “parole chiave” di una pagina. Riportiamo di seguito il codice HTML che permette di specificarne tre parole chiave:

30 Web usability Netiquette

31 La facilita' con la quale oggi e' possibile collegarsi ad Internet ha comportato, accanto al dato positivo della accessibilita' ai piu' svariati tipi di informazioni da parte di un sempre maggior numero di persone, un effetto negativo. I nuovi utenti, infatti, spesso non vengono addestrati opportunamente ad un uso corretto delle risorse di rete. La facilita' con la quale oggi e' possibile collegarsi ad Internet ha comportato, accanto al dato positivo della accessibilita' ai piu' svariati tipi di informazioni da parte un sempre maggior numero di persone, un effetto negativo. I nuovi utenti infatti spesso non vengono addestrati opportunamente ad un uso corretto delle risorse di rete. Il trasferimento di file FTP (File Transfer Protocol) in ambito Internet avviene spesso con la cosiddetta modalita' anonima. Cio' significa che quando ci si collega ad una banca dati che funge da Server FTP, alla richiesta di immissione della login si deve digitare la parola anonymous o, in alternativa, ftp e alla richiesta di immissione della password si deve digitare il proprio indirizzo completo di posta elettronica ( address). Non esistono regole e norme specifiche per la preparazione dei documenti www, esistono comunque alcune avvertenze: le pagine devono essere prodotte in linguaggio HTML di cui esistono varie specifiche; è bene che l'estensore del documento indichi secondo quale specifica e' stato preparato il testo e su quale browser e' stato testato. la maggior parte degli utilizzatori si connette alla rete via modem e la trasmissione e' piuttosto lenta; e' opportuno che le singole pagine siano rapidamente caricabili, intuitive, di facile e piacevole consultazione, con un buon bilanciamento tra parte grafica e scritta. è bene che le pagine non siano troppo lunghe; si puo' spezzare un documento in piu' capitoli, creando all'inizio un indice dal quale si possono raggiungere le varie sezioni del documento stesso. è importante pianificare l'organizzazione dei documenti che si vogliono creare per non costringere gli utenti ad una laboriosa ricerca delle parti di specifico interesse. la creazione di un sito web basa la sua riuscita sulla Home Page, che rappresenta la propria presentazione al mondo esterno: e' necessario che essa sia sintetica ma informativa. un documento HTML dovrebbe: Possedere un titolo informativo sulla sua natura. Essere lungo da 1 a 4 pagine di formato A4. Contenere dei collegamenti con il documento precedente, con quello seguente, con l'indice generale e con la home page. Contenere delle indicazioni riguardanti l'autore del documento stesso e sul come contattarlo, la data dell'ultimo aggiornamento della pagina, eventuali copyright. Un'ottima fonte che spiega come preparare un documento HTML si trova collegandosi a

32 Web semantico XML Il Dublin core

33 XML Un problema aperto per la ricerca in Internet risiede nella capacità di catalogazione. I motori di ricerca non riescono a reggere il ritmo di crescita del Web e, per quanto indicizzino un numero sempre maggiore di pagine, in rete i siti aumentano con velocità superiore. Attualmente si stima che i motori di ricerca riescano a catalogarne non più del %, situazione aggravata dal fatto che in rete sono sempre più presenti documenti che utilizzano formati diversi dall’HTML, come PDF o RTF che non tutti i motori riescono a catalogare. Spesso, anche le pagine HTML non sono stabilmente memorizzate nei server, ma vengono create dinamicamente sulla base delle specifiche richieste degli utenti, prelevando i dati da archivi che rimangono al di fuori della portata dei crawlers. A fronte di tali questioni, però, aumenta sempre più anche l’impegno per creare strumenti che consentano di sfruttare al meglio le enormi risorse della rete, come ad esempio l’XML, l’Extensible Markup Language, forma ridotta del SGML (Standard Generalized Markup Language), che fornisce una base semantica al Web. Xml (Extensible Markup Language) è un linguaggio di marcatura, definito dal W3C nell'ottobre del 1998,che permette a sua volta di costruire altri linguaggi funzionali a specifiche esigenze. L'XML consente ai progettisti e agli sviluppatori web di creare tag personalizzati, che offrono una maggiore flessibilità nell'organizzazione e presentazione di informazioni rispetto al sistema di codifica dell'HTML. Anche Xml può essere utilizzato su Internet, è di utilizzo relativamente semplice, supporta più applicazioni, e risponde a requisiti di chiarezza e comprensibilità. In particolare, Xml gode della proprietà dell'estensibilità: essa gli permette di adattarsi a piattaforme di utilizzazione diverse, dai pc ai telefonini. Xml consentirà, fra le altre cose, di descrivere semanticamente i siti web, permettendo ai motori di ricerca una identificazione "intelligente" delle risorse presenti in Internet ("Semantic web"). Si tratta di un linguaggio, quindi, che permette di definire nuovi tag che possano specificare il contenuto delle pagine, in modo che un utente può creare nuovi oggetti, inserirli nelle pagine e attribuire loro significato attraverso i tag. E’ indubbio, però, che i contributi allo sviluppo della rete non potranno venire solo dalle discipline tecnologiche, anzi, le conoscenze degli studiosi che si occupano di catalogazione, conservazione e recupero del patrimonio letterario possono rappresentare un aiuto fondamentale. L'XML è definito come standard di linguaggio pubblicato dal W3C;anche per il Web Semantico sono stati imposti subito degli standard, il più famoso dei quali è certamente RDFs, un linguaggio in sintassi XML per definire e esprimere concetti.

34 Il Dublin core Un progetto di grandi aspettative è il Dublin Core Metadata, nato nel 1995 durante un convegno promosso dall'OCLC (On line Computer Library Center), grande organizzazione no-profit che si occupa di catalogazione e dell'allestimento e commercializzazione di archivi elettronici, con sede a Dublin, nell'Ohio. L'obiettivo del progetto è la definizione di uno standard che permetta la descrizione delle risorse in rete da parte degli stessi autori, in modo da garantire una autocatalogazione del documento e stabilire le premesse per realizzare indicizzazioni successive. Lo standard del Dublin Core individua 15 categorie (core) descrittive di base, di tipo bibliografico,adattabili a varie categorie di documenti. La traduzione italiana completa è sul sito AIB,. Ogni categoria può essere inclusa nel file HTML della risorsa catalogata nella parte dell', invisibile ai browser, ma utilizzata dai principali motori di ricerca, con il tag, già compreso nello standard HTML.

35 Tecniche di querying Operatori booleani Segni diacritici Segni matematici Metodo SEWCOM Metadati

36 Operatori booleani Gli operatori booleani, che rappresentano forse la funzione più utile nella definizione dei criteri di ricerca, possono garantire un notevole controllo sulla logica del motore di ricerca. Il matematico inglese, George Boole, ha sviluppato l’algebra della logica, che è diventata la base delle ricerche dei database di computer. La logica booleana utilizza parole denominate operatori per stabilire se una affermazione è vera o falsa. Gli operatori più comuni sono AND, OR e NOT, (oppure, AND, NOT in alcuni motori), che possono essere enormemente utili quando si eseguono ricerche on-line. Essi, insieme al NEAR e all'uso delle parentesi sono, per molti aspetti analoghi agli operatori matematici, nel modo di modellare l’esecuzione di un’equazione complessa. Ecco ciò che gli operatori booleani possono fare: -AND Per cercate un documento che dovrebbe contenere tutte le parole chiave volute, si può utilizzare la parola in lettere maiuscole AND fra le parole chiave. Il motore di ricerca indicherà solo documenti che hanno entrambe le parole. Accertarsi, comunque, di mettere in maiuscolo la parola AND, altrimenti il motore di ricerca la tratterà come una parola chiave, non come un operatore. - OR Per allargare la ricerca e trovare documenti contenenti una di due parole chiave, occorre utilizzare l’operatore OR fra le parole. Esso è molto utile quando si ricercano i termini che hanno sinonimi che potrebbero essere utilizzati nello stesso senso in un documento. - NEAR Questo operatore è una forma più specifica dell’operatore AND. Garantisce che il documento contenga entrambi i termini e che siano posizionati vicini l’uno all’altro. In molti documenti lunghi, utilizzare solo l’operatore AND potrebbe non fornire informazioni utili, poiché le due parole chiave potrebbero essere situate in parti molto diverse del documento e potrebbero non essere connesse fra loro. - NOT o AND NOT Utilizzando le parole in maiuscolo AND NOT davanti a un termine di ricerca, si eliminano i documenti contenenti tale termine. - Parentesi Gli operatori AND, NEAR, OR e AND NOT sono efficaci già di per sé, ma se utilizzati assieme alle parentesi, offrono un controllo notevole sulla logica della ricerca eseguita dal motore. Le parentesi sono utilizzate nella logica booleana in maniera analoga a come vengono utilizzate in un’equazione matematica, limitando e ordinando le relazioni tra le variabili.

37 Operatori booleani Esse vengono utilizzate prevalentemente per racchiudere due possibili parole chiave separate da un operatore OR e quindi collegare le parole chiave possibili fra parentesi con altri criteri utilizzando AND, ma vi sono momenti in cui può rivelarsi utile una disposizione contraria. Si può affinare ulteriormente la ricerca, anche utilizzando doppie parentesi, ricordando,però, che nell’espressione di Boole ad ogni parentesi di sinistra deve corrispondere una parentesi a destra, altrimenti il motore di ricerca non riconoscerà le istruzioni. Molti motori di ricerca offrono la possibilità di limitare le ricerche per date di creazione delle pagine Web. Si tratta di uno strumento molto utile per chi eseguirà ricerche continue su un argomento specifico, consentendogli di limitare i risultati alle pagine create dalla loro ultima ricerca. È utile anche quando si esegue una ricerca tematica di avvenimenti attuali. Alcuni motori sono in grado di limitare le ricerche ad aree specifiche, le più comuni delle quali sono: titolo e URL. Ancora, alcuni motori di ricerca permettono di limitare le ricerche a "solo nel Web" o solo i "newsgroup"; inoltre, la maggioranza dei sistemi utilizza attualmente l’AND come operatore logico di default, mentre solo una minoranza di sistemi utilizza attualmente l’OR come operatore logico di default. Intersezione (And o +) per rintracciare i record che soddisfano tutti i criteri richiesti. = tutti i record che contengono sia la parola Promessi, sia la parola Sposi. Unione (OR) per rintracciare i recordi che soddisfano almeno uno dei criteri richiesti. = tutti i record che contengono la parola Promessi, tutti i record che contengono la parola Sposi, tutti i record che le contengono entrambe. Complemento (NOT oppure AND NOT): per rintracciare i record che soddisfano un determinato criterio escludendo quelli che però ne soddisfano un altro. = tutti i record che contengono la parola Promessi tranne quelli che contengono anche la parola Sposi. Esclusione (XOR o NOR): per rintracciare i record che soddisfano esclusivamente uno solo dei criteri richiesti. = tutti i record che contengono la sola parola Promessi, tutti i record che contengono la sola parolaSposi, ma non quelli che le contengono entrambe. [*didascalie ed immagini da: Metitieri, Ridi, Biblioteche in rete, Bari,Laterza,2002*] vedi anche: Esistono anche numerosi altri operatori, non sempre presenti in tutti i sistemi, utilizzabili per effettuare ricerche più sofisticate: SAME si aggiunge la condizione che entrambi i termini debbano trovarsi all'interno del medesimo campo ADJ o WITH si rintracciano tutte le occorrenze all'interno del medesimo campo della frase solo nell'ordine richiesto

38 Segni diacritici Internet, come del resto buona parte dell’informatica, è nata in lingua inglese, senza accenti e senza caratteri diacritici. La grande maggioranza dei testi presenti in rete contiene unicamente dei caratteri del set Ascii «ristretto». L’Ascii (American standard code for information interchange), che si basa su 8 bit, può rappresentare 256 caratteri diversi, ma solo la codifica dei primi 128, quelli che costituiscono l’Ascii ristretto (Us-Ascii, chiamato anche Plain vanilla Ascii) è realmente universale; i codici utilizzati per gli altri caratteri, che costituiscono l’Ascii esteso, possono variare da sistema a sistema e la loro trasmissione può comportare alcuni problemi. Oltre ai numeri, alle lettere maiuscole e minuscole (senza alcun accento), ai simboli di punteggiatura, allo spazio e ad alcuni codici di controllo, l’Ascii ristretto comprende solo i seguenti caratteri di uso comune: ! “ # $ % & ‘ ( ) * + - / \ = [ ] ^ _ { } ~ Questo scenario è in rapida evoluzione grazie alla progressiva diffusione di protocolli più ricchi e completi; per il momento, tuttavia, molti motori e Opac non trattano correttamente gli accenti. (Metitieri, Ridi, 1999) Stabilire una regola universale da seguire in tutte le ricerche su qualsiasi sistema non è possibile, ma nel dubbio è meglio provare a eliminare gli accenti e sostituire le lettere accentate con i corrispondenti caratteri non accentati. Tra questi i più comuni sono i caratteri definiti jolly: il troncamento con *, per per sostituire un numero indeterminato di caratteri a destra o a sinistra della parola il mascheramento con ?, per sostituire un numero determinato di caratteri all'interno di una parola

39 Segni matematici Alcuni motori di ricerca offrono una variante degli operatori booleani AND e NOT. Un simbolo + davanti a una parola (senza spazi in mezzo) esigerà che la parola sia presente nei documenti. Un simbolo – davanti a una parola chiave assicurerà che la parola non sia presente nei documenti indicati. Va notato che tutte le parole che devono essere contenute nel documento devono essere precedute da un simbolo +, persino la prima parola. - I documenti devono includere "Tutti i termini" (equivalente ad utilizzare l’operatore AND fra tutti i termini). - I documenti devono includere "Ogni termine" (equivalente ad utilizzare l’operatore OR fra tutti i termini

40 Metodo SEWCOM L'eccesso di documenti da cui si viene sommersi utilizzando i motori di ricerca Recenti ricerche sulla metacognizione hanno accertato che le dinamiche attivate nei percorsi di apprendimento possono essere stimolate da processi organizzati delle fasi mentali e da rappresentazioni visive e concrete del sapere. Pertanto, per dare significato a quanto viene appreso, uno degli strumenti più versatili ed efficaci risulta l'uso delle mappe concettuali. La costruzione di mappe consente di schematizzare significati e collegamenti logici fra concetti, mettendo in luce le idee-base che si pongono a fondamento dello svolgimento di compiti di conoscenza. La metacognizione interviene anche nella creazione di forme linguistiche, finalizzate a padroneggiare ed esternare, in modo sempre più consapevole, le proprie intenzioni comunicative. Anche l'abilità di organizzare i concetti, che viene ad essere fortemente stimolata dalla creazione di mappe concettuali, è una capacità eminentemente metacognitiva, atta a transfer di apprendimenti. Il metodo SEWCOM (Search the Web with Concept Maps) è un metodo metacognitivo, che suggerisce di organizzare i concetti in strutture visive, con le quali pianificare un'attività di ricerca, traducendo in Keywords le idee emerse dalla riflessione, anche attraverso un efficace brainstorming, sull'oggetto informativo. Esso agevola, quindi, non solo la possibilità di contrastare così l'information overload, l'eccesso di informazione, ma anche di ristrutturare la nuova conoscenza acquisita, rendendola duttile e di immediata fruizione. I due processi: il lessico e le strategie La ricerca dell'informazione coinvolge due processi strettamente legati tra loro: 1. apprendere riguardo il lessico del dominio semantico in questione e 2. apprendere le migliori strategie per localizzare l'informazione stessa Il metodo SEWCOM cerca di integrare appunto entrambi i processi ed utilizza l'approccio metacognitivo-visuale delle mappe concettuali. Il metodo può essere usato sia in modo collaborativo che individuale e nasce da osservazioni e sperimentazioni preliminari effettuate sia con adulti che con ragazzi delle ultime classi della scuola superiore. Ci vuole un metodo metacognitivo per cercare, valutare ed integrare la conoscenza nel Web: SEWCOM I quattro passi del metodo [*Immagini e testo da: C. Petrucco, Ricercare in rete, Lecce, PensaMultimedia,2003]

41 Metadati Tutte le informazioni inserite dentro i tag delle pagine HTML sono metadati, ovvero dati sui dati, informazioni strutturate e scandite in campi, relative a documenti a testo pieno (full text), che ne permettono organizzazione e recupero più efficaci. La procedura per estrarre i metadati da un documento è, forse un po' lunga, ma semplice e soddisfacente in termini di risultati: l’autore produce i dati; l’indicizzatore ne estrae i metadati e li organizza; l'utente interroga i metadati e individua quello che risponde alle sue esigenze informative. Nell’ambito dei documenti disponibili in rete l’importanza dei metadati è stata in principio trascurata; invece essi, che per tipologia informativa possono essere paragonati alle schede di una biblioteca, sono ancora più indispensabili nel web, dove non si può "navigare a vista" per l'enorme numero di documenti presenti. Molti progetti relativi ai metadati sono attualmente in corso, condotti da persone provenienti per lo più da ambienti informatici, che ricercano il metodo per associare i data ai relativi metadati, con relativa attenzione al controllo terminologico delle stringhe da utilizzare. La presenza di appropriati metadati nelle pagine web potrebbe contribuire a ridurre l’information overload.

42 Qualità dell'informazione Uno dei principali problemi legati alla ricerca è come valutare la qualità delle informazioni. Che un documento sia on-line non costituisce una garanzia, nè implica che contenga informazioni valide. Le informazioni on-line richiedono un’analisi scrupolosa e un'attenta valutazione.L'editoria cartacea possiede una lunga tradizione di criteri giornalistici legati al codice deontologico professionale, che il materiale stampato è tenuto ad osservare; sebbene molti scrittori ed editori si attengano a questi criteri anche nel pubblicare sul Web, molti altri non lo fanno,altri ancora non hanno alcun codice da rispettare.Internet abbonda di ogni tipo di informazioni,per cui occorre controllare con spiritocritico e saper individuare le informazioni corrette, anche se l'offerta è motivata da ottime intenzioni. La prima domanda che bisogna porsi riguarda l’autore: se è conosciuto, di quale reputazione gode, se si tratta di un esperto, se è contattabile. Poiché alcuni articoli sul Web potrebbero non riferirsi allo scrittore, il criterio successivo da valutare è l’editore del sito Web: se si tratta di un’organizzazione; se ha una presenza nel mondo reale. Molte pubblicazioni, tuttavia, esistono solo in via elettronica;in tal caso, occorre scoprire qualcosa sull’editore. Raramente le informazioni sono completamente neutrali; di solito esiste un punto di vista. Poiché è talmente facile pubblicare su Internet, le opinioni abbondano, per cui occorre considerate sempre la fonte dell’informazione. Se l’autore cita altre fonti di informazioni nell’articolo, bisogna valutare se queste fonti sono affidabili e verificabili. Infine, i documenti on-line devono contenere la data di quando sono stati scritti o del loro aggiornamento più recente. È importante conoscere la tempestività delle informazioni, perché informazioni più recenti, più pertinenti possono esistere altrove. Queste considerazioni possono aiutare a stabilire l’affidabilità del documento in questione.

43 La ricerca bibliografica Opac –OPAC SBN Metaopac –MetaOpac Azalai Digital Libraries –Librerie WAIS

44 Opac OPAC SBN

45 Tra tutti gli OPAC il più importante è SBN, il Servizio Bibliotecario Nazionale, che produce il catalogo collettivo delle biblioteche italiane. Il servizio è suddiviso in più banche dati catalografiche, divise per tipologia di documenti, che vengono incrementate continuamente. bin/IccuForm.pl?form=WebFrame

46 Metaopac MetaOpac Azalai

47 Il MAI permette di interrogare simultaneamente oltre 150 cataloghi in linea di biblioteche e sistemi di biblioteche italiani. La ricerca immessa viene inviata a tutti i cataloghi, e ritrasmette una dopo l'altra tutte le risposte positive. Tutti i cataloghi italiani accessibili in rete, sia pure in forme ufficiose, vengono comunque inclusi nel repertorio degli Opac italiani, a partire dal quale possono essere consultati singolarmente. Si considerano un unico catalogo tutte le interfacce che ricercano in uno stesso insieme di biblioteche, identificato dal nome dell'istituzione di cui fanno parte, o dal nome del catalogo stesso quando si tratti di diversi enti eterogenei (es. "Catalogo italiano dei periodici"). Ciascun catalogo può essere articolato in una o più sezioni dedicate a specifiche parti del patrimonio (es. Monografie, Periodici, Fondo Antico, ecc.). La maschera di ricerca selettiva permette di selezionare un insieme di cataloghi sui quali effettuare poi una ricerca.

48 Digital Libraries Librerie WAIS

49 Una Libreria Wais ( Wide Area Information Server) è un database completo di documenti on line su uno specifico argomento; per esempio, l'insieme dei testi letterari e storici di dominio pubblico del Progetto Gutenberg, disponibili su Internet. Poichè le librerie WAIS gratuite attualmente accessibili sono aggiornate e gestite da volontari, la qualità della copertura degli argomenti non è omogenea. Il WAIS, che utilizza lo standard Z39.50 per elaborare interrogazioni in linguaggio naturale, è un sistema di recupero e ricerca di documenti ed informazioni che utilizza le parole chiave, basato su UNIX, che può essere utilizzato per le oltre quattrocento librerie esistenti; la ricerca di corrispondenze delle parole chiave fornite viene eseguita su file indicizzati a cui corrispondono parole chiave immesse dall'utente. er utilizzare un server Wais, gli utenti hanno bisogno di un client WAIS. WAIS può, inoltre, essere utilizzato come motore di ricerca su un singolo sito web.

50 Applicazioni peer to peer Query flooding –Scaricare e-book

51 Query flooding Scaricare e-book

52 L'e-book è il formato elettronico che consente ai libri e ad altri testi di grandi dimensioni di poter essere scaricati da un sito web e visualizzati digitalmente. Per la loro visualizzazione e lettura, questi testi richiedono un reader, cioè un piccolo software specifico; quelli che attualmente si stanno contendendo il mercato sono due: Acrobat ebook reader che sfrutta il Pdf, formato proprietario di Adobe. La società, per migliorare il proprio reader, ha acquisito dal 2000 Glassbook,uno dei primi produtto di e-book. I suoi vantaggi sono la capacità di gestire le immagini e la possibilità di stampare i testi. Il prodotto per la lettura è distribuito gratuitamente sul sito ;Microsoft reader con un suo formato proprietario, il Lit. Questa soluzione è compatibile con l'unico formato non proprietario esistente, l' Oeb. Anche questo software si scarica gratuitamente dal sito Open ebook (Oeb) è lo standard non proprietario e sue informazioni si trovano sul sito Per trovare in internet degli e-book da scaricare, un buon motore di ricerca è con un archivio di titoli. Altri motori interessanti sono e, che tuttavia trovano testi di vario tipo.


Scaricare ppt "La ricerca di risorse in rete. Il paradigma di querying."

Presentazioni simili


Annunci Google