La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale.

Presentazioni simili


Presentazione sul tema: "Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale."— Transcript della presentazione:

1 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale

2 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 2 Accesso e conservazione nella digitalizzazione Dalla carta ai bit Prima parte

3 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 3 La trasformazione dell’informazione digitale Si dice che trasformi il modo di imparare, il modo di comunicare, anche il modo di pensare Ma cambia anche il modo di catalogare le risorse, il modo di reperirle e il modo di interagire con esse Cambia il modo di conservare e accedere a informazioni, reperti, immagini, suoni, il patrimonio culturale

4 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 4 Le caratteristiche dell’info digitale FLESSIBILITÀ: è possibile modificarla facilmente, senza traccia di cancellatura o cambiamento RIPRODUCIBILITÀ: è possibile realizzare un numero infinito di copie dal file digitale senza usurarlo RICERCABILITÀ: è possibile fare ricerche approfondite anche incrociate su fonti diverse MACCHINA-DIPENDENZA: per la fruizione è necessario l’uso di una macchina adeguatamente programmata

5 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 5 Digitalizzazione tra accesso e conservazione La digitalizzazione garantisce l’accesso a distanza e alcuni strumenti di ricerca (dipende da come viene effettuata) Ma presenta molti problemi rispetto alla conservazione delle informazioni rispetto alla garanzia di integrità e autenticità

6 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 6 I fattori di minaccia per la longevità delle informazioni –I supporti –Le macchine lettrici dei supporti –La codifica

7 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 7 Supporti dei dati digitali Storicamente i supporti resistevano finché non interveniva un agente esterno a distruggerli Nel caso dei supporti digitali vale il contrario: se non si agisce per preservarli, si danneggiano irrimediabilmente

8 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 8 Lettori dei dati digitali L’invecchiamento delle macchine preposte alla lettura dei dati digitali può presentare veri rischi per la conservazione del materiale Se in linea teorica è possibile trasferire i dati digitali su un nuovo supporto per il quale essi sono leggibili, in pratica è molto difficile organizzare il trasferimento di questi dati in mancanza di una macchina per la lettura in funzione La situazione è aggravata dalle scelte del mercato HW/SW, che spinge per il continuo rinnovamento di lettori e supporti

9 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 9 Mantenere i dati codificati in un formato leggibile Due metodi principali: – la continua ricodifica da una configurazione sw/hw a quella più nuova – la creazione di un software in grado di emulare formati sw obsoleti In tutti i casi, nonostante la migrazione di SW non proprietari, come l’ASCII, avvenga in modo corretto, di solito non viene prodotto lo stesso file da cui si era partiti

10 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 10 Strumenti di codifica che minacciano integrità, autenticità e longevità Compressione Criptaggio Interrelazione Custodia Traduzione

11 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 11 Compressione e criptaggio La compressione può avvenire senza perdite o con perdite. –Per esempio: in un formato molto comune come JPEG (compressione con perdite) si eliminano alcune caratteristiche dell’immagine indistinguibile all’occhio umano, ma potenzialmente utili al trattamento meccanico –La compressione con o senza perdite aggiunge un livello di complessità alla codifica Il criptaggio dei dati per il commercio elettronico aumenta la complessità della codifica, adottando SW spesso proprietari che non aderiscono agli standard condivisi

12 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 12 Interrelazione dei dati e longevità L’integrazione del lavoro di codifica prevede l’inclusione di vari file, interni o esterni al proprio sito L’opportunità offerta dall’integrazione è limitata dai rischi dei collegamenti non più attivi a causa anche solo di una semplice ristrutturazione del contenuto del sito richiamato Si pone il problema dell’eventuale duplicazione dei contenuti richiamati attraverso un link, ma questo apre questioni di copyright e di semplice opportunità

13 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 13 Custodia e traduzione dei dati Chi dovrebbe custodire dati nati digitali come corrispondenza, varianti letterarie o scientifiche? Come preservare l’autenticità dei file in presenza di continui atti di refresh per salvare i dati? Come garantire l’integrità e che cosa vuol dire l’identità dell’informazione digitale, dovendo continuamente ritradurre i dati in nuovi formati e nuovi ambienti?

14 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 14 Vantaggi e svantaggi dell’accesso digitale VANTAGGI Il contenuto richiesto si può mostrare senza l’intervento umano Le informazioni si possono reperire a distanza La qualità della digitalizzazione è tale da sostituire gli originali in quasi tutte le situazioni La ricerca full-text e quella incrociata su diverse collezioni è una grande opportunità per l’utente SVANTAGGI Gli altissimi costi dei processi di digitalizzazione I mutamenti tecnologici possono vanificare gli sforzi per la conservazione del materiale in poco tempo L’invecchiamento dei supporti L’obsolescenza delle codifiche Mancanza di garanzie per la permanenza e la stabilità del contenuto

15 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 15 Internet in sintesi È una rete che evolve basandosi su necessità locali e decisioni distribuite È costituita da molte reti distinte e interconnesse, come WNET, vBNS, Abilene ecc. Nessuna istituzione o multinazionale controlla più di una piccola porzione È impresa impossibile produrre una mappa centralizzata È in continua evoluzione in modo incontrollato È PIÙ SIMILE A UN ECOSISTEMA CHE A UN DISPOSITIVO LOGICO

16 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 16 Seconda parte La topologia del web

17 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 17 P. Baran e il primo progetto di Internet Il progetto di Internet era stato concepito alla fine degli anni ’50 da Paul Baran della Rand Corporation, ma venne rifiutato perché per trasmettere i dati era previsto di inviare le informazioni a pacchetti, rendendo così necessario il passaggio dalla rete analogica a quella digitale AT&T che avrebbe dovuto realizzare la rete si rifiutò, sia per l’investimento, sia per il rischio di competizione che avrebbe creato

18 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 18 I modelli di rete per Baran www.rand.org/publications/RM/baran.list.html Centralizzata DecentralizzataDistribuita

19 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 19 Reti casuali e reti sociali Nelle reti casuali tutti i nodi hanno lo stesso numero di link Le reti sociali sono invece dotate di alcuni nodi, i cosiddetti hubs o connettori, che sono molto più interconnessi degli altri, cosicché ci sono pochi gradi di separazione con gli altri nodi della rete

20 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 20 Milgram e lo small world problem Nel 1967 lo psicologo sociale Stanley Milgram, professore a Harvard pubblicò i suoi studi su quanto è piccolo il mondo L’esperimento consisteva nel cercare di capire quanto ci metteva una lettera ad arrivare a destinazione inviandola a persone scelte a caso e con la preghiera di spedirla solo a qualcuno che si conosceva su base personale Il risultato fu che in media c’erano 6 passaggi dal primo invio all’arrivo a destinazione La teoria è nota al grande pubblico per un film uscito negli anni ’90 dal titolo “6 gradi di separazione”

21 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 21 La distanza tra i nodi della rete Esistono 19 gradi di separazione in media tra i link, secondo un recente risultato Il fenomeno degli Hub vuol dire che esistono alcuni nodi particolarmente interconnessi con tutto e altri nodi per nulla interconnessi Se tutti i nodi della rete si trovano alla stessa distanza dagli altri, devo saper scegliere la strada da imboccare, per trovare quello che cerco E inoltre la misura media della distanza dei nodi non rende conto della struttura topologica della rete…

22 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 22

23 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 23 L’equilibrio precario nella crescita di Internet È evidente che i nodi della rete sono collegati tra loro per scelte di tipo economico Per modellare la rete è necessario prendere in considerazione 3 fattori: –i collegamenti preferenziali a nodi più attrezzati –la dipendenza dalla distanza –la struttura a frattale dei nodi che riproduce la densità della popolazione (studiata in particolare per i router in US) Se uno di questi tre fattori prendesse il sopravvento, metterebbe in discussione l’attuale struttura topologica della rete

24 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 24 I rischi di attacco a Internet La grande integrazione della rete, mista alla presenza di nodi hub, che centralizzano gran parte dei link, rende la rete molto solida rispetto ai malfunzionamenti (come un ecosistema) Il rischio di attacchi mirati ai nodi centrali, però, potrebbe esserle letale Disabilitare alcuni nodi centrali forse non sarebbe sufficiente di per sé a fare a pezzi la rete, ma le rotture a cascata degli altri nodi, causate dalla reindirizzamento del traffico verso nodi più piccoli, probabilmente farebbe il resto

25 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 25 Non solo information retrieval Parte Terza

26 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 26 Strumenti di ricerca Strumenti basati su indici per soggetto (es. Yahoo, About.com, Looksmart) YahooAbout.comLooksmart Strumenti di ricerca di argomento specifico (es. Internet Public Library, PAW)Internet Public LibraryPAW Strumenti di ricerca a testo integrale (es. Altavista, Excite, Infoseek) AltavistaExciteInfoseek Strumenti di ricerca per estrazione (es. Lycos, Hotbot, Google, Alltheweb ) LycosHotbotGoogleAlltheweb Strumenti di metaricerca (es. Metacrawler, Vivisimo)Metacrawler Vivisimo

27 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 27 OPAC e Virtual Library OPAC = Online Public Access Catalogue –È possibile salvare le ricerche sul proprio disco, spedirsi i risultati della ricerca ecc. Archivi e data base –Documenti di vario genere e in formati diversi (HTML, RTF, DOC, PDF,.asp ecc.) Biblioteca digitale –Vera e propria biblioteca di “testi” codificati secondo standard uniformi

28 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 28 Cercare informazioni sul web Web “di superficie”: 5 miliardi di documenti Web “profondo”: oltre 500 miliardi di documentiprofondo Ma oscillano fra 800 milioni e 3 miliardi quelli indicizzati dai motori di ricerca

29 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 29 “Surface Web”

30 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 30 “Deep Web”

31 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 31 Cercare informazioni sul Web 2 Come fare per migliorare la ricerca? –Uso delle funzioni avanzate di ricerca –Consultazione delle meta-risorse –Motori specializzati per contenuto e/o per tipologia di file –Monitoraggio e controllo dei motori

32 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 32 Funzioni avanzate: operatori booleani OperatoreSimboloAzione AND& Ricerca documenti che contengono parole o frasi specifiche. Es. educazione AND creatività OR| Ricerca documenti che contengono almeno una delle due parole NOT! Esclude il secondo termine dalla ricerca. Es. educazione NOT creatività NEAR~ Ricercherà documenti che contengano parole e frasi specificate per un numero non superiore a dieci parole per parte. Es. educazione nella scuola media NEAR uso dei media nella scuola

33 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 33 Searching for the WWW (1998) Nell’articolo, Lawrence e Giles si proponevano di dimostrare la credibilità dei motori di ricerca (MR) attraverso un robot, in grado di analizzare i risultati di un’interrogazione, paragonando i MR Il risultato fu invece una stima della grandezza del web HotBot, all’epoca il maggiore MR in termini di pagine “catalogate”, analizzava soltanto il 34% del web dell’epoca, che fu stimato intorno a 320 milioni di documenti

34 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 34 I continenti di una rete orientata

35 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 35 La crescita del web e dei MR Attualmente Google indicizza 2,5-3 miliardi di documenti, ma rimane sempre molto indietro rispetto alla crescita costante della rete Da ogni pagina, infatti si può raggiungere solo il 24% dei documenti collegati (vedi la topografia dei continenti del web) Per questo i MR permettono a chiunque di sottomettere le URL della sua risorsa, sperano così che i crawler, cominciando da un punto periferico della rete, possano trovare documenti nuovi, mai esplorati prima, da indicizzare

36 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 36 Altri difetti dei MR Il problema della freschezza delle informazioni: più è grande il repository, più si rischia di utilizzare informazioni vecchie (i crawler ci mettono del tempo per effettuare l’intero viaggio) La mancanza di capacità di indicizzare documenti e informazioni che non siano scritti in HTML. Per esempio: i database sono ignorati dai motori di ricerca, a meno che questi non si interfaccino con una metastruttura XML Il ruolo commerciale dei MR (modelli di business che si basano sul pagamento di un buon ranking da parte dei siti)

37 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 37 I fattori del successo di Google e PageRank Un grandissimo repository di documenti (2,5-3 miliardi) strutturati attraverso un indice inverso e un buon tasso di aggiornamento delle risorse PageRank ha un algoritmo che attribuisce un punteggio a ogni documento, indicizzato sulla base di quanto è citato dal web, e trasferisce parte della sua autorità ai nodi che cita PageRank tiene conto della struttura relazionale del web e attribuisce autorità al contenuto di un nodo per il fatto di essere un hub del web

38 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 38 I rischi di Google Risultati in cui si privilegiano i contenuti degli hub, che sono a loro volta commerciali Privilegi per le risorse della maggioranza linguistica (inglese su tutti, spagnolo su italiano ecc.) Risultati che escludono risorse nuove (e perciò poco annodate col resto della rete) e risorse marginali (appartenenti a comunità isolate o che hanno approcci non in mainstream) Sfruttamento dell’algoritmo (già in corso) con la costruzione di risorse ad hoc vuote da collegare ad arte alle pagine da pubblicizzare: le bolle di visibilità Oltre ai soliti problemi della limitatezza del repository rispetto al deep web (e topologia dei continenti) comuni a tutti i MR

39 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 39 Le attività della ricerca Scoperta Ricerca per keyword, metodi per esaminare dati strutturati e non strutturati, meccanismi di ranking flessibili, analisi e confronto di risultati provenienti da più query differenti Organizzazione del contenuto Classificazione automatica, machine-learning o guidata, di documenti in un corpus, mappatura tematica, generazione di tassonomie Gestione sociale delle conoscenze Ranking continuo e adattivo dei documenti, sulla base del loro successo sociale in un gruppo di interessi affini, reperimento degli esperti in un settore

40 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 40 Agenti e intelligenza sociale? Il sapere è un prodotto collettivo La conoscenza nasce dalla distribuzione di competenze e informazioni È impossibile prevederne lo sviluppo perché è creativo, complesso, dinamico e capace di apprendimento. Il sistema è perfettamente in grado (come l’ecosistema) di assorbire gli errori senza rifletterli nei risultati Prevede l’interazione con l’ambiente e gli altri agenti sociali in modo non strutturato

41 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 41 Problemi aperti La ricerca sul web è un’attività troppo complicata per usare solo tecniche di information retrieval La struttura del web ha impatto sull’efficacia dei metodi di ricerca adottati Il problema delle minoranze e la “bolla della visibilità” Il ruolo degli agenti intelligenti: fuoco sull’apprendimento, più che sul web semantico, che funziona agendo sulla struttura del web Una serie di problemi aperti di pertinenza delle scienze cognitive...

42 Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 42 Link utili Virtual library http://vlib.orghttp://vlib.org Internet navigation tools http://riceinfo.rice.edu/Internet/http://riceinfo.rice.edu/Internet/ Search engine watch http://searchenginewatch.comhttp://searchenginewatch.com Internet Archive http://www.archive.orghttp://www.archive.org Search engine showdown http://www.notess.com/search/http://www.notess.com/search/ Metacrawler http://www.metacrawler.comhttp://www.metacrawler.com Beaucoup http://www.beaucoup.com/http://www.beaucoup.com/ Vivisimo http://vivisimo.comhttp://vivisimo.com Open Directory Project: http://dmoz.org/Reference/Librarieshttp://dmoz.org/Reference/Libraries


Scaricare ppt "Numerico-Vespignani, Informatica per le scienze umanistiche, Il Mulino, 2003 1 Capitolo III. Memorizzazione e ricerca nel mondo digitale."

Presentazioni simili


Annunci Google