LTW Meta-informazioni, motori di ricerca, tesauri Fabio Vitali.

Slides:



Advertisements
Presentazioni simili
Introduzione al linguaggio C++
Advertisements

WWW XML-Namespace Fabio Vitali. WWW Fabio Vitali2 Introduzione Qui esaminiamo: u Lesigenza e il funzionamento dei Namespace in XML.
Unità A1 Informazioni e dati. Obiettivi Conoscere i principali concetti legati allinformatica Saper distinguere tra informazioni e dati Conoscere il concetto.
© 2007 SEI-Società Editrice Internazionale, Apogeo Unità A1 Informazioni e dati.
International Society for Knowledge Organization Università Ca Foscari di Venezia Dipartimento di Informatica Matteo Ballarin SKOS Un sistema per lorganizzazione.
Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria di Modena Corso di Laurea in Ingegneria Informatica Integrazione di WordNet Domains.
IL VOCABOLARIO DI INDICIZZAZIONE nellindicizzazione verbale Linsieme controllato e strutturato dei termini (termini di indicizzazione) selezionati dalla.
THES-MAKER un programma per la costruzione semi-automatica di thesauri.
La conoscenza del diritto e le scienze dellinformazione Nicola Palazzolo.
Active Directory.
TW Analisi dei documenti n Classificazione dei componenti n Selezione dei componenti, costruzione della gerarchia, dei blocchi informativi e degli elementi.
Multimedialità Ipertesto Interattività
Intelligenza Artificiale 2 Metodologie di ragionamento Prof. M.T. PAZIENZA a.a
Metodologie per la gestione di conoscenza ontologica Prof. M.T. PAZIENZA a.a
Maria Teresa PAZIENZA a.a
Apprendimento Non Supervisionato
ISFOL – Chiara Carlucci 10 marzo 2009 Seminario Refernet.
Architetture e protocolli CCITTComunicazione: trasferimento di informazioni secondo convenzioni prestabilite La comunicazione richiede cooperazione.
La Ricerca in Rete Danco Singer novembre 2002 novembre 2002 Master in Editoria Multimediale La Ricerca in Rete: strategie di navigazione.
Accessibilità dei siti Web
Cercare informazioni sul Web. 5-2 Organizzazione dellinformazione tramite gerarchie Classificazione gerarchica Linformazione è raggruppata in un piccolo.
RISORSE WEB Internet Per un uso consapevole delle risorse della Rete
Intelligenza Artificiale
Modello E-R Generalizzazioni
Progettazione di una base di dati
Modello E-R Generalizzazioni
La ricerca in rete e la comunicazione/collabor azione Laboratorio Le fonti e la ricerca nel web.
LINGUAGGI DI PROGRAMMAZIONE
DBMS ( Database Management System)
teoria delle intelligenze multiple:
Alla scoperta del significato
Applicazioni di modelli matematici alla ricerca semantica
Descrizione Semantica ad Alto Livello di Ambienti Virtuali in X3D
La classificazione della biodiversità
INFORMATICA MATTEO CRISTANI. INDICE CICLO DELLE LEZIONI LEZ. 1 INTRODUZIONE AL CORSO LEZ. 2 I CALCOLATORI ELETTRONICI LEZ. 3 ELEMENTI DI TEORIA DELL INFORMAZIONE.
Internet Ricerche nel web Gli indici sistematici (directory)
Lezione 1 Linguaggi di programmazione – Algoritmi –Istruzioni
CODIFICA DELLE EMOZIONI
Web Communities and their identificaton
COMUNICAZIONE ONLINE, RETI E VIRTUALITA MATTEO CRISTANI.
MODELLO A DUE VIE DI LETTURA
Dati e DBMS DBMS relazionali SQL Progettazione di una base di dati Programma del Corso.
1 5' Incontro ISKO Italia Venezia : 1 aprile 2011 Sviluppi del Nuovo soggettario e integrazione con l'Opac della Bncf Isolina Baldi, Anna Lucarelli Biblioteca.
Informatica e Algoritmi
CORSO Di WEB DESIGN prof. Leonardo Moriello
Nemesi Creazione e pubblicazione di una rivista online tramite l’utilizzo di Java Message Service.
MOTORI DI RICERCA. Un motore di ricerca è un sistema automatico che analizza un insieme di dati spesso da esso stesso raccolti e restituisce un indice.
InternetInternet Sede: Salvo D’acquisto 2010/2011 Docente: Vito Monno.
TW Asp - Active Server Pages Nicola Gessa. TW Nicola Gessa Introduzione n Con l’acronimo ASP (Active Server Pages) si identifica NON un linguaggio di.
Titolo della sezione Eventuale sottotitolo Formazione Volontari SCN 2011 Centro Linguistico di Ateneo - Mediateca Motori di ricerca non solo Google.
Giovanna Aracri Maria Teresa Guaglianone
LTW Annotazioni sul progetto Fabio Vitali. LTW Scopo del progetto Realizzare un sito Web per la lettura e la ricerca di testi e dati su un argomento specifico.
Progettazione di una base di dati Ciclo di vita di un sistema informativo Studio di fattibilità definisce le varie alternative possibili, i relativi costi.
WWW Domande Fabio Vitali. WWW Fabio Vitali2 Domanda 1 Vorrei sapere se quando definiamo un tag a livello di working group, cioè per definire i tag comuni.
1 Metodologie di Programmazione = decomposizione basata su astrazioni.
Intelligenza Artificiale 1 Gestione della conoscenza lezione 14 Prof. M.T. PAZIENZA a.a
Che cosa è e a cosa serve un GIS?
Progettazione di basi di dati: metodologie e modelli
Indicizzazione di documenti semistrutturati Sistemi informativi – AA D’Este Laura.
Intelligenza Artificiale Metodologie di ragionamento Prof. M.T. PAZIENZA a.a
SEMINARIO WEB PROMOTION: I MOTORI DI RICERCA Letizia Catarini.
Comunicazione Multimediale Letizia Catarini. La differenza tra un motore di ricerca e una directory La differenza tra un motore di ricerca e una directory.
La filosofia dell’organizzazione Cfr - Materiale corso di organizzazione aziendale dott. Stefano Colferai.
Cloud informatica V anno.
2 Indice Un esempio Che cosa è A cosa serve Confronto con HTML Punti di forza La sua struttura.
Le basi di dati.
Catalogazione La catalogazione si occupa
Cercare In Internet. Cercare in Rete La scuola ha un ruolo preciso in relazione a quella che nei paesi anglosassoni viene denominata: Information Literacy.
Active Directory. Cos’è Active Directory (AD)  Un “directory service”  Un contenitore di oggetti  Un insieme di servizi di accesso  Un “namespace”
Nuovo Soggettario Il Soggettario non era un manuale di regole e le indicazioni per la formulazione delle stringhe di soggetto si desumevano da note introduttive.
Transcript della presentazione:

LTW Meta-informazioni, motori di ricerca, tesauri Fabio Vitali

LTW Introduzione Le directory di siti nascono insieme al Web. Già dai primi mesi di esistenza del prototipo WWW di B-L, esistevano pagine di link ai server Web esistenti. I motori di ricerca esistevano come prodotto locale (sui documenti contenuti in un unico server), specialmente con WAIS e il protocollo Z L'ingrandirsi del Web ha reso di estremo successo i motori di ricerca come meccanismo principale di scoperta di risorse su Web.

LTW Tipi di motori di ricerca I motori di ricerca possono essere divisi in varie categorie a seconda del tipo di servizio che forniscono: u Crawlers (o search engines semplici): un'applicazione scarica sistematicamente le pagine di un sito, ne indicizza il contenuto, applica vari meccanismi di prioritizzazione (keyword, autorevolezza, focalizzazione, ecc.). Il database viene consultato da un apposito form che permette di inserire qualunque stringa e vedere se da qualche parte esiste un documento con quella parola. Ad esempio Google, AltaVista, Inktomi (HotBot, MSN, AOL), Fast (Lycos). u Directories: Una squadra di esseri umani (anche corposa) esamina a uno a uno decine di migliaia di siti, e li classifica e categorizza in un albero gerarchico di categorie. Ad esempio Yahoo, Open Directory Project, Looksmart (MSN) u Metacrawlers: un motore sottopone la stessa query a molti crawlers diversi e filtra tutti i risultati ottenuti. Ad esempio ecc. u Motori di ricerca specializzati: Il Web invisibile, i nomi di dominio, le pagine appena inserite, ecc.

LTW Strategie di posizionamento Con il successo del Web è diventato di enorme importanza la comprensione e lo sfruttamento dei meccanismi di categorizzazione e indicizzazione dei motori di ricerca. Finire nelle prime righe di una categoria in una directory o nei primi risultati di una query in un crawler significa migliorare decisamente il successo del proprio sito, e spesso significa soldi in quantità. I crawler hanno algoritmi noti di indicizzazione che possono essere sfruttati maliziosamente dai creatori di siti. Questo processo si chiama "Web positioning" ed è una vera e propria professione dei giorni nostri. Le directory invece sono manipolate da esseri umani e l'evidenziazione di un sito rispetto ad un altro può essere decisa caso per caso dai redattori. Alcuni siti richiedono il pagamento di abbonamenti per essere indicizzati nelle prime posizioni delle varie categorie.

LTW Concetti dei motori di ricerca n Documenti perduti: documenti rilevanti ma non trovati n Rumore: documenti trovati ma non rilevanti n Recall (o richiamo): rapporto tra i documenti rilevanti trovati e i documenti rilevanti (B/A). Un sistema è equo verso gli autori se ha un recall alto n Precision: rapporto tra i documenti rilevanti trovati e i documenti trovati (B/C). Un sistema è equo verso gli utenti se ha una precision alta. n Grado di futilità: quantità massima di documenti che l'utente è disposto ad esaminare prima di abbandonare la ricerca (ad es. 30) Documenti rilevanti ma non trovati Documenti trovati ma non rilevanti Documenti trovati e rilevanti A B C

LTW Indicizzazione La differenza fondamentale tra directory e motori di ricerca è tra indicizzazione per concetti e indicizzazione per termini: u Indicizzazione per concetti (o assegnata): Viene definito un vocabolario controllato, su cui verrà fatta l'indicizzazione. Indipendentemente dal vocabolario usato dall'autore, è necessario ricondurre tutti i documenti a termini presenti nel vocabolario controllato. Questa operazione va fatta a mano documento per documento. E' lunga e manuale ma molto espressiva. u Indicizzazione per termini (o derivata): Viene indicizzato il vocabolario usato dall'autore, senza curarsi di ambiguità sinonimie, ecc. In fase di ricerca bisognerà pensare a tutte le possibili forme usate nei documenti rilevanti, e cercare anche esse. E' veloce, automatica ma non espressiva, lascia all'utente il compito di comporre la query più efficace per l'identificazione dei documenti cercati

LTW Meta-informazioni La creazione del vocabolario controllato e l'indicizzazione per concetti implicano la creazione autoriale di un nuovo oggetto, il catalogo, che descrive le caratteristiche della collezione di documenti indicizzata. Questo documento parla di documenti, e quindi costituisce una fonte di meta-informazioni sui documenti di cui parla. Un vocabolario di meta-informazioni è caratterizzato da: u Una limitazione nel numero di elementi (argomenti di meta- informazione) u Un nome associato a ciascun elemento u Un significato associato a ciascun elemento. Il Dublin Core rappresenta senza dubbio il principale modello di vocabolario di meta-informazioni per documenti di rete.

LTW Dublin Core Song of the Open Road I think that I shall never see A billboard lovely as a tree. Indeed, unless the billboards fall I'll never see a tree at all.

LTW I tesauri (o thesauri) sing.: tesauro (o thesaurus) Definizione di tesauro (ISO ) «il thesaurus è il vocabolario di un "linguaggio di indicizzazione" controllato, organizzato in maniera formale, in maniera cioè da rendere esplicite le relazioni "a priori" fra i concetti» Il concetto di vocabolario controllato indica l'esigenza di trovare un punto di incontro tra lessico dell'autore e lessico del ricercatore, una relazione biunivoca tra termine e concetto, così da ottenere univocità semantica: un termine per ogni concetto, un concetto per ogni termine. Questa condizione elimina i problemi connessi con l'uso del linguaggio naturale, in cui ridondanze, ambiguità, polisemie, omonimie, omografie ed altre caratteristiche che ne garantiscono ricchezza ed espressività, ma rendono difficile l'organizzazione funzionale dei motori di ricerca. Le relazioni identificate nel tesauro debbono essere formalizzate e a priori, ovvero appartenenti alla sfera dei concetti (e non dei termini) e universali (cioè vere sempre).

LTW Concetti per i tesauri I concetti rappresentati dai termini di un th possono appartenere a diverse categorie: u entità concrete F oggetti e loro parti fisiche F materiali u entità astratte F azioni e avvenimenti F entità astratte e proprietà degli oggetti, dei materiali o delle azioni F discipline o scienze F unità di misura u entità individuali o "classi di uno" analoghe a nomi propri.

LTW Relazioni tra termini Relazione preferenziale o sinonimica u Identifica tra più termini per lo stesso concetto quello preferito. Identifica classi di equivalenza (sinonimi) ad un termine più importante u Es.: regola/norma, week-end/finesettimana, mal di testa/cefalea. Relazione gerarchica u Identifica tra due termini una relazione di subordinazione all'interno di uno stesso albero gerarchico. E' ciò che effettivamente distingue un vocabolario controllato semplice da un tesauro propriamente detto. u Es.: matematica/geometria, felini/gatti, veicoli/automobili Relazione associativa u Relazione residuale, volta ad identificare tra due termini una relazione né di equivalenza, né di subordinazione, ma comunque esistente ed innegabile. u Es.: barca/nave, ecologia/inquinamento, ecc.

LTW Relazione preferenziale (1) Identifica un gruppo di equivalenza tra termini, tra i quali si sceglie il termine preferito. Gli altri vengono detti termini non preferiti o sinonimi. La relazione tra termine non preferito (NPT) e termine preferito (PT) si chiama USE. La relazione inversa UF (Use For) ThesaurusTesauro USE TesauroUF Thesaurus Rientrano in questa categoria: u Sinonimia veraregola e norma u Varianti ortografichepsicoanalisi e psicanalisi u Sigle e acronimiCNR e Centro Nazionale delle Ricerche u Preferenza linguistica F T. straniero e italianoweek-end e finesettimana F T. attuale e anticobicicletta e velocipede F T. comune e scientificomal di testa e cefalea F T. di origini diversepoliglotta e multilingue, antologia e florilegio F T. comuni e marchepenna a sfera e biro, fotocopiatrice e xerox F Varianti molto recentitelefonino, telefono cellulare, telefono portatile

LTW Relazione preferenziale (2) Oltre alla sinonimia propria, con relazione preferenziale si possono mettere in relazione anche termini non strettamente sinonimici (sinonimia convenzionale), in cui i termini sono considerati sinonimi solo all'interno del contesto dei documenti gestiti da tesauro. Possiamo distinguere: u Quasi-sinonimiapunizione, ammenda, sanzione, pena u Upward postingTIR e camion (si parla di upward posting per termini in relazione gerarchica di cui non interessa gestire la specificità. Si usa il termine più generico). u antinomiaguerra e pace, amore e odio, malattia e salute

LTW Relazione gerarchica Descrive un albero di termini, tra i quali esiste un rapporto di subordinazione o sovraordinazione. I termini subordinati vengono anche detti iponimi, quelli sovraordinati vengono anche detti iperonimi. La relazione tra termine e termine inferiore è NT (narrower term), tra termine e termine superiore è BT (broader term) GeometriaGeometria ellittica NT1 Geometria euclideaBT Geometria non euclidea NT1 Geometria non euclideaBT Geometria NT2 Geometria iperbolicaBT Matematica NT2 Geometria ellittica Rientrano in questa categoria: u Relazione generica o genere/specie u Relazione partitiva o parte/tutto u Relazione esemplificativa o classe/istanza

LTW Relazione generica Detta anche relazione genere/specie o relazione is-a (è-un). Sigla specifica: BTG e NTG. E' il legame che esiste tra una categoria e i suoi membri. Perché sia corretta, è necessario che tutte le istanze del termine subordinato siano istanze del termine sovraordinato. Ad esempio, felino/gatto è una coppia di termini in relazione generica, mentre animale domestico/gatto non lo è, perché esistono gatti selvatici. Questa differenza assoluta, però, può non essere vera nell'ambito dei documenti che vengono trattati (se non si parla di animali selvatici la relazione is-a vale anche per la coppia animale domestico/gatto.

LTW Relazione partitiva Detta anche relazione parte/tutto o relazione has-a (ha-un). Sigla specifica BTP e NTP. E' il legame che esiste tra un concetto complesso e i suoi componenti. Perché sia corretta, è necessario che tutte le istanze del termine subordinato implichino il termine sovraordinato. Ovvero non possono esistere due esempi dello stesso termine all'interno di due gerarchie differenti. In generale questo è possibile solo in quattro casi: u Organi del corpo (sistema circolatorio - vene) u Nomi geografici (Italia - Emilia-Romagna - Bologna) u Discipline (scienze - biologia - botanica) u Strutture sociali (divisione - reggimento) Altrimenti è possibile solo per organizzazioni specifiche interne al tesauro.

LTW Relazione esemplificativa Detta anche relazione classe/istanza o specie/esempio. E' il legame che esiste tra una classe ed un suo individuo (classe di uno). Ad esempio Pontefici NT1 Giovanni XXIII NT1 Paolo VI NT1 Giovanni Paolo I NT1 Giovanni Paolo II

LTW Monogerarchie e poligerarchie Come ben sappiamo, le relazioni gerarchiche possono assumere strutture complesse nel momento in cui assumiamo una classe specifica come derivato da più classi generiche. E' importante allora mettere ben in chiaro se si adottano gerarchie multiple o semplici. Ad esempio: Organo BT1 Strumenti a fiato BT1 Strumenti a tastiera BT2 Strumenti Strumenti a fiato BT1 Strumenti NT1 Organo NT1 Flauto Strumenti a tastiera BT1 Strumenti NT1 Organo NT1 Pianoforte

LTW Relazione associativa Identifica una relazione non definibile né come sinonimica, né come gerarchica, e tuttavia innegabile. Relazione residuale. Viene indicata con la sigla RT (related term) o "vedi anche". u Termini appartenenti alla stessa categoria. Es.: barca e nave u Termini appartenenti a categoria diverse F una disciplina e il suo oggetto di studio (zoologia e animali); F un processo od operazione e il suo agente o strumento (termometro e misurazione della temperatura); F una azione e il suo prodotto (scrittura e documenti); F una azione e chi o cosa la subisce (potatura e piante; pesca e pesci); F oggetti e fenomeni e loro proprietà (magneti e magnetismo); F concetti e loro origini (Tedeschi e Germania); F concetti legati da rapporti causali (inquinamento e sostanze inquinanti); F una cosa e il suo antidoto (piante ed erbicidi); F un concetto e la sua unità di misura (frequenza e hertz);

LTW Riferimenti n International Standard ISO-2788, Documentation -- Guidelines for the development of monolingual thesauri, Second edition n Chris Taylor, An Introduction to Metadata, n Serafina Spinelli, Introduzione all'indicizzazione, n Serafina Spinelli, Introduzione ai thesauri, esauri.htm esauri.htm