Sistemi per il recupero delle informazioni INFORMATION RETRIEVAL L’IR è l’insieme delle tecniche utilizzate per il recupero mirato dell’informazione in formato elettronico. Per informazione si intendono tutti i documenti i metadati i file presenti all’interno di banche dati o del www
INTRODUZIONE Un concetto che può essere confuso con le basi di dati è quello delle banche di dati (o banca dati). Esistono fra di loro delle differenze sostanziali. Sempre più spesso i documenti nascono direttamente in forma elettronica dando vita a enormi banche dati che contengono oltre ad una sintetica descrizione dei documenti anche il testo in forma integrale. Esistono numerose raccolte di articoli apparsi in riviste specializzate e gestite da organismi internazionali (riviste scientifiche, banche di dati giuridici gestite dalla Cassazione, quelle sui brevetti, quelle della polizia ecc.). Queste raccolte sono consultabili interattivamente, anche con Internet, per fare ricerche in base al nome di un autore oppure in base al contenuto del riassunto.
INTRODUZIONE La necessità di gestire automaticamente grandi quantità di informazioni memorizzate in forma di testo ha giustificato un vasto lavoro di ricerca motivato dalla consultazione di materiale bibliografico (libri, giornali,riviste) e di sommari di pubblicazioni scientifiche dall’automazione del lavoro d’ufficio (lettere, studi, relazioni), dove, secondo recenti stime, soltanto un terzo delle informazioni eterogenee trattate sono dati strutturati mentre il resto è costituito da testi, immagini, voce.
PRINCIPALI DIFFERENZE Nelle banche dati: le informazioni non sono organizzate in insiemi in relazione fra loro, ma sono rappresentate come insiemi di testi non sono modificabili in linea non sono utilizzabili per la gestione del sistema informativo di un’organizzazione possono solo raccogliere informazioni in forma testuale.
PRINCIPALI DIFFERENZE BANCA DATI Inutile Utile per la gestione di una biblioteca, dove invece interessa una base di dati aggiornabile per trattare mediante transazioni l’acquisto dei libri, gli abbonamenti delle riviste, i prestiti ecc per effettuare ricerche di pubblicazioni su alcuni argomenti Per banca di dati intenderemo una raccolta di informazioni rappresentate in forma testuale e messe a disposizione di un gran pubblico di utenti per essere reperite specificando in modo parziale il loro contenuto.
DOCUMENTI Un documento è un’entità che possiede una parte strutturata, chiamata profilo, e una parte di testo. Il profilo contiene informazioni strutturate. Ad esempio nel caso di un libro il nome dell’autore il titolo l’editore la data e il luogo di pubblicazione nel caso di un rapporto autore data nel caso di una lettera mittente e destinatario oggetto
RECUPERO DEI DOCUMENTI I documenti, una volta archiviati, possono venir recuperati in base alle informazioni presenti nel profilo in base al contenuto del testo Nel primo caso si utilizzano le tradizionali tecniche sviluppate per i sistemi di gestione di basi di dati. Nel secondo caso si usano tecniche sviluppate espressamente per la gestione di testi.
GESTIRE I TESTI Il problema della gestione di testi per consentire il recupero di quelli che contengono alcune informazioni, è stato affrontato nel settore disciplinare noto attualmente con il nome di “recupero dell’informazione” (information retrieval) e sono stati sviluppati sistemi adatti a tale scopo. L’Information Retrieval (IR) si occupa della rappresentazione, memorizzazione e organizzazione dell’informazione, al fine di rendere agevole all’utente il soddisfacimento dei propri bisogni informativi.
Information retrieval Data una collezione di documenti e un bisogno informativo dell’utente, obiettivo dell’IR è di recuperare, all’interno di una collezione, tutti e solo i documenti rilevanti per un particolare utente con una particolare richiesta informativa sistemi specializzati nella gestione di documenti di testo e nel recupero in base al loro contenuto Rilevanza è un concetto chiave dell’IR, su cui torneremo grossa collezione di documenti Collezioni fulltext Digital libraries Pagine Web (motori di ricerca – search engines) Rispetto alla teoria classica delle basi di dati, l’enfasi non è sulla ricerca di dati ma sulla ricerca di informazioni. Un sistema per il recupero dell’informazione (Information Retrieval System - IRS) è un sistema che gestisce raccolte di documenti al fine di recuperare documenti giudicati rilevanti dal sistema stesso rispetto alle richieste effettuate dagli utenti. Obiettivo dell'Information Retrieval è recuperare tutti e solo i documenti rilevanti per un determinato utente, con una particolare richiesta informativa
Information retrieval Il settore dell’Information Retrieval è stato studiato fin dagli anni `70. l’espressione “information retrieval” è coniata da C. Mooers nel 1952 Il primo computer studiato per l’irs è del 1957 Negli anni `90, l’esplosione del Web ha moltiplicato l’interesse per IR. Il Web infatti non è altro che un’enorme collezione di documenti, sui quali gli utenti vogliono fare ricerche informazionali. per quanto riguarda le risorse informative di tipo elettronico reperibili in www, uno studio compiuto dall’On Line Catalogue della Library of Congress Office of Research (OCLC) parla di 3.080.000 risorse per il solo web pubblico (corrispondente a circa il 35% del web totale) (O’Neill 2003). Per la ricerca di informazioni disponibili su calcolatori di tutto il mondo collegati in rete Internet è disponibile il sistema Google. Altra possibilità è la disponibilità di banche dati multimediali, ad esempio di immagini, sulle quali si possono fare ricerche per contenuto con una filosofia analoga a quella usata per i testi. Ai suoi inizi l'Information Retrieval era dominata dal retrieval Booleano. La prima generazione di ricerca basata su Information Retrieval risale agli anni 60, ed era dominata da costruzione di modelli, sperimentazione ed euristiche. I personaggi più illustri di questo processo furono Gerry Salton e Karen Sparck Jones. Il secondo periodo, che iniziò a metà degli anni 70, mostrò uno spostamento verso la matematica e una crescita del modello di Information Retrieval basato sulla teoria probabilistica. Il nome più famoso legato a questa teoria fu ed è Stephen Robertson. Più recentemente Keith van Rijsbergen ha coordinato un gruppo che ha sviluppato i modelli logici di fondo dell'Information Retrieval.
Bisogno informativo Il problema principale è che non è semplice caratterizzare esattamente i bisogni informativi dell’utente. Un esempio di bisogno informativo trova tutti i documenti che contengono informazioni sulle squadre di calcio partecipanti a campionati di prima divisione e che: provengono da organismi calcistici ufficiali; contengono informazioni sui risultati raggiunti nei tornei nazionali negli ultimi tre anni; forniscono l’indirizzo e-mail o il numero di telefono della società.
Documenti e termini Nell'Information Retrieval, gli oggetti sui quali vengono effettuate le ricerche vengono chiamati documenti , mentre i documenti sono descritti come dei gruppi di termini . Solitamente si intende un documento come una porzione di testo (ad esempio, un articolo giornalistico), rappresentato in una forma in cui sia leggibile da un sistema automatico (ad esempio come file, o interno ad un database); un termine è inteso come una parola (es: uranio) o un'espressione (es: uranio impoverito) che aiuta a descrivere il documento e che può ricorrere all'interno del documento stesso, una o più volte. Più in generale, potremmo intendere il documento come qualcosa che vogliamo ottenere come effetto della nostra ricerca, e un termine ogni caratteristica che contribuisca a descrivere il documento.
Documenti e termini Se in un sistema di Information Retrieval, un documento D viene descritto da un termine t , si dice che t indicizza D , e possiamo scrivere: t -> D Infatti, un sistema di Information Retrieval è composto da un gruppo di documenti, D , D , D..., un gruppo di termini t , t , t ..., ed un'insieme di relazioni: ti -> Dj che sono delle istanze di termini che indicizzano documenti una singola istanza di un certo termine che indicizza un determinato documento viene chiamata posting . Per un documento D esiste una lista di termini che lo indicizza; tale lista è detta lista di temini per D . Per un termine t, esiste una lista di documenti che lo indicizza, detta posting list di t.
Rilevanza Quando una persona desidera trovare i documenti di una raccolta che contengono alcune informazioni, formula una richiesta e di solito ottiene in risposta sia documenti effettivamente utili, o rilevanti, che documenti inutili. La rilevanza di un documento non può essere garantita dal sistema per il recupero dell’informazione, ma solo da chi ha formulato la richiesta. Pertanto può accadere che documenti che l’utente considererebbe rilevanti non facciano parte dei documenti recuperati dal sistema, e viceversa. Un sistema per il recupero dell’informazione cerca di limitare questi due inconvenienti che, in generale, non possono essere eliminati. DEFINIZIONE: Un documento è rilevante se soddisfa il bisogno d’informazione che l’utente ha espresso con la sua richiesta. Il problema centrale di IRS è trovare una serie di documenti ritenuti rilevanti da una collezione praticamente infinita e che soddisfano l’esigenza informativa del soggetto espressa attraverso una domanda. Al fine di recuperare un documento l’IRS deve comparare il contenuto semantico della domanda (query) con il contenuto semantico di una serie di documenti. IRS considera rilevante un documento per una query se la query è contenuta nel documento o se la query può essere recuperata in qualche modo nel documento. È opportuno ricordare che il soggetto che pone la domanda ha una valutazione propria di ciò che viene recuperato per cui la valutazione di IRS può essere diversa dalla valutazione fatta dal soggetto che interroga il sistema. Per avvicinare la valutazione del soggetto alla valutazione del sistema sono stati ideati vari linguaggi di interrogazione che vanno dalla logica booleana al linguaggio naturale. Data la tendenza di IRS di interpretare la query con la logica booleana, con algoritmi probabilistici o con il linguaggio naturale, oltre a verificarsi una discrepanza tra valutazione dei documenti recuperati da parte del soggetto che formula la query e IRS, può accadere anche che la formulazione della query, la sua grammatica, venga ritenuta errata per cui il soggetto deve ristrutturarla. Il documento è rilevante se il soggetto che formula la query lo ritiene tale. A partire da tale presupposto, si sono sviluppati sistemi di retrieval orientati sempre più verso la valorizzazione della semantica dell’interrogazione.
ESEMPIO DI RILEVANZA Si supponga di avere un insieme Impiegati di dati strutturati, con attributi Nome, Indirizzo, Codice, AnnoAssunzione, e Stipendio; per conoscere il nome e l’indirizzo degli impiegati assunti dopo il 1970 che guadagnano più di 2000€ al mese, una possibile formulazione della richiesta è la seguente: SQL> SELECT Nome, Indirizzo FROM Impiegati WHERE AnnoAssunzione >= 1970 AND Stipendio > 2000 In risposta si ottengono i dati che soddisfano esattamente la condizione specificata e quindi certamente rilevanti.
ESEMPIO DI RILEVANZA Si supponga invece di avere un insieme di documenti; per recuperare i documenti relativi all’uso dei calcolatori per lo sviluppo di progetti architettonici, sapendo che il termine CAD è sinonimo di progetto assistito dal calcolatore, una possibile formulazione della richiesta è la seguente: SEARCH ‘architett*’ AND (CAD OR (‘progetto’ AND ‘calcolatore’)) FROM SENTENCE In risposta si ottengono documenti in cui le parole della richiesta assumono anche un significato differente da quello ad essi attribuito. Ad esempio, fra i documenti recuperati potrebbe esserci quello contenente la seguente frase “… l’impiego del calcolatore per lo sviluppo di progetti architettonici riguarda il campo di applicazione dell’informatica conosciuto con il nome di CAD (Computer Aided Design), …” ma anche quello contenente la frase “… nell’affrontare il progetto dell’architettura di un calcolatore bisogna tener conto del settore di applicazione in cui verrà utilizzato …” D’altra parte, documenti concettualmente pertinenti potrebbero essere ignorati. Fra i documenti non recuperati potrebbe esserci quello contenente la seguente frase “… l’uso di computer nel disegno di componenti VLSI è una delle aree di sicuro interesse per la progettazione assistita dal calcolatore …” architett* sta per qualsiasi parola che inizia con i caratteri architett
Information Retrieval vs Data Retrieval Un sistema di Data Retrieval (ad esempio un DBMS) gestisce dati che hanno una struttura ed una semantica ben definita. Un sistema di Information Retrieval gestisce testi scritti in linguaggio naturale, spesso non ben strutturati e semanticamente ambigui. Un linguaggio per Data Retrieval permette di trovare tutti gli oggetti che soddisfano esattamente le condizioni definite. Tali linguaggi (algebra relazionale, SQL) garantiscono una risposta corretta e completa. Un sistema di Information Retrieval, invece, potrebbe restituire, tra gli altri, oggetti non esatti; piccoli errori sono accettabili e probabilmente non verranno notati dall’utente.
COSA AFFRONTEREMO… Il modo in cui si rappresenta il contenuto dei documenti Il criterio adottato per stabilire quali documenti recuperare per soddisfare una richiesta. si trovano documenti con contenuto diverso
Processo di ricerca di informazioni 1. L’utente specifica un bisogno informativo... 2. che viene analizzato e trasformato utilizzando le stesse operazioni sul testo applicate alla collezione; 3. la query viene eventualmente trasformata… 4. per poi essere eseguita, utilizzando indici precedentemente costruiti, al fine di trovare documenti rilevanti; 5. i documenti trovati vengono ordinati in base alla probabilità che siano rilevanti e ritornati in tale ordine all’utente; 6. l’utente esamina i documenti ritornati ed eventualmente raffina la query, dando il via ad un nuovo ciclo.
Il nucleo di un IRS Il processo Rappresentazione dei documenti in forma sintetica: indicizzazione In fase di recupero: formalizzazione delle richieste e confronto tra richieste e rappresentazione di documenti Risultato: Binario (si/no) – corrispondenza esatta; Probabilistico – corrispondenza parziale
Il problema informativo Il problema informativo corrisponde ad un particolare bisogno di informazione dell’utente. Tramite un processo di rappresentazione, il problema informativo viene tradotto in una richiesta espressa nel linguaggio di interrogazione dell’IRS. Analogamente, dai documenti, tramite un altro processo di rappresentazione, spesso chiamato di classificazione o indicizzazione, si passa al surrogato dei documenti, cioè alla loro rappresentazione nell’IRS. sia nella classificazione di un documento da parte di un esperto che nella formulazione della richiesta da parte di un utente può essere usato un vocabolario controllato organizzato in un thesaurus.
Il problema informativo: indicizzazione I metodi di rappresentazione dei documenti si possono separare in due categorie: quelli che danno una rappresentazione diretta del contenuto dei documenti e quelli che ne danno una rappresentazione indiretta. Nel primo caso il documento è rappresentato dalle parole in esso contenute (full text) mentre nel secondo il documento è rappresentato da termini di indicizzazione derivati manualmente o automaticamente e che ne descrivono in modo sintetico e completo il contenuto Rappresentazione dei documenti in forma sintetica: indicizzazione: l’idea è quella di associare a ciascun documento un insieme di termini (keyword) significativi che saranno utilizzati per selezionare il documento. I sistemi di IR non operano sui documenti originali, ma su una vista logica degli stessi. La capacità di memorizzazione dei moderni elaboratori permette talvolta di rappresentare un documento tramite l’intero insieme delle parole in esso contenute; si parla allora di vista logica full text. Per collezioni molto grandi tale tecnica può essere inutilizzabile; si utilizzano allora tecniche di modifica del testo per ridurre la dimensione della vista logica, che diventa un insieme di index term.
In tutti i casi l’informazione viene reperita per mezzo di indici che descrivono : le entità (caso db), i documenti (caso information retrieval), le pagine Web (caso ricerca in rete) Gli indici sono metadati cioè dati sui dati: vengono creati sia manualmente che automaticamente; sono indispensabili per far trovare documenti Web e quindi farli leggere; per grandi volumi sono creati automaticamente
Il problema informativo: query Possiamo pensare ad un IRS come ad un sistema in cui da un lato entrano documenti che vengono sottoposti ad un processo di indicizzazione, per ottenerne una rappresentazione sintetica, dall’altro entrano le richieste (query) dell’utente che devono essere codificate in modo analogo, cioè come un insieme di termini. In fase di recupero: formalizzazione delle richieste confronto tra richieste e rappresentazione di documenti In questo processo di confronto l’IRS adotta una particolare tecnica di recupero dei documenti che serve per giudicare quali documenti sono rilevanti e in che misura rispetto all’interrogazione All’interno dell’IRS l’esecuzione di una richiesta utente di una ricerca di documenti avviene confrontando la rappresentazione del contenuto dei documenti (surrogato) con la rappresentazione della richiesta utente (interrogazione). La presenza di documenti non rilevanti come risultato di una richiesta utente e l’assenza di alcuni documenti rilevanti è da imputare sia al processo di trasformazione dal problema informativo all’interrogazione (cioè come il bisogno di informazione dell’utente viene espresso nel linguaggio di interrogazione) sia al processo di trasformazione dal contenuto dei documenti al loro surrogato
Il problema informativo: recupero Si definisce tecnica di recupero (retrieval technique) di un IRS la tecnica adottata dal sistema per confrontare l’interrogazione utente con il surrogato dei documenti. La tecnica di recupero adottata da un IRS, è il meccanismo interno del sistema che lo guida nel giudicare come rilevanti o non rilevanti i documenti di una raccolta, in rapporto ad una specifica interrogazione. Le tecniche di recupero sono di due tipi: per corrispondenza esatta (exact match) per similitudine o corrispondenza parziale (partial match) Risultato Binario (si/no) – il risultato soddisfa o non soddisfa la richiesta (corrispondenza esatta) Probabilistico – il risultato soddisfa la richiesta in una qualche misura (corrispondenza parziale)
Il problema informativo: recupero Le tecniche di recupero per corrispondenza esatta sono basate sull’assunzione che le informazioni specificate nella richiesta siano esattamente contenute nella componente testuale del documento Svantaggi: molti documenti rilevanti sono ignorati se il testo corrisponde solo parzialmente all’interrogazione i documenti ritrovati non sono ordinati per rilevanza rispetto all’interrogazione non è possibile tenere in considerazione l’importanza relativa di concetti sia nell’interrogazione che nei documenti la logica del linguaggio di interrogazione risulta spesso complicata l’efficacia dipende dalla misura in cui le due rappresentazioni da confrontare siano basate o meno sullo stesso vocabolario
Il problema informativo: recupero Le tecniche di recupero per corrispondenza parziale sono invece basate sull’assunzione che le informazioni specificate nella richiesta possano essere contenute parzialmente nel documento e che i documenti ritrovati possano essere ordinati per valori decrescenti di rilevanza Queste tecniche consentono una maggiore flessibilità e sono quelle su cui si concentra il maggiore sforzo di ricerca
DBMS vs IRS Riprendendo il confronto con i DBMS riassumiamo le principali caratteristiche dei due sistemi Modello dei dati: come si rappresentano le informazioni. Nei DBMS le informazioni si rappresentano come insieme di dati strutturati e relazioni fra insiemi. Negli IRS le informazioni si rappresentano come insieme di testi. Richiesta: come si specifica ciò che si cerca. Nei DBMS l’utente descrive in modo completo e preciso ciò di cui ha bisogno; negli IRS non si specifica completamente il valore del testo di un documento ma se ne specifica il contenuto mediante una descrizione abbreviata e pertanto soggettiva e incompleta. Le richieste sono espressioni imprecise del bisogno informativo per chiarire le caratteristiche generali degli IRS è utile confrontarle con quelle dei DBMS esaminando i seguenti punti… DBMS: si cercano i record i cui campi soddisfano un certo valore IRS: si cercano documenti che contengono parole o frasi d’interesse per l’utente
DBMS vs IRS Tecnica di recupero: come il sistema, in fase di ricerca, decide se un documento soddidfa la richiesta. Nei DBMS la scelta delle registrazioni da recuperare si basa sula corrispondenza esatta fra quanto specificato nella richiesta e quanto in esse contenuto; negli IRS questa corrispondenza è in generale parziale perché basata su un criterio di similitudine che dipende da come si rappresenta il contenuto del documento Risultato: cosa fornisce il sistema come risposta ad una richiesta. Nei DBMS vengono fornite solo le registrazioni che soddisfano la condizione di ricerca; negli IRS vengono forniti documenti probabilmente rilevanti: è compito dell’utente stabilire quali di essi siano davvero tali, sapendo che il sistema non garantisce che fra i documenti non recuperati non ne esistano di rilevanti (Le risposte sono riferimenti a documenti “che potrebbero contenere le risposte” piuttosto che direttamente le risposte)
DBMS vs IRS Domanda tipica ad un DBMS Domanda tipica a un IRS SELECT Nome, Ufficio FROM Impiegati WHERE AnnoAssunzione > 1970 AND Stipendio > 3000 Domanda tipica a un IRS FIND architett*AND (cad OR (progetto AND calcolatore)) “… l’impiego del calcolatore per lo sviluppo di progetti architettonici riguarda il campo di applicazioni dell’informatica conosciuto con il nome di CAD, ovvero progetto assistito da calcolatore…” “… nell’affrontare il progetto dell’architettura di un calcolatore bisogna tener conto del settore di applicazione in cui verrà utilizzato …”
Sintesi delle differenze
Effetto rumore e effetto silenzio Si tratta di due effetti negativi che caratterizzano un sistema per il recupero dell’informazione: l’effetto rumore è la presenza di documenti non rilevanti fra quelli recuperati l’effetto silenzio è il mancato recupero di documenti rilevanti Dato un insieme di documenti e una richiesta, è possibile individuare quattro sottoinsiemi: l’insieme dei documenti correttamente recuperati in quanto rilevanti per la richiesta (A), l’insieme dei documenti che pur non essendo rilevanti sono stati recuperati (B) l’insieme dei documenti giustamente omessi in quanto non rilevanti (C) l’insieme dei documenti non recuperati anche se rilevanti (D) come si determina l’efficacia di un IRS?
SCHEMATIZZANDO Richiamo = A/(A+D) -> capacità del sistema di recuperare tutti i documenti rilevanti Precisione = A/(A+B) -> capacità del sistema di recuperare solo i documenti rilevanti
Efficacia del sistema Come è possibile rispondere alla domanda “quale di questi due sistemi di IR funziona meglio”? Un sistema tradizionale di Data Retrieval può essere valutato oggettivamente, sulla base delle performance (velocità di indicizzazione, ricerca ecc.). In un sistema di IR tali valutazioni delle performance sono possibili, ma, a causa della soggettività delle risposte alle query, le cose si complicano… Quello che si vorrebbe in qualche modo misurare è la soddisfazione dell’utente.
Efficacia del sistema Per misurare l’efficacia di un sistema per il recupero dell’informazione si usano due parametri, chiamati richiamo (recall) e precisione (precision). Il richiamo R è il rapporto fra il numero di documenti rilevanti recuperati (A) e il totale dei documenti rilevanti archiviati (A + D). R = A/(A+D) La precisione P è il rapporto fra il numero di documenti rilevanti recuperati (A) e il totale dei documenti recuperati (A + B). P = A/(A+B) Il massimo valore sia per il richiamo che per la precisione è 1. Il richiamo misura la capacità del sistema di recuperare tutti i documenti rilevanti, mentre la precisione misura la capacità del sistema di recuperare solo documenti rilevanti. Un sistema con precisione P < 1 ammette nelle risposte documenti non rilevanti. Un sistema con richiamo R < 1 ammette che documenti rilevanti non siano reperiti. i loro valori dipendono dal tipo di sistema, dalla raccolta dei documenti e dalla competenza di chi formula la richiesta
Un IRS è tanto + efficace quanto + alti siano il richiamo e la precisione Richiamo: il numero di documenti rilevanti recuperati in rapporto ai documenti rilevanti presenti nella collezione Precisione: il numero di documenti rilevanti recuperati in rapporto ai documenti recuperati Parametri da valutare sempre contemporaneamente Indicizzazione esaustiva + linguaggio specifico = alto RICHIAMO e alta PRECISIONE
Modelli di IR Un modello cerca di astrarre le caratteristiche salienti che stanno alla base di una classe di sistemi. Nel caso degli IR un modello riguarda: lo stile di rappresentazione dei documenti: l’insieme delle possibili chiavi di accesso assegnate ai documenti; lo stile di rappresentazione delle richieste: l’insieme delle domande formulabili dagli utenti; la modalità del confronto tra rappresentazioni di documenti e richieste: la regola di recupero l’insieme degli indicatori di valore informativo da assegnare ai documenti; Sistemi IR: struttura
Modelli di IR Due modelli classici dell’IR Modello booleano: un modello a corrispondenza esatta Modello vettoriale: un modello a corrispondenza parziale Ne esistono molti altri intermedi: il modello fuzzy, probabilistico … Formalmente un modello di IR è una quadrupla (D, Q, F, R), dove D è un insieme di viste logiche dei documenti della collezione Q è un insieme di viste logiche (query) dei bisogni informativi dell’utente F è un sistema per modellare documenti, query e le relazioni fra loro R(q,d) è una funzione di ranking che associa un numero reale ad una query q e un documento d, definendo un ordinamento tra i documenti con riferimento alla query q L’indicizzazione si occupa di come si ottiene la rappresentazione dei documenti Su cosa si basa un modello: ogni modello si basa su di una metafora, cioè su di uno strumento con cui si cerca di spiegare, a livello intuitivo, il modo di utilizzo del modello, quindi il funzionamento di un sistema di reperimento dell’informazione progettato secondo quello specifico modello.
Modelli di IR: sviluppo temporale Modello booleano – anni: 1950 ancora usato in sistemi industriali e motori di ricerca su documenti Web un modello a corrispondenza esatta Modello vettoriale – anni: 1960 sistemi industriali e era il modello utilizzato inizialmente dai motori di ricerca Web un modello a corrispondenza parziale Modello probabilistico – anni: 1970 sistemi sperimentali e prototipi di ricerca
Modello booleano Il modello booleano è il modello più semplice; si basa sulla teoria degli insiemi e l’algebra booleana. storicamente, è stato il primo ed il più utilizzato per decenni. Rappresentazione dei documenti I documenti vengono rappresentati come insiemi di termini che ne rappresentano il contenuto (scelti durante l’indicizzazione) Interrogazioni Le query vengono specificate come espressioni booleane, cioè come un elenco di termini connessi dagli operatori booleani AND, OR e NOT. Criterio di corrispondenza La strategia di ricerca è basata su un criterio di decisione binario, senza alcuna nozione di grado di rilevanza: un documento viene considerato rilevante o non rilevante. AND: i termini sono entrambi presenti OR: almeno uno dei due termini è presente NOT: il termine non è presente chiavi di accesso: PIU’ DI UN DESCRITTORE PUO’ ESSERE ASSEGNATO A OGNI DOCUMENTO COME CHIAVE D’ACCESSO domande: OGNI DOMANDA PUO’ CONTENERE PIU’ DI UN DESCRITTORE indicatori di valore informativon : COME NEI MODELLI A, B regola di recupero: AL DOC. VIENE ATTRIBUITO VALORE INFORMATIVO SE TUTTI I DESCRITTORI CONTENUTI NELLA DOMANDA SONO UGUALI A QUELLI ASSEGNATI COME CHIAVI D’ACCESSO AL DOC.
Esempio (film AND amore) documenti che contengono “film” e “amore” (dramma OR drammatico) documenti che contengono “dramma” o “drammatico” NOT (dramma OR drammatico) … che non contengono “dramma” o “drammatico” ((film AND amore) AND NOT (dramma OR drammatico)) • I descrittori sono insiemi di documenti • Le interrogazioni sono proposizioni logiche i cui operandi sono i descrittori, ossia insiemi di documenti • Gli operatori sono gli usuali operatori dell’algebra booleana, ovvero teoria degli insiemi
Modello booleano: considerazioni E’ efficace in ambienti controllati e con utenti bene addestrati l’utente deve sapere che cosa chiede richiede l’addestramento dell’utente ha delle limitazioni dovute alla bassa “amichevolezza” della logica booleana, spesso l’utente finale fa confusione tra AND e OR Ad esempio, l’utente non distingue fra “information AND retrieval” “information OR retrieval”
Modello vettoriale: documenti Il modello vettoriale è giustificato dall’osservazione che assegnare un giudizio binario ai documenti (1=rilevante, 0=non rilevante) è troppo limitativo. Rappresentazione dei documenti una sequenza di numeri lunga quanto il numero di tutti i termini utilizzati per rappresentare i documenti nella collezione, un vettore appunto. D = (t1, t2, …, tn) n numero di termini tk=0 se il termine non è presente altrimenti tk è il peso del termine kesimo nel documento, una misura di importanza chiavi di accesso: COME NEL MODELLI BOOLEANO domande: COME NEI MODELLI D, E; E’ POSSIBILE “FILTRARE” LE DOMANDE indicatori di valore informativo: GLI INDICATORI DI VALORE INFORMATIVO SONO TUTTI I NUMERI REALI (il documento può avere maggiore o minore valore informativo in funzione di una domanda) regola di recupero:AL DOC. VIENE ATTRIBUITO UN INDICATORE DI VALORE (che ne determina la priorità di recupero) CALCOLATO SECONDO ALGORITMI diversi secondo i diversi sistemi
Il modello vettoriale: interrogazione Interrogazione: un insieme di termini Rappresentazione dell’interrogazione: un vettore, simile ai documenti (con moltissimi 0 e qualche 1 in corrispondenza dei termini specificati dall’utente) Q(t1, t2, … tn) Nel modello vettoriale ad ogni termine nei documenti o nelle query viene assegnato un peso (un numero reale). • I documenti e le query vengono quindi rappresentati come vettori in uno spazio n-dimensionale (n = numero di termini indicizzati). • La ricerca viene svolta calcolando il grado di similarità tra il vettore che rappresenta la query e i vettori che rappresentano ogni singolo documento: i documenti con più alto grado di similarità con la query hanno più probabilità di essere rilevanti per l’utente. • Il grado di similarità viene quantificato utilizzando una qualche misura, ad esempio il coseno dell’angolo tra i due vettori.
Il modello vettoriale: confronto Una misura di similitudine tra documenti e richiesta. Esempio Di(ti1, ti2, ti3, …, tin) Q(q1, q2, q3, …, qn) S(Q, Di) = q1*ti1 + q2*ti2 + ... + qn*tin = Σj qj * tij con 0<j <=n AL DOC. VIENE ATTRIBUITO UN INDICATORE DI VALORE (che ne determina la priorità di recupero) CALCOLATO SECONDO ALGORITMI diversi secondo i diversi sistemi
Esempio Due documenti che trattano di Papa, Roma e Vaticano … Vettori: Interrogazione Q=[… 1, …, 1, …, 1, …] Similitudine Sim(D1, Q)=0,1+0,1+0,2=0,4 Sim(D2,Q)=0,1+0,9+0,9=1,9
… Passiamo ora ad esaminare i principali aspetti che distinguono i sistemi per il recupero delle informazioni Il modo in cui si rappresenta il contenuto dei documenti Il criterio adottato per stabilire quali documenti recuperare per soddisfare una richiesta
Rappresentazione dei documenti I metodi di rappresentazione dei documenti si possono separare in due categorie in base alla rappresentazione che danno: rappresentazione diretta, in cui il documento è rappresentato dalle parole in esso contenute rappresentazione indiretta, in cui il documento è rappresentato da termini di indicizzazione, derivati manualmente o automaticamente, che ne descrivono in modo sintetico e completo il contenuto.
Rappresentazione diretta dei documenti Con la rappresentazione diretta, un testo è rappresentato nella sua forma originaria come una sequenza di parole. Ai fini della ricerca, vengono trascurate le parole contenute in una lista di parole da ignorare (lista di esclusione o stop list) - come articoli, preposizioni, congiunzioni, avverbi ecc. - ritenute poco rappresentative del contenuto di un documento. La sequenza di parole di un testo, però, non sempre è una rappresentazione adeguata perché essa consente solo il recupero di testi con richieste che specificano una condizione sulle parole in essi presenti. ad esempio con la richiesta “trovare i documenti che trattano il problema dell’emigrazione”, si vorrebbe avere fra i documenti rilevanti anche quello con titolo “Gli albanesi in Italia nel 1996”, anche se ci sono poche parole in comune con quanto richiesto. Pertanto la rappresentazione diretta del contenuto di un documento non è in generale adeguata.
Rappresentazione indiretta dei documenti Con la rappresentazione indiretta, ai fini delle ricerche, ad un testo è associato un insieme di parole chiave (keywords), semplici o composte, che ne descrivono in modo sintetico il contenuto. Ad esempio, a questa sezione potrebbero essere associate le seguenti parole chiavi: recupero dell’informazione e indicizzazione. L’operazione di attribuzione delle parole chiave ad un testo, denominata classificazione o indicizzazione (indexing), è di solito fatta manualmente da esperti, ma sono state studiate anche tecniche automatiche basate su metodi statistici.
Sistemi per il recupero delle informazioni INDICIZZAZIONE
Indicizzazione Il problema fondamentale: identificare i contenuti dei documenti Indicizzazione: processo di rappresentazione dei documenti mediante una descrizione sintetica (es: catalogazione per soggetto in ambito bibliotecario) La caratterizzazione del documento consiste nell’ assegnazione a ciascun documento un insieme di termini, detti parole chiave o parole indice Serve per costruire indici su collezioni di documenti organizzazione indicizzata degli archivi Un indice è costituito da: una lista di termini una lista di termini pesati Linguaggio di indicizzazione: insieme dei termini scelti per indicizzare una collezione di documenti I sistemi di IR non operano sui documenti originali, ma su una vista logica degli stessi. Tradizionalmente i documenti di una collezione vengono rappresentati tramite un insieme di keyword. La capacità di memorizzazione dei moderni elaboratori permette talvolta di rappresentare un documento tramite l’intero insieme delle parole in esso contenute; si parla allora di vista logica full text. Per collezioni molto grandi tale tecnica può essere inutilizzabile; si utilizzano allora tecniche di modifica del testo per ridurre la dimensione della vista logica, che diventa un insieme di index term. Il modulo di gestione della collezione si occupa di creare gli opportuni indici, contenenti tali termini.
Indicizzazione: termini indice Tipicamente l’indicizzazione genera un insieme di termini indice (possibilmente pesati) come elementi base della rappresentazione formale di un documento (o di una query) I termini indice sono utilizzati come surrogati per la rappresentazione del documento originale e, quindi, possono essere utilizzati al suo posto durante la fase di recupero. L’uso degli indici semplifica e accelera il recupero (esempio: indice analitico di un libro). L’insieme di parole chiave costituisce un indice (paragonabile a quello analitico di un libro) la cui funzione è proprio quella – come nei libri – di facilitare il recupero di un documento nel database
Indicizzazione: termini indice Nell’IR testuale gli indici possono essere: parole automaticamente estratte dal documento; radici di parole (per esempio class-) automaticamente estratte dal documento. Questa opzione è la più frequente; frasi (ad esempio “classificazione di processi industriali”) automaticamente estratte dal documento. Questo tipo di indici non hanno dato risultati migliori di 1 e 2; parole (o frasi) estratte da un vocabolario controllato; (in modo addizionale) metadati (ad esempio titolo, autori, data di creazione ecc. )
Linguaggio di indicizzazione Linguaggio di indicizzazione: insieme dei termini scelti per descrivere una collezione di documenti e le query. E’ definito su un insieme di simboli (Vocabolario) Come sono scelte le parole del linguaggio di indicizzazione? Linguaggio controllato: limitato ad un vocabolario predefinito identificazione manuale dei termini significativi introduce meno errori, ma comporta costi aggiuntivi Linguaggio libero: termini estratti liberamente dal testo del documento, non definiti a priori e quindi automatico più sintattico e basato sulla statistica Struttura del linguaggio di indicizzazione Dizionario: termini ordinati alfabeticamente Schema di classificazione ontologia: codici che organizzano i termini gerarchicamente Thesaurus: termini organizzati in una “rete semantica” Quando si parla di vocabolario ci si riferisce all’insieme di simboli scelto per la descrizione dei documenti: può essere libero o controllato Come sono fatti i termini del linguaggio … Termini singoli (es. “recupero”, “informazione”, “sistema”…) Termini in contesto: composti da diverse parole (es. “sistemi di recupero dell’informazione”)
Processo di indicizzazione Manuale: è una persona che sceglie quali termini meglio caratterizzano il contenuto di un documento Più “semantico” e quindi migliore Soggettivo, costoso Automatico: fatto da un programma Più sintattico, su base statistica e quindi “peggiore” Economico, scalabile
Operazioni sul testo Il numero di termini indicizzati viene ridotto utilizzando una serie di tecniche, tra cui: eliminazione delle stopword: articoli, congiunzioni ecc.; de-hyphenation: divisione in più parole di parole contenenti un trattino; stemming: riduzione delle parole alla loro radice grammaticale; thesauri: gestione dei sinonimi. L’utilizzo di tali tecniche è sicuramente positivo dal punto di vista dell’occupazione di spazio, ma non sempre migliora la qualità delle risposte ad una query.
Gli strumenti per l’indicizzazione L’indicizzazione può essere fatta usando parole estratte dal testo o termini controllati o descrittori estratti da uno di questi strumenti Metadati Termini preferiti (Authority file) Vocabolari controllati Anelli di sinonimi Tassonomie e schemi organizzativi (gerarchie tra termini di un vocabolario) Thesauri: Vocabolari controllati con relazioni tra termini Un sito web è una raccolta di sistemi interconnessi con dipendenze complesse. Un singolo collegamento su una pagina puo’ essere simultaneamente parte della struttura, dell’organizzazione, dell’etichettatura, della navigazione e dei sistemi di ricerca del sito. E’ cruciale riflettere su come questi sistemi interagiscono Metadati e vocabolari rappresentano una lente affascinante attraverso cui vedere la rete di relazione dei sistemi. I primi thesauri furono sviluppati per le biblioteche, musei ed agenzie statali molto prima del WWW
Metadati Per migliorare la navigazione e il recupero dei dati da parte dell’utente, gli autori di pagine web hanno la possibilità di aggiungere parole o frasi che ne descrivono il contenuto attraverso i cosiddetti metadati. Esempio di metadati aggiunti ad un portale sul cavallo e l’equitazione sotto forma di parole chiave nel linguaggio HTML: <title>EQUINET - Il portale italiano del cavallo e dell'equitazione</title> ……….. <meta name="keywords" content="equitazione, cavallo, horse, cheval, equitation, endurance, salto ostacoli, monta western, turismo equestre, vacanze a cavallo, dressage, ippica, centro ippico, reining, purosangue arabo, mascalcia, monta maremmana, veterinaria"> I metadati non compaiono nell’interfaccia utente, ma sono disponibili ai motori di ricerca. I metadati possono essere usati come termini indice Nell’elaborazione dei dati il metadato è un dato di definizione che fornisce informazioni o documentazione su altri dati gestiti all’interno di una applicazione o di un ambiente. Ad es. i metadati documenterebbero dati su elementi di dati o attributi (nome, dimensione, tipo dato, …) e dati su record o strutture dati (lunghezza, campi, colonne, …) e dati su dati (dove sono localizzati, come sono associati, …)
Metadati e HTML Sono utilizzati nel Web per descrivere documenti, pagine, immagini, software, file video e audio e altri oggetti di contenuto allo scopo di migliorare la navigazione ed il recupero dei dati tag <META> di HTML: gli autori possono collocarvi parole o frasi che ne descrivono il contenuto queste parole chiavi non compariranno nell’interfaccia ma saranno disponibili ai motori di ricerca Facendo leva su software di gestione dei contenuti e vocabolari controllati si possono creare siti dinamici “metadata-driven” che supportino una navigazione efficace “dove inserisco questo documento nella tassonomia?” “come descrivo questo documento?” i software e i sistemi di vocabolari si occuperanno del resto
Vocabolari controllati Nella sua forma più semplice un vocabolario controllato è un qualsiasi sottoinsieme di un linguaggio naturale. è un elenco di termini equivalenti nella forma di anello di sinonimi o di authority file rappresenta un sapere specialistico, per esempio un elenco (indice) dei termini specifici di una disciplina (arte, medicina, economia, ecc. ) definisce le relazioni gerarchiche tra termini implementando uno schema di classificazione Un vocabolario controllato di questo tipo può essere: deciso da uno o più esperti costruito automaticamente scartando dai testi del settore le parole cosiddette “non-stop” (articoli, preposizioni, pronomi, ecc.) Un vocabolario controllato è un sottoinsieme di un linguaggio usato per esprimersi nel campo di un sapere specialistico. All’interno di questo vocabolario sono inseriti dei sinonimi, ovvero parole che si equivalgono tra loro
Vocabolari controllati Tipi di vocabolari controllati
Vocabolari controllati:anelli di sinonimi Un primo arricchimento del vocabolario controllato è costituito dalla introduzione dei sinonimi, o meglio di termini considerati equivalenti secondo certi criteri, nella stessa lingua o in lingue diverse, comprendendo anche errori ortografici comuni. Poiché nessuno dei termini equivalenti è considerato preferito, si parla di anelli di sinonimi Quando un utente digita una parola nel motore di ricerca quella parola viene raffrontata con un file di testo. Se la parola è presente la query esplode per includere tutte le parole equivalenti. collega un insieme di parole definite come equivalenti per il recupero dei dati; queste parole non sono sinonimi veri e propri.
Vocabolari controllati:anelli di sinonimi Pro e contro: maggiore quantità di risultati (richiamo o recall), minore rilevanza (precisione o precision). Sono una forma semplice ed utile di controllo del vocabolario precisione = rilevanza dei documenti all’interno di un dato insieme di risultati rilevanza = proporzione dei documenti rilevanti nell’insieme dei risultati confrontati con tutti i documenti rilevanti nel sistema
Vocabolari controllati:termini preferiti Viene chiamato “authority file” un elenco di termini preferiti scelti da qualche fonte autorevole per un certo settore. tradizionalmente gli authority file sono stati ampiamente utilizzati da biblioteche ed agenzie governative per definire i nomi propri di insieme di entità all’interno di un settore limitato I termini preferiti possono svolgere più di una funzione per gli autori e indicizzatori, da guida terminologica per la gestione di dizionari controllati, da identificatori unici per gli “anelli di sinonimi” per l’utente, da suggerimento per l’uso di termini corretti e standard nella ricerca, e da “sfoltimento” terminologico nella navigazione. Includono termini preferiti e varianti; sono sinonimi degli anelli in cui un termine è stato definito come termine preferito o valore accettabile
Vocabolari controllati:termini preferiti
Vocabolari controllati: schemi di classificazione Un vocabolario controllato diventa uno schema di classificazione, (schema organizzativo) o tassonomia, quando i termini vengono organizzati in una gerarchia. Uno schema di classificazione svolge un triplice ruolo: per l’architetto dell’informazione, come strumento di organizzazione e etichettatura dei documenti per l’utente, come ausilio alla navigazione (se, come in Yahoo!, è resa visibile come parte integrante dell’interfaccia) home>science>computer science>artificial-intelligence per l’utente, nella ricerca, quando gli vengono mostrate le categorie in cui è stato trovato il termine dell’interrogazione shopping>animali>cani familiarizzando con lo schema di classificazione del sistema schemi di classificazione = organizzazione gerarchica di termini preferiti
Tassonomia o Schema di classificazione Gli elementi di un gruppo sono separati in sottogruppi mutuamente esclusivi, non ambigui, che presi nel loro insieme, coprono tutte le possibilità Una tassonomia dovrebbe essere semplice, facile da ricordare e facile da usare. Uno dei più noti esempi di tassonomia è quella di Linneo per la biologia. cercare def di tassonomia Gli schemi di classificazione possono essere utilizzati anche nel contesto della ricerca (la ricerca di Yahoo! rafforza la familiarità degli utenti con lo schema di classificazione di Yahoo!) Gli schemi di classificazione non sono vincolati ad una singola vista o istanza. Possono essere usati sia dai tecnici sia dall’utente in ogni modo possibile
La classificazione Decimale Dewey (DDC) data di pubblicazione: 1876 è lo schema di classificazione più usato al mondo i bibliotecari di oltre 135 paesi usano la DDC per organizzare e fornire accesso alle loro raccolte è presente in molte interfacce di visualizzazione. http://www.lib.duke.edu/libguide/fi_books_dd.htm (Class. Dewey) E’ un elenco gerarchico con 10 categorie di livello superiore e una profondità variabile a seconda delle categorie.
La National Library of Canada utilizza la DDC come una gerarchia navigabile
Thesaurus Un thesaurus è un insieme di termini, e di relazioni fra di essi, che costituiscono il lessico specialistico da usare per descrivere il contenuto dei documenti pubblicati in un ambito disciplinare. Il thesaurus ha quindi un ruolo analogo a quello di un vocabolario di una lingua con la differenza che per i termini, oltre alla eventuale definizione, vengono indicate le relazioni che esistono fra di essi. Le relazioni possono essere di tre tipi: equivalenza gerarchia associativa(affinità semantica) Thesaurus = libro di sinonimi che spesso include parole correlate e contrastanti ed antonimi Il thesaurus è necessario per i linguaggi di indicizzazione controllati È un vocabolario di un linguaggio di indicizzazione controllato in maniera formalizzata in modo che le relazioni a priori tra i concetti sono rese esplicite La caratteristica principale di un thesaurus è la sua capacità di facilitare nella ricerca dei termini per mezzo di categorie generali Nei thesauri i termini sono regolati da una gerarchia che li ordina secondo la maggior corrispondenza. Le relazioni di gerarchia mettono in evidenza il rapporto di specificità/generalità tra 2 termini regolandoli come BT e NT. Le relazioni di preferenza si usano per rimandi da termini nn accettati a termini accettati e viceversa
Thesaurus E’ una rete semantica di concetti e collega le parole a sinonimi, omonimi, antonimi, termini allargati o ristretti e termini correlati. Prendono la forma di un DB online strettamente integrato con l’interfaccia utente di un sito o di una intranet L’obiettivo più importante è la gestione dei termini, la mappatura di molti sinonimi o varianti di un termine o concetto preferito in modo che l’ambiguità del linguaggio non impedisca alle persone di trovare ciò che cercano E’ un vocabolario controllato in cui vengono identificate relazioni di equivalenza, gerarchiche ed associative allo scopo di migliorare il recupero dei dati
ciascuno dei termini preferiti diviene il centro della sua rete semantica. La rel di equivalenza è focalizzata sulla gestione dei sinonimi; la gerarchica consente la classificazione dei termini preferiti in categorie e sottocategorie, l’associativa offre connessioni significative che non sono gestite dalle relazioni gerarchiche o di equivalenza. Tutte e tre le relazioni si rivelano utili in modo differente per scopi di recupero delle informazioni e navigazione.
Gergo tecnico PT (preferred term): termine preferito, è il termine abilitato a descrivere quel determinato concetto. Tutte le relazioni sono definite rispetto al PT VT (variant term): termine non preferito, viene definito come punto di accesso che rinvia al termine preferito ma non può essere assegnato ai documenti per esprimerne il contenuto concettuale RT (related term): in una relazione associativa reciproca RT è connesso a PT e ammette un certo grado di discrezionalità. La relazione è spesso sottintesa dall’uso della forma “Vedi anche”. U (Use): per la relazione di equivalenza il rinvio dal VT al PT viene indicata dal simbolo USE. La forma vedi è sicuramente più conosciuta se si lavora con vocabolari controllati e thesauri è utile conoscere la terminologia specialistica usata dagli esperti nel campo per comunicare definizioni e relazioni
Thesaurus in azione Non è semplice trovare buoni esempi di siti pubblici che usano i thesauri la situazione cambierà negli anni a venire in quanto i thesauri diventano uno strumento chiave per affrontare la crescente crescita e importanza dei siti e delle intranet Spesso non è ovvio quando un sito usa un thesaurus quando è ben integrato ad un occhio non allenato non è visibile quanti utenti si accorgono quando un sito corregge gli errori ortografici? Un buon esempio è PubMed un servizio della National Library of Medicine fornisce l’accesso ad oltre 18 milioni di citazioni da MEDLINE ed altre riviste scientifiche MEDLINE è stato per molti anni il servizio di informazioni elettroniche primario per dottori, ricercatori ed altri professionisti medici Il sito si basa su un enorme thesaurus di oltre 19.000 termini preferiti o titoli di argomenti principali ed offre potenti funzionalità di ricerca
Thesaurus in azione PubMed offre un’interfaccia pubblica semplificata con libero accesso alle citazioni Immaginiamo di cercare articoli sulla MR nel motore di ricerca di PubMed e ci sono mostrati i primi 20 risultati; nulla di nuovo in questa esperienza di ricerca, per quel che ne sappiamo potremmo aver cercato sull’intero testo dei 18 milioni di articoli presenti. Non abbiamo effettuato una ricerca nel testo completo ma nei record dei loro metadati che comprendono una combinazione di estratti e di titoli di argomenti
Il Mesh browser ci consente di navigare sfogliando la gerarchia interna del thesaurus o tramite ricerca PubMed nasconde i meccanismi medianti i quali un termine variante è mappato in un termine preferito ad esempio Uno dei vantaggi dell’utilizzo di un thesaurus è che si ottiene un’impressionante potenza e flessibilità nel modellare e raffinare nel tempo l’interfaccia utente
Tipi di thesauri Thesaurus classico viene utilizzato nell’indicizzazione della ricerca. Gli indicizzatori utilizzano il thesaurus per mappare termini varianti a termini preferiti quando effettuano indicizzazioni di un singolo documento i ricercatori usano il thesaurus per il recupero delle informazioni siano o meno consapevoli del ruolo che esso gioca nella loro ricerca i termini delle query vengono confrontati con il ricco vocabolario del thesaurus consentendo la gestione dei sinonimi la navigazione gerarchica ed i collegamenti associativi tipo più completo di thesaurus
Tipi di thesauri Thesaurus di indicizzazione sviluppare un vocabolario controllato ed indicizzare i documenti senza implementare la funzionalità di gestione dei sinonimi nella fase di ricerca struttura il processo di indicizzazione promuovendo coerenza ed efficienza consente di costruire degli indici navigabili dei termini preferiti consentendo agli utenti di trovare tutti i documenti relativi ad un particolare argomento attraverso un singolo punto di accesso una tale coerenza può fornire un reale valore ai sistemi di informazione nell’ambito di utenze chiuse nel caso in cui si puo’ sviluppare un vocabolario di indicizzaione senza sfruttare quel lavoro per ricercare e mappare i termini varianti dell’utente ai termini preferiti
Tipi di thesauri Thesaurus di ricerca usa un vocabolario controllato durante la ricerca ma non al momento dell’indicizzazione quando un utente digita un termine in un motore di ricerca un thesaurus di ricerca può mappare quel termine nel vocabolario controllato prima di eseguire la query sull’indice di tutto il testo offre una maggiore flessibilità di navigazione consentendo agli utenti di sfogliare il thesaurus navigando attraverso relazioni di equivalenza gerarchiche e associative
Thesaurus: tipi di relazioni La relazione di equivalenza è usata per collegare termini preferiti e loro varianti. si usano per rimandi da termini non accettati a termini accettati e viceversa. Esse sono USA o VEDI e USATO PER. l’equivalenza è un termine più importante di sinonimo si raggruppano termini definiti come equivalenti per scopi di recupero dati; possono essere compresi sinomini, quasi-sinonimi, acronimi, abbreviazioni, varianti lessicali ed errori lessicali frequenti in base alla specificità desiderata del vocabolario controllato si possono includere termini più generali e più specifici nella relazione di equivalenza per evitare livelli gerarchici Termine preferito: Palm Termini Varianti (equivalenti) palm, palm pilot, pocket pc Ad esempio: Elaboratore VEDI Calcolatore; Calcolatore USATO PER Elaboratore, Calcolatrice, Stazione di lavoro. Un Thesaurus è un vocabolario controllato in cui vengono esplicitate relazioni semantiche fra termini. Quel che distingue un thesaurus dai più semplici vocabolari controllati è la sua ricca matrice di relazioni semantiche
Thesaurus: tipi di relazioni Le relazioni gerarchiche dividono lo spazio informativo in categorie e sottocategorie correlando i concetti di più largo e più stretto attraverso le relazioni di tipo genitore-figlio mettono in evidenza il rapporto specificità-generalità tra due termini; esse sono: termine più generale (broader term- BT) e termine più specifico (narrower term - NT). Generica: relazione classe-specie che prendiamo dalle tassanomie biologiche; la specie B è un membro della classe A ed eredita le caratteristiche del suo genitore ad es. Felini NT Gatti Leoni Tigri; Gatti BT Felini. Padre-Tutto: nella relazione partitiva B è una parte di A ad es. Piede NT Alluce Esemplificativa: B è un’istanza di A; questa relazione include i nomi proprio ad es: Mari NT Mar Mediterraneo ci sono molti modi differenti di organizzare gerarchicamente gli spazi informativi un thesaurus a faccette supporta i bisogni delle categorie multiple
Thesaurus: tipi di relazioni Le relazioni di affinità semantica si usano per collegare termini con significato affine o che esprimono concetti correlati; esse sono: termine correlato (related term (RT)) e sinonimi (synonymous term (ST)). Ad esempio, In corrispondenza del termine “geometria” si potrebbe trovare: BT matematica, NT geometria piana, geometria solida, geometria analitica, RT algebra lineare Associativa è per esempio la relazione di contestualità fra termini, come “forchetta” e “coltello”, “autostrada” e “casello”, “Waterloo” e “Napoleone”.
Esempio non esiste un modo perfetto di progettare un thesaurus: saranno sempre presenti forti elementi di giudizio personale
Linee guida per la costruzione/gestione di Thesauri Ci sono vari standard nazionali e internazionali che offrono linee guida per la costruzione di thesauri, fra cui il più diffuso è lo standard ANSI/NISO Z39.19 (USA,1994) tale standard è intitolato “Giudelines for the construction, format and management of monolingual thesauri” linee guida per chi compila il thesaurus offre una valida cornice concettuale ed in alcuni casi regole specifiche ma non elimina la necessità del pensiero critico della creatività Buoni motivi per attenersi alle linee guida dello standard USA : i problemi generali della classificazione sono affrontati sistematicamente gran parte del software per la gestione dei thesauri è progettato per aderire allo standard compatibilità e integrazione tecnologica ne risultano avvantaggiate
Termini preferiti La terminologia è un punto critico Forma del termine dobbiamo usare un nome o un verbo? qual è il modo corretto di scdiverlo? singolare o plurale? il thesaurus ANSI\NISO standard approfondisce questo argomento Selezione del termine Definizione del termine Specificità del termine
Problemi generali della classificazione Arbitrarietà nella scelta delle relazioni semantiche, in particolare la relazione associativa. Lo standard ANSI/NISO ne propone molte, fra cui: causa-effetto; processo-agenti; concetto-proprietà; azione-prodotto,ecc. Arbitrarietà nella scelta dei termini preferiti. ANSI/NISO fornisce indicazioni lessicali (per es. frequenza del termine, specificità) e formali (categoria grammaticale; ortografia; plurale/singolare; abbreviazioni, ecc.) Trattamento e rappresentazione (nell’interfaccia) delle poligerarchie, cioè di gerarchie dove un termine è sottordinato di più termini. Es.
Poligerarchia In una gerarchia stretta ciascun termine appare in uno ed un solo posto come previsto nel piano originario della tassanomia biologica: ciascuna specie doveva inserirsi esattamente in un ramo dell’albero della vita Con grandi sistemi d’informazione la poligerarchia è inevitabile
I segni @ sono utilizzati per indicare le categorie che hanno un riferimento incrociato a altri rami nella gerarchia La poligerarchia causa confusione nella classificazione e nel posizionamento degli oggetti fisici Gli oggetti fisici per loro natura possono essere in un solo posto alla volta. Nei sistemi informativi digitali la sola vera sfida introdotta dalla poligerarchia è rappresentata dal contesto navigazionale . Gran parte dei sistemi consentono la nozione di posizione principale e secondaria all’interno della gerarchia. Il segno @ conduce gli utenti dalle posizioni secondarie a quella principale
Classificazione a “faccette” Altri sistemi hanno adottato la classificazione a “faccette”, o punti di vista. Non ci si preoccupa di collocare un oggetto in una gerarchia, ma di descriverlo in termini di sue proprietà o caratteristiche mutuamente esclusive. Non una singola grande tassonomia, ma tante piccole tassonomie che rispecchiano altrettanti diversi punti di vista. La classificazione a faccette è stata proposta negli anni ’30 dal bibliotecario indiano Ranganathann che costruì il suo sistema sulla nozione che documenti ed oggetti hanno molteplici dimensioni o faccette Oggi è adottata da molti siti, soprattutto di ambiente commerciale.
il vecchio modello pone la questione “dove lo metto il vecchio modello pone la questione “dove lo metto?” ed è + legato alla nostra esperienza del mondo fisico, un posto per ogni cosa. l’approccio a faccette pone la domanda “come lo posso descrivere?” Quello che si fa è applicare la struttura a campi di un DB al molto + eterogeneo mix di documenti ed applicazioni di un sito. Piuttosto che l’approcio una tassonomia va bene per tutto di Yahoo! abbracciamo il concetto di molteplici tassonomie che si focalizzano su differenti dimensioni del contenuto
Classificazione a “faccette” Ranganathan sosteneva che è necessario realizzare molte tassonomie pure utilizzando un principio di divisione alla volta. Suggerì cinque sfaccettature universali da utilizzare per organizzare ogni cosa personalità materia energia spazio tempo Tale approccio ha un grande valore ma non usiamo le definizione di Ranganathan. Le definizioni nel mondo degli affari sono: argomento prodotto tipo di documento utente geografia prezzo
Wine. com fornisce un semplice esempio di classificazione a faccette Wine.com fornisce un semplice esempio di classificazione a faccette. Il vino ha parecchie sfaccettature che comunemente mischiamo e confrontiamo nel nostro processo di selezione al ristorante ed in drogheria Alcune di esse sono semplici elenchi, ad es. il prezzo, mentre altre devono essere rappresentate gerarchicamente, ad es. il tipo Quando cerchiamo un Merlot californiano di prezzo medio stiamo inconsciamente definendo e combinando le faccette. Wine.com fa leva su questa classificazione a faccette per consentire questa esperienza online.
la pagina principale degli acquisti presenta diversi modi per navigare fornendo molteplici percorsi della stessa informazione.
si puo’ navigare per prezzo o valutazione dalla home page
il power search fornisce la capacità di combinare le faccette in ricchi tipi di query che esprimiamo usualmente nel linguaggio naturale. Le faccette possono essere utilizzate anche per ordinare i risultati. Wine.com ha aggiunto le valutazioni di diverse riviste come ulteriore faccetta
Pregi e futuro della classificazione sfaccettata Dalla parte dei progettisti: grande potenza e flessibilità nella presentazione di scelte di navigazione e ricerca. Dalla parte degli utenti: possibilità di formulare interrogazioni simulando il linguaggio naturale E’ un approccio destinato ad imporsi sulle soluzioni a tassonomia unica. Metadati, vocabolari controllati e thesauri saranno i mattoni fondamentali dei futuri siti web sempre più flessibili e sfaccettati. tale tipo di classificazione fornisce grande potenza e flessibilità