La presentazione è in caricamento. Aspetta per favore

La presentazione è in caricamento. Aspetta per favore

Lindicizzazione semantica Una introduzione di Lucia Sardo Venezia, 24 novembre 2008.

Presentazioni simili


Presentazione sul tema: "Lindicizzazione semantica Una introduzione di Lucia Sardo Venezia, 24 novembre 2008."— Transcript della presentazione:

1 Lindicizzazione semantica Una introduzione di Lucia Sardo Venezia, 24 novembre 2008

2 Soggetto Che cosa è il soggetto?

3 Indicizzazione tecnica per costruire accessi attraverso il contenuto semantico di documenti Comprende: 1. Processo di analisi concettuale del documento (per individuarne il contenuto semantico) 2. Traduzione del contenuto informazionale nel linguaggio di un sistema di indicizzazione

4 Sistema di indicizzazione Insieme delle procedure per lorganizzazione e la rappresentazione del contenuto dei documenti finalizzata al recupero

5 ANALISI CONCETTUALE Funzione di identificare il contenuto informazionale di un documento 3 aspetti a. analisi del documento in sé b. analisi in relazione alla collezione c. analisi relativa al piano tecnico (p.e. Scelta tra indicizzazione approfondita o sommarizzazione)

6 Aboutness: proprietà di un discorso o documento di trattare un tema, di essere about un certo argomento. Si definisce come rapporto esistente tra il tema di un documento e un tema teoricamente definito che funzione come riferimento esterno al documento. Serrai: circalità

7 Identificazione del contenuto di un documento: stabilire la relazione esistente tra il discorso del documento intorno a un concetto e il concetto teoricamente definito come una parte della conoscenza generale.

8 Literary Warrant (garanzia bibliografica): lanalisi concettuale e lindicizzazione devono essere basate sul materiale a disposizione piuttosto che su considerazioni astratte

9 Analisi per faccette - Ranganathan Propone: 1. Procedimento di analisi: scomposizione del soggetto nelle parti che lo compongono 2. Procedimento di sintesi: sintesi di queste parti per rappresentare il contenuto del documento

10 Procedimento di analisi: 5 categorie fondamentali di concetti: Personalità: faccetta primaria: oggetti, tipi di oggetti, tipi di azioni Materia Energia: azione; morfologia, funzione, etc. Spazio Tempo

11 Soggetto: consiste di una classe base e di uno o più aspetti che si possono ricondurre alle cinque categorie fondamentali Ordine fisso di riorganizzazione degli elementi ottenuti attraverso lanalisi; ordine decrescente di concretezza: PMEST

12 ISO 5963: Methods for examining documents, determining their subject and selecting indexing terms Prevede 3 stadi nel processo di indicizzazione: 1. Esame del documento e determinazione del suo soggetto 2. Identificazione dei concetti principali presenti nel soggetto 3. Traduzione dei concetti selezionati nei termini di un linguaggio di indicizzazione

13 Linguaggi di indicizzazione

14 Linguaggio di indicizzazione Insieme di termini ammessi per descrivere il contenuto dei documenti, e insieme di regole che stabiliscono come i termini debbano essere usati, e in che relazione con ogni altro termine. Linguaggio per la rappresentazione del contenuto semantico dei documenti allo scopo di renderne possibile il recupero

15 Linguaggi alfabetici che usano i termini della lingua naturale Linguaggi alfabetici controllati (thesauri, soggettari) Schemi di classificazione

16 In base alle procedure seguite per la determinazione dei descrittori da usare per esprimere il contenuto dei documenti abbiamo linguaggi che usano termini: 1. Assegnati 2. Derivati

17 Indicizzazione per termini derivati Indicizzazione per catchword KWIC KWAC KWOK Citation indexing

18 Indicizzazione per termini assegnati Termini del linguaggio naturale Notazioni numeriche o alfanumeriche di linguaggi artificiali

19 Linguaggio controllato: insieme prefissato di termini e/o voci di indice che possono essere assegnati ai documenti, isolatamente, in combinazione o attraverso una sintassi. Può essere: chiuso aperto

20 Termini accolti: descrittori o termini preferiti Termini non accolti: non descrittori o termini non preferiti Insieme costituiscono il vocabolario di accesso

21 In un linguaggio controllato sono generalmente indicate le più importanti relazioni fra un dato termine preferito e altri

22 Linguaggi: precoordinati: le voci di indice possono coinvolgere più concetti distinti che nel loro complesso sintetizzano il tema di un documento. Presuppongono una componente sintattica, formalizzata o ricalcata su quella del linguaggio naturale, che regoli la formazione delle voci postcoordinati: costituito da descrittori di norma semplici, che si riferiscono a singoli concetti e che non vengono legati tra loro.

23 Linguaggi: enumerativi: elencano tutti i termini o combinazioni di termini che vanno usati per descrivere il soggetto di un documento e non consentono altre combinazioni se non quelle già previste sintetici: elencano i termini che vanno usati, fornendo una serie di regole per la loro combinazione

24 3 qualità caratteristiche dellindicizzazione assegnata: predittività accessibilità coerenza

25 Thesauri Strumenti più sofisticati delle liste di soggetti Differenze liste di soggetti - thesauri: 1. Tipo di termini 2. Tipi di relazioni espresse 3. Modo in cui vengono espresse le relazioni

26 ISO 2788: direttiva per la costruzione di thesauri monolingua

27 Relazioni semantiche Esercitano il controllo dei sinonimi, dei quasi sinonimi, della forma dei termini e provvedono al raggruppamento gerarchico e al raggruppamento per associazione e affinità dei termini

28 3 tipi di relazioni: a - equivalenza o preferenziali b - gerarchiche c - associative o di affinità

29 Ordine di citazione Problemi dellordine di citazione nei sistemi precoordinati: ordine scelto può non rispondere alle esigenze di tutti i lettori insiti nel tentativo di rappresentazione lineare di una realtà multidimensionale

30 Scopi informa dellesistenza di opere possedute dalla biblioteca che trattano di un determinato argomento informa dellesistenza di opere possedute dalla biblioteca che trattano di argomenti affini al soggetto ricercato Il catalogo per soggetto persegue due scopi

31 Lindicizzazione per soggetto raggiunge i suoi fini quando organizza la struttura sindetica, costruisce la rete di collegamenti fra voci di soggetto più generali e più specifiche, e fra voci di soggetto affini.

32 Lindicizzazione per soggetto si basa su due principi Principi principio di struttura principio di formulazione

33 Traduzione nel linguaggio documentario del soggetto individuato con lanalisi concettuale Principio di formulazione si suddivide in principio della specificità principio delluso linguistico

34 Creazione di unimpalcatura razionale, costituita da legami e rinvii reciproci dei descrittori Principio di struttura principio della correlazione si suddivide in principio dellunità e delluniformità

35 Principio di formulazione La voce di soggetto viene formulata in modo specifico e con la terminologia linguistica di uso corrente

36 Il principio della specificità caratterizza lindicizzazione semantica da Cutter in poi; esso stabilisce che a ogni soggetto corrisponde esattamente un termine linguistico specifico e univoco. Il descrittore esprime esattamente lambito semantico. La voce animali domestici non è coestesa alla voce animali come pure la voce gatto non è coestesa alla voce animali domestici o felini

37 Quando un documento è politopico la voce copre semanticamente tutti o il maggior numero possibile dei soggetti: unopera che tratta del gatto, della tigre, del leone, della pantera ha come indice felini, seppure non tratti di tutti i felini, non tanti indici quanti sono i soggetti analizzati

38 Il principio delluso linguistico riguarda luso della terminologia corrente nella formulazione della voce di soggetto. Esso prescrive laderenza più stretta possibile ai termini in uso nel sistema linguistico del paese in cui lagenzia catalografica opera. Il descrittore è espresso nei termini del linguaggio naturale

39 Conseguenze del principio delluso linguistico corrente sono: ladozione di nuove espressioni dovute al corso della storia e al progresso scientifico, tecnologico, sociale e culturale la sostituzione di termini e di espressioni desuete nelluso corrente (p.e., da fanciulli a ragazzi)

40 ladozione di termini o di espressioni dirette, termini e espressioni adoperate in passato per indicare un concetto dipendente da un altro e che ora ha acquistato autonomia per levolversi e il definirsi della disciplina (p.e., da Relatività- Teoria a Teoria della relatività) ladozione di termini e di espressioni in lingue straniere, quando non esista il corrispettivo in italiano e quando esse siano entrate nelluso corrente (p.e., Robot, Compact disc, Computer)

41 luso della grafia corrente, con labbandono di quella arcaica o non più utilizzata comunemente (p.e., da Giuochi a Giochi) la distinzione fra la terminologia scientifica e la terminologia corrente (p.e., Homo Pechinensis, anziché Uomo per unopera che tratta del cranio dellHomo Pechinensis)

42 Principio di struttura Larchitettura dellorganizzazione catalografica per soggetto si basa sulla struttura sindetica Il principio dellunità e delluniformità stabilisce di usare la stessa voce per tutti i documenti che trattano del medesimo soggetto (a soggetti uguali corrispondono voci di soggetto uguali)

43 Possono verificarsi errori di discordanza di due tipi un comportamento dissimile da parte di catalogatori diversi un comportamento dissimile da parte dello stesso catalogatore in tempi diversi

44 La registrazione delle scelte compiute e la ricerca dei precedenti (altre edizioni della stessa opera, opere di argomento simile catalogate in passato) possono contribuire ad assicurare coerenza (ma revisioni e bonifiche periodiche sono sempre necessarie)

45 Il principio di correlazione prescrive di mettere in relazione ogni voce con altre voci che designano concetti correlati e affini. Ciascuna voce fa parte di una famiglia di voci. Ad esempio Cereali è legata a descrittori di valore affine o più ampio (p.e., Piante alimentari) e più specifico (p.e., Grano, Avena, Orzo)

46 La correlazione è in senso verticale e orizzontale: dal generale al particolare e viceversa o, con linguaggio cutteriano, in senso discendente e ascendente

47 Lintestazione per soggetto secondo il Soggettario

48 1925: la BNCF inizia a corredare con la voce di soggetto le registrazioni del Bollettino delle pubblicazioni italiane ricevute per diritto di stampa Da quella esperienza e dallo studio delle LCSH e di altre liste di voci di soggetto i bibliotecari della BNCF cominciano a elaborare dal 1936 un vocabolario controllato di termini, pubblicato nel 1956

49 Il termine Soggettario viene appositamente coniato per dare un titolo a questa lista di voci, il cui scopo principale – scrive Anita Mondolfo nella Prefazione – è fornire ai catalogatori una guida, che [...salvi] dalle molteplici visioni personali

50 indica i tipi di voci che si possono usare, non le voci che si debbono usare. È possibile formulare nuove voci nel rispetto della sua filosofia (ma è preferibile che siano agenzie autorevoli a farlo) Soggettario lista aperta di termini di riferimento per la costruzione del catalogo per soggetto, non è lelenco dei soli termini da usare

51 Il Soggettario contiene circa 23.000 voci, 100.000 rimandi e 10.000 suddivisioni, alle quali vanno aggiunte alcune migliaia di voci e di suddivisioni introdotte con gli aggiornamenti Ha tre appendici: Suddivisioni dei soggetti geografici Suddivisioni dei soggetti biografici Suddivisioni formali

52 La BNI, dal 1958 in poi, ha modificato o sostituito termini desueti nel linguaggio comune e ne ha inseriti di nuovi, e ha curato la pubblicazione di quattro Liste di aggiornamenti nel 1977, 1982, 1988, 1997; le prime tre presentano un elenco di termini, senza la struttura sindetica. Voci di soggetto. Aggiornamento 1986-1996 del 1997 introduce un apparato sindetico nuovo (applica parzialmente ISO 2788)

53 Il Soggettario (con i suoi aggiornamenti) è, quindi, una lunghissima serie esemplificativa di termini a cui occorre attenersi per la scelta delle voci o, meglio, per la scelta della forma delle voci di soggetto, per laspetto formale del descrittore.

54 Morfologia Il Soggettario si articola in soggetti principali soggetti secondari (o suddivisioni) rinvii richiami rimandi da I richiami e i rimandi da collocano ciascun termine in un sistema di coordinate

55 Alcuni descrittori hanno note di orientamento, in corsivo, che precisano il valore del termine I soggetti principali sono contraddistinti da un corpo in carattere neretto Le suddivisioni non sono utilizzate da sole, ma sempre unite, da una lineetta, al termine che precede

56 I rinvii rinviano da una formula possibile di un soggetto, che non è stata impiegata, alla voce standard (p.e., Badie v. Abbazie)

57 I richiami hanno la funzione di agevolare la scelta della voce; collegano le singole voci con altre ad esse subordinate o accessorie (p.e., Disarmo v.a. Sicurezza internazionale) affini (p.e., Contratti statali v.a. Contratti di diritto pubblico) contrapposte (p.e., Bene v.a. Male)

58 Vi sono richiami specifici (p.e., Navigazione v.a. Canali maritttimi) e richiami esemplificativi (p.e., Stato... anche le diverse forme di Stato, es. Comuni; Monarchia; Repubblica), introdotti dalla sigla v.a. (vedi anche) e talvolta preceduti da una nota di orientamento, in corsivo; la correlazione fra i termini è parte essenziale della struttura sindetica

59 I rimandi da rappresentano lesatta antitesi dei rinvii e dei richiami I rinvii da indicano da quali voci è stato fatto rinvio (p.e., Arte *Arti figurative; Belle arti); la voce non preferita è preceduta da un asterisco

60 I richiami da indicano da quali voci è fatto ad essa richiamo (p.e., Gnoseologia **Conoscenza; Filosofia; Scienze; naturalmente sotto Filosofia e Scienze vi sarà il richiamo da Gnoseologia); la voce correlata è preceduta da due asterischi o da due asterischi e dallabbreviazione es. che introduce una esemplificazione

61 Le intestazioni per soggetto sono costituite da soggetti comuni soggetti formali soggetti geografici soggetti biografici soggetti relativi alle opere anonime soggetti relativi a enti soggetti relativi a eventi storici soggetti relativi a malattie Tipologia delle voci

62 Le voci formulate al plurale esprimono concetti trattati collettivamente, quali i prodotti delle arti (p.e., Affreschi, Mobili), i nomi di classi di persone, di attività e di mestieri (p.e., Artigiani; Medici) o voci che si riferiscono a forme letterarie e bibliografiche (p.e., Romanzi, Cataloghi) e a nomi di enti e istituti (p.e., Biblioteche, Scuole medie)

63 Esistono anche termini formulati al singolare e al plurale, ovviamente con significato diverso: Affresco indica la tecnica dellaffresco, Affreschi il soggetto comune; Moneta si riferisce alluso che se ne fa in economia, Monete al collezionismo di monete come oggetti (numismatica)

64 Il soggetto comune è costituito da un sostantivo, un nome comune (p.e., Cavalli, Musica, Piante, Seta); la voce può essere accompagnata da una specificazione, posta entro parentesi tonde, con la funzione di distinguere due omografi, p.e., Marte (Pianeta) da Marte dio della guerra, oppure la funzione di precisare il significato del termine, p.e., Colomba (Simbolo); la specificazione è attribuita al termine meno comune

65 un sostantivo accompagnato da un aggettivo (p.e., Letteratura italiana, Scuole materne) o da un complemento (p.e., Piante da cellulosa, Festa degli alberi) che ne determinano il valore una formulazione di uso comune (p.e., Debito estero, Libero arbitrio

66 due termini uniti dalla congiunzione e; la voce indica un rapporto tra due argomenti analizzati in relazione o in contrapposizione (p.e., Chiesa e Stato, Famiglia e scuola), oppure due concetti che di solito sono analizzati insieme (Domanda e offerta, Usi e costumi); in testa alla stringa è il termine che tradizionalmente è citato per primo; lespressione inversa rinvia alla forma preferita

67 Le voci di soggetto formali descrivono la categoria alla quale appartiene il documento, non il suo contenuto, (in questo senso sono voci di soggetto improprie) e sono seguite da una suddivisione (p.e., Periodici- Catalogazione)

68 I soggetti geografici sono voci costituite da termini che designano unità geografiche (p.e., Alpi, Mare Adriatico, Roma). I nomi di luoghi stranieri sono espressi nella forma originale in assenza della forma italiana (p.e., Amsterdam) e in presenza di una forma italiana desueta (p.e., New York, non Nuova York)

69 Le voci di soggetto geografiche possono essere accompagnate da una qualificazione, entro parentesi tonda, che ne delimita lambito (p.e., Napoli (Comune), Napoli (Provincia)) seguite da un aggettivo che designa una parte dellunità geografica più vasta (p.e., America latina, Italia meridionale)

70 formulate con termini che non corrispondono a nessuna unità geografica, ma che, tuttavia, hanno acquisito un valore preciso nelluso corrente (p.e., Estremo Oriente, Paesi baltici) formulate con termini che indicano unità geografiche che nel tempo hanno mutato nome ed estensione: Gallia non corrisponde a Francia

71 I soggetti biografici riguardano persone reali, mitologiche e immaginarie (p.e., Manzoni Alessandro, Caterina da Siena, Zeus, Omero, Parsifal) e sono formulati in italiano, per gli scopi divulgativi caratteristici del catalogo per soggetto

72 In particolare i nomi degli autori del periodo classico greco e latino (p.e., Virgilio, non Vergilius) i nomi degli autori del Medioevo e del Rinascimento (p.e., Erasmo da Rotterdam)

73 i nomi dei santi italiani e di altre aree linguistiche, quando la forma italiana è usata tradizionalmente (p.e., Vincenzo de Paoli, Antonio di Padova) i nomi dei sovrani non italiani, quando esiste una forma italiana (p.e., Napoleone I), e i nomi dei papi; i nomi delle case regnanti e delle dinastie sono accompagnati dalle rispettive specificazioni, entro parentesi tonde (p.e., Carolingi (Dinastia))

74 Le voci biografiche possono essere unite ad altre voci biografiche dalla congiunzione e per indicare una relazione fra due personaggi; in prima posizione è il nome dellautore che ha subito un influsso o quello che precede nellordine alfabetico (p.e., Giotto e Cimabue, Leonardo da Vinci e Zenale)

75 Soggetti relativi alle opere anonime sono costituiti dai titoli con cui sono tradizionalmente conosciute le opere anonime (p.e., Bibbia, Chanson de Roland, Corano)

76 Soggetti relativi a enti (associazioni, accademie, ordini religiosi,...) sono costituiti dal nome dellente (p.e., Centro di studi sul Rinascimento), spesso espresso nella forma breve (p.e., Francescani)

77 Soggetti relativi a eventi storici e malattie. Il Soggettario propone la costruzione di una stringa che inizia con il nome del luogo in cui si è svolta la battaglia, seguito dal segno di virgola, dalla specificazione battaglia di, dal segno di virgola e dallindicazione cronologica (p.e., Canne, battaglia di, 216 a.C.)

78 La formulazione non è mai stata adottata dalla BNI, la quale preferisce la voce diretta, nel rispetto del principio delluso linguistico: Battaglia di Canne, 216 a.C., Battaglia di Campaldino, 1289, Battaglia di Anghiari, 1440). Stesso comportamento per i nomi delle malattie, p.e., Morbo di Parkinson, Sindrome di Stoccolma, Sindrome di Stendhal)

79 Un commento su unopera di un autore ha come voce di soggetto il nome dellautore, segno di punto e titolo dellopera (p.e., Manzoni Alessandro. I promessi sposi; Buonarroti Michelangelo. La Pietà)

80 Suddivisioni Il Soggettario ricorre allapporto di una suddivisione per circoscrivere la capacità informativa di un termine il cui significato non coincide semanticamente con largomento trattato dal documento, per esprimere più compiutamente largomento evidenziato dalla voce principale

81 Le suddivisioni sono categorizzabili in varie tipologie suddivisioni generiche (p.e., – Storia); suddivisioni formali (p.e., – Periodici; – Dizionari) suddivisioni geografiche (p.e., – Italia) che determinano spazialmente il soggetto

82 suddivisioni di voci geografiche. Quando largomento è di per sé vasto il Soggettario preferisce il termine geografico in prima posizione della stringa. Unopera sulle condizioni economiche sociali, politiche e culturali, sulla civiltà e sulla storia complessiva di una città, di una nazione, di un territorio ha come soggetto la città, la nazione, il territorio (p.e., Italia – Economia; Italia)

83 suddivisioni delle voci biografiche (p.e., Garibaldi Giuseppe – Cimeli) suddivisioni cronologiche (p.e., – Sec. 19.; – 1945-1983) che delimitano il soggetto nel tempo

84 Il Soggettario non ha un ordine di combinazione fissato da regole. Ciò provoca costruzioni talora disomogenee. È tuttavia invalsa una certa consuetudine a ordinare gli elementi di una stringa seguendo la struttura delle faccette base della Colon Classification di Ranganathan, riassunte nellacronimo PMEST, Personalità, Materia, Energia, Spazio, Tempo

85 La Personalità è lentità, la Materia sono i metodi, i materiali e le proprietà, lEnergia sono i processi, le operazioni, lo Spazio e il Tempo sono la rappresentazione del soggetto in un luogo e in un periodo

86 Ordinamento Lordinamento delle voci è alfabetico, parola per parola secondo la successione delle lettere dellalfabeto italiano, in base alla prima parola che non sia un articolo. Se il primo termine è il medesimo per più soggetti, lordinamento è stabilito dalla seconda parola, e così di seguito

87 Le suddivisioni hanno un ordinamento secondo criteri formali o, nel caso di Arte, addirittura sistematico per una ricerca più agevole dei soggetti. Le suddivisioni geografiche precedono le suddivisioni generiche e formali; le suddivisioni cronologiche seguono sempre la voce – Storia

88 Lordinamento è applicato anche alle suddivisioni delle suddivisioni. Una riga bianca segnala la fine della serie esemplificativa geografica dallinizio della serie delle suddivisioni generiche e formali. Un ordinamento analogo può applicarsi anche ad altre serie di soggetti che appartengono a una medesima classe (cfr. Soggettario, p. XXVI-XXVIII)

89 Arte – America – Francia, etc. – Bibliografia – Cataloghi – Collezioni – Conferenze, etc. – Storia – Antichità – Sec. II-VII (la BNI usa attualmente i numeri arabi, ndr) – Sec. X-XII – Sec. XII-XIII – Sec. XVII-XIX – Sec. XIX

90 Anche le voci biografiche hanno un ordinamento parzialmente sistematico. Le suddivisioni propriamente biografiche sono ordinate alfabeticamente, ad esse seguono le suddivisioni relative alle opere (p.e., – Opere latine, – Opere poetiche, – Opere storiche), quindi il titolo delle singole opere (cfr. le voci Alighieri Dante, Carducci Giosue, Cesare Caio Giulio, Manzoni Alessandro). Linizio di una nuova serie alfabetica allinterno della voce biografica è avvertito da tre asterischi disposti a forma di triangolo

91 La formulazione del soggetto è in stretta relazione con la tipologia del pubblico e della raccolta. Importanti sistemi di catalogazione partecipata non prevedono lindicizzazione per soggetto e lasciano alle biblioteche aderenti ogni decisione in merito

92 Il catalogo per soggetto, di norma, non indicizza gli almanacchi, gli annuari, le enciclopedie e i periodici generali, le opere letterarie e artistiche, le opere filosofiche, i codici di leggi, i documenti dottrinali e liturgici di una chiesa, perché sono opere che non presentano un argomento definito o, pur avendolo, non vengono usualmente ricercate per il loro soggetto

93 Il Nuovo Soggettario Lo studio di fattibilità sul rinnovamento del Soggettario è iniziato nel mese di settembre del 2000 e si è concluso nel giugno del 2002. Lo studio ha indicato i principi e le caratteristiche del nuovo linguaggio di indicizzazione; ha definito le modalità per raggiungere obiettivi realizzabili e soluzioni economicamente sostenibili; ha elaborato un piano a breve e medio termine, un avanzamento per tappe; ha stimato la spesa relativa alle risorse umane e tecnologiche necessarie alleffettiva realizzazione del progetto.

94 I lavori del Prototipo sono iniziati nel novembre 2004. 2006: Pubblicata la Guida e reso pubblico il Prototipo


Scaricare ppt "Lindicizzazione semantica Una introduzione di Lucia Sardo Venezia, 24 novembre 2008."

Presentazioni simili


Annunci Google