Riconsiderare la relazione di equivalenza nei thesauri Melissa Tiberi, Barbara De Santis
Premessa Proporremo una riflessione sulla relazione di equivalenza utilizzata nei thesauri. Faremo alcune considerazioni su questo tipo di relazione sia a livello intralinguistico che a livello interlinguistico vedendo anche esempi pratici. Cercheremo di mettere in evidenza alcune implicazioni di carattere “teorico” .
Cosa si intende per sinonimia in linguistica? In generale, la sinonimia si configura come una sovrapposizione di senso tra parole. In realtà, la sinonimia appare come un fenomeno parziale strettamente collegato al contesto. Infatti, tra i diversi sensi che un lessema può veicolare ce ne sono quasi sempre alcuni che non sono veicolabili da uno specifico sinonimo. (I. Chiari, 2007)
Metodi per la definizione dei sinonimi Il più usato si base sulla nozione di interscambiabilità dei termini in tutti i contesti. Da un punto di vista linguistico una sinonimia “perfetta”, con interscambiabilità in tutti i possibili contesti, rimane più una condizione ideale che una realtà. (Palmer, 1981; Violi, 1997i) Un metodo alternativo si basa sull’antonimia: se due termini hanno lo stesso antonimo questi possono considerarsi sinonimi. Anche in questo caso, però, sono i singoli contesti che determinano semanticamente la sinonimia. Es. : Morte e Decesso hanno uno stesso (possibile) antonimo: Vita. Ma sono sinonimi solo in alcuni contesti La morte è avvenuta intorno alle 22. Il decesso è avvenuto intorno alle 22. (equivalenti) X ha paura della morte. X ha paura del decesso. (non equivalenti)
La relazione di equivalenza nei thesauri (1) La relazione di equivalenza collega due o più termini considerati sinonimi ai fini dell’indicizzazione. Ha lo scopo di ridurre le dimensioni del vocabolario e di consentire, allo stesso tempo, l’accesso attraverso una terminologia più ricca possibile. Include tre tipologie: Sinonimia, Varianti lessicali e Quasi-sinonimia (ISO,1986) che non vengono però differenziate nei thesauri tradizionali. Sinonimia Le varianti lessicali derivano da modificazioni sul piano morfologico e grammaticale I quasi-sinonimi sono termini con significati diversi, trattati come sinonimi ai soli fini dell’indicizzazione (in genere questa relazione viene utilizzata soltanto nelle aree periferiche del thesaurus).
Proposte di tassonomia della relazione di equivalenza: ALA (1) Lexical variants Orthographic variants Acronyms and abbreviations Omitted components Spacing and punctuation variants Spelling variants Stem equivalents Derivational suffix variants Plural/singular pairs Irregular plural/singular pairs Regular plural/singular pairs Syntactic variants Inversion variants Phrase variants Synonyms Absolute synonyms Cognitive synonyms Contextual synonyms Plesionyms Same referent synonyms Same sense synonyms True synonyms Different lexical term variants Current terms replacing out dated or deprecated terms Synonyms of different linguistic origin Variant names for emergent concepts Dialectical variants Generic / trade name pairs Popular / scientific term pairs Slang / jargon Quasi-synonyms Antonyms BT / NT issue relationships Near synonyms
Proposte di tassonomia della relazione di equivalenza: ALA (2) La categoria dei sinonimi sembra far riferimento principalmente alla motivazione o al grado di interscambiabilità dei termini. La sinonimia contestuale sta ad indicare il range di contesti in cui l’interscambiabilità è possibile; La sinonimia cognitiva si riferisce, invece, a parole che differiscono nei significati emotivi o valutativi, mentre il resto del significato (fondamentale) cognitivo rimane immutato; La categoria, invece, dei diversi elementi lessicali propone una classificazione basata sul contenuto semantico delle relazioni. Corrisponde, parzialmente alle esemplificazioni di sinonimia che vengono presentate negli standard.
La relazione di equivalenza nei thesauri (2) I termini connessi come equivalenti non hanno lo stesso status: viene selezionato il termine ‘preferito’ (descrittore), mentre l’altro o gli altri termini vengono considerati ‘non preferiti’. I non descrittori vengono, comunque, conservati come termini di entrata che rinviano al termine preferito. Il rinvio è reciproco. (USE-UF) Di solito tra due termini si sceglie come descrittore (preferito) quello di uso comune. Spesso, però, si riscontrano molteplici ‘usi comuni’. (Svenonius, 2000).
Dalla scelta del termine preferito al set di equivalenti Set di termini equivalenti (non si sceglie un termine come preferito ma esiste la possibilità di un set di termini equivalenti nell’uso comune. (Milstead: 2001; Svenonius: 2000) I termini equivalenti verranno organizzati in gruppi/cluster. Le varianti lessicali ritenute utili potranno essere fornite per ogni singolo elemento che comporrà questo cluster di termini equivalenti. Quindi, in un gruppo di termini considerati equivalenti nel loro uso comune, non ci sarà nessun termine specifico eletto a termine preferito. Ognuno di questi termini potrà essere utilizzato per indicizzare o effettuare ricerche, permettendo quindi il recupero di documenti indicizzati con uno qualsiasi degli altri termini raggruppati all’interno dello stesso cluster. Questo è il modello che viene per esempio utilizzato in WordNet la rete semantico-lessicale creata a Princeton. (Miller, Fellbaum, 1990)
Lo scenario dei thesauri multilingue Thesauri multilingue – strumenti di indicizzazione e recupero di informazioni in sistemi di informazione multilingue. Con il progredire dello sviluppo tecnologico-scientifico cresce la necessità di garantire la trasmissione e lo scambio di saperi e, quindi, l’accesso ad un’enorme quantità di informazioni per un’utenza ormai mondiale. Sussiste però ancora una barriera linguistica fra le diverse comunità. Infatti, Nuovi approcci nella costruzione dei thesauri hanno messo in luce il bisogno di garantire uno status paritario ad ogni lingua (e cultura) presa in esame, così da riflettere al meglio le diverse strutture concettuali e terminologiche con le quali i potenziali utenti sono maggiormente in confidenza. Per questa ragione, La nozione di traduzione impiegata e l’approccio utilizzato nello sviluppo della struttura semantica di ogni versione linguistica assumono un’importanza fondamentale.
Metodi di realizzazione di thesauri multilingue Metodo classico: strutture simmetriche nelle diverse versioni linguistiche → monolingue con equivalenti aggiunti La gran parte dei thesauri definiti come multilingue, però, sono stati sviluppati tenendo molto poco in considerazione la necessità di garantire uno status paritario alle diverse lingue e culture rappresentate. Spesso si tratta di “traduzioni” in una o più lingue di un thesaurus monolingue preesistente (generalmente in lingua inglese), che fornisce delle strutture simmetriche e identiche per tutte le versioni linguistiche, in cui il punto di vista della lingua di partenza è dominante, non rappresentando correttamente o affatto il punto di vista delle altre lingue.
Metodi di realizzazione di thesauri multilingue (2) Metodo alternativo: strutture asimmetriche nelle diverse versioni linguistiche (Hudon, 1997 e 2001; IFLA) Per riflettere più correttamente e per valorizzare la prospettiva di ogni lingua e cultura (e quindi le loro diverse concettualizzazioni del mondo) alcuni autori come Hudon sostengono che i thesauri multilingue dovrebbero essere sviluppati su strutture asimmetriche. Nelle diverse versioni linguistiche non soltanto può variare il numero dei termini, ma anche il modo in cui essi vengono strutturati nella rete della relazioni semantiche. Ogni lingua si fonderebbe, quindi, su una struttura relazionale indipendente prevedendo dei ponti fra una struttura e l’altra. Una soluzione simile garantirebbe una rappresentazione più fedele delle diverse culture e lingue incluse nel thesaurus multilingue (Hudon, 2001).
EuroWordNet Un’esperienza simile è già stata fatta nell’ambito del progetto EuroWordNet. (Hudon, 2001). EuroWordNet ha definito una Top-Ontology, come framework semantico comune, per garantire però la definizione delle relazioni in ciascun wordnet (rete semantica) separatamente. (P.Vossen, 2007)
Traduzione e equivalenza interlinguistica In senso più generale queste tematiche ci portano a riflettere anche sulla nozione di traduzione. Il processo di traduzione viene, infatti, generalmente definito come quella procedura tramite la quale un’espressione verbale in una lingua (lingua di partenza) viene sostituita con altre espressioni tratte da un’altra lingua (lingua d’arrivo). Ma la traduzione non necessariamente connette diverse lessicalizzazioni di entità condivise (concetti). Talvolta la variazione accade proprio in ambito concettuale. Spostarsi da un’impostazione linguistica ad un’altra, infatti, potrebbe comportare divergenze proprio sul piano concettuale, perché le diverse culture usano diverse ‘lenti’ per vedere il mondo. Inoltre, le relazioni fra concetti e le loro rappresentazioni verbali nelle diverse lingue possono variare.
Un esempio di Hjesmlev (tratto da Essais linguistiques, 1971) Termini come ‘cane’, ‘elefante’ saranno definiti in modo diverso in diverse società e culture. Il termine elefante, per esempio, in una società in/di cui è indigeno, allevato, utilizzato e amato verrà definito diversamente rispetto ad un’altra (occidentale) in cui è un “fenomeno estraneo” e diviene soprattutto oggetto di curiosità negli zoo, nei circhi, ecc. oltre ad essere studiato scientificamente. Il termine cane, invece, riceverà una diversa definizione semantica anche laddove è indigeno 1) per gli eschimesi, è un animale da tiro 2) per i parsi, è un animale sacro 3) in qualche società indù, è disprezzato come paria 4) nelle nostre società occidentali, è soprattutto un animale domestico e da compagnia addestrato alla caccia e alla guardia. “In tutti questi casi la definizione zoologica sarebbe, da un punto di vista linguistico, del tutto insufficiente. Bisogna comprendere che non si tratta in questo caso di una differenza di grado, ma di una differenza essenziale e profonda”
Conclusioni La nozione di equivalenza dovrebbe essere usata con cautela sia a livello intralinguistico sia, soprattutto, a livello interlinguistico. Dietro una definizione di equivalenza possono celarsi, infatti, elementi di diversità da prendere in considerazione (soprattutto sul piano teorico) anche se poi le scelte da fare in ambito operativo richiederanno delle semplificazioni. Abbiamo visto, per esempio, che il modo in cui interpretiamo l’equivalenza interlinguistica condiziona la strutturazione concettuale e semantica del thesaurus nelle varie lingue. Alla luce del crescente fenomeno di globalizzazione, tali aspetti assumono un rilievo ancora maggiore.
Relational Semantics in Thesauri: Ringraziamenti Per alcuni argomenti qui trattati si è fatto riferimento al seguente articolo Relational Semantics in Thesauri: An Overview and Some Remarks at Theoretical and Practical Levels (Mazzocchi, F. et al., 2007) in preparazione.