« La documentation/Langages documentaires à structure combinatoire, thésaurus » : différence entre les versions

 
== Construction d'un thésaurus ==
 
Il s'agit là d'un travail très complexe et qui ne peut en aucun cas être mené à bien par un seul individu. Trois méthodes principales peuvent être utilisées pour collecter le vocabulaire :
 
* la '''méthode déductive''' consiste à extraire les divers concepts caractéristiques du domaine concerné en partant des documents du corpus et des questions des utilisateurs.
 
* la '''méthode inductive''' conduit à collecter les mots à partir de sources de référence (dictionnaires, nomenclatures, thésaurus voisins, etc.)
 
* la '''méthode mixte''' associe les deux méthodes précédentes, ce qui permet de couvrir plus facilement l'ensemble du domaine concerné, en évitant les lacunes provoquées par la méthode déductive, mais avec l'inconvénient d'introduire par la méthode inductive des termes qui ne correspondent à aucun document du corpus.
 
Les différents termes retenus sont ensuite ventilés à l'intérieur des différents champs sémantiques, puis hiérarchisés. Cette phase nécessite la collaboration étroite de spécialistes du domaine ou du champ sémantique concerné ; ces personnes doivent vérifier que tel ou tel terme est bien à sa place dans le champ sémantique auquel il a été rattaché et valider la définition de chaque mot.
 
Ä l'issue de cette première phase, on n'obtient en fait qu'une ébauche de thésaurus dont les imperfections se révèlent au cours du temps. L'édifice complet doit parvenir progressivement à un équilibre que l'usage ne remet plus en cause, tout en permettant bien entendu les mises à jour nécessaires pour que l'on puisse intégrer les notions nouvelles, le résultat des découvertes récentes, etc. Cette mise à jour n'est jamais une opération immédiate, elle nécessite toujours un certain recul et tout comme les classifications, les thésaurus ne peuvent pas refléter en temps réel l'état des connaissances.
 
La mise à jour se fait par introduction de nouveaux termes (les '''candidats descripteurs'''), par radiation de termes obsolètes ou par la retouche des descripteurs existants. Il faut tenir compte de l'utilisation qui montre que certains termes sont peu ou pas utilisés, tandis que d'autres sont au contraire trop utilisés parce que trop généraux ; ces derniers doivent être redéfinis, décomposés plus finement, etc.
 
Il ne faut jamais perdre de vue qu'un thésaurus n'est pas une construction théorique monumentale et définitive, mais un simple outil de travail qui doit être optimisé en fonction de l'importance des collections à indexer et adapté à ses utilisateurs. Le but ultime est bien entendu de faciliter l'accès aux documents.
 
== Présentation des thésaurus ==
 
Elle est très différente des autres ouvrages usuels qui peuvent être consultés par les utilisateurs de différents niveaux. Un thésaurus se distingue donc :
:- des '''dictionnaires''' : collections de mots classés dans l'ordre alphabétique et suivis de leur définition,
:- des '''lexiques''' : dictionnaires spécialisés regroupant les termes utilisés dans un domaine particulier de la connaissance,
:- des '''glossaires''' : dictionnaires des mots anciens ou peu connus d'une langue et qui doivent être expliqués,
:- des '''index''' : tables alphabétiques accompagnées de références, tables des matières des livres ou encyclopédies, etc.
 
Un thésaurus comprend au moins trois entrées principales :
 
* la '''liste alphabétique des descripteurs''', y compris les synonymes et les diverses notes d'application,
 
* la '''présentation des champs sémantiques''' avec l'arborescence des descripteurs correspondants ; la hiérarchie des divers descripteurs est représentée à l'aide de tabulations ou sous forme graphique,
 
* l''''index alphabétique permuté des termes''' dont le but est de regrouper les termes des descripteurs composés, car ceux-ci se trouvent dispersés dans la liste alphabétique.
 
Une introduction présente le but du thésaurus, définit le ou les domaines couverts et précise les conventions adoptées et le mode d'utilisation. Des '''listes annexes''' facilitent les recherches, elles permettent d'inclure par exemple des listes alphabétiques de personnalités, d'entreprises, etc. Une '''liste des mots-outils''' est généralement considérée comme indispensable : ces mots trop généraux pour être utilisés seuls aussi bien pour l'indexation que pour l'interrogation peuvent en revanche être associés à tous les autres termes utilisés dans le thésaurus ; il est bon qu'ils ne soient pas trop nombreux car ils ont tendance à engendrer du bruit.
 
== Thésaurus et macro thésaurus ==