« La documentation » : différence entre les versions

Contenu supprimé Contenu ajouté
Aucun résumé des modifications
Aucun résumé des modifications
Ligne 17 :
:* [[/Notions de documentation et de document|Notions de documentation et de document]]
:* [[/Chaîne documentaire et fonctions des documentalistes|Chaîne documentaire et fonctions des documentalistes]]
==:* [[/Performances d'un système documentaire|Performances ==d'un système documentaire]]
|-
|}
Ligne 25 ⟶ 26 :
 
 
== Performances d'un système documentaire ==
 
Comme nous l'avons signalé, ces performances dépendent étroitement de la qualité de l'analyse et de l'indexation. Il est intéressant de les chiffrer, ne serait-ce que pour en tirer les renseignements nécessaires à l'amélioration du service.
 
=== Notion de cohérence ===
 
Si deux indexations d'un même document ont fourni deux ensembles A et B de descripteurs, le taux de cohérence s'écrit :
 
::<math>C_{AB}= \frac{\text{nombre de descripteurs communs}}{\text{nombre total de descripteurs}}</math>
 
Le taux de cohérence peut être externe, A et B provenant de deux analystes différents, ou interne, les deux indexations étant l'œuvre du même analyste à des dates différentes. Une baisse du taux de cohérence est le signe d'une indexation de mauvaise qualité et qu'il convient de corriger.
 
=== Efficacité de la recherche ===
 
Une recherche documentaire idéale dans l'ensemble '''N''' comportant tous les documents d'une certaine collection conduirait à en extraire le sous-ensemble des documents pertinents et lui seul. En pratique une telle recherche aboutit en fait à extraire un autre sous-ensemble généralement distinct du précédent.
 
 
[[File:Pertinents-extraits.svg|300px|center]]
 
 
On peut ainsi répartir les N documents de la collection en quatre catégories :
* '''P''' : nombre de documents pertinents extraits, le résultat
* '''S''' : nombre de documents pertinents non extraits, ou '''silence''',
* '''B''' : nombre de documents non pertinents extraits, ou '''bruit''',
* '''R''' : nombre de documents non pertinents non extraits, ce qui reste.
 
 
: naturellement <math>N = P + S + B + R \,</math>
 
On définit à partir de ces nombres divers critères :
 
* le '''taux de rappel''' :
:<math>r = \frac{P}{P+S} = \frac{\text{nombre de documents pertinents extraits}}{\text{nombre total de documents pertinents}}</math>
 
* le '''taux de pertinence''' :
:<math>p = \frac{P}{P+B} = \frac{\text{nombre de documents pertinents extraits}}{\text{nombre total de documents extraits}}</math>
 
* le '''taux de bruit''' :
:<math>b = \frac{B}{P+B} = \frac{\text{nombre de documents non pertinents extraits}}{\text{nombre total de documents extraits}}</math>
 
* le '''taux de chute''' :
:<math>c = \frac{B}{B+R} = \frac{\text{nombre de documents non pertinents extraits}}{\text{nombre total de documents non pertinents}}</math>
 
* le '''facteur de généralité''' :
:<math>g = \frac{P+S}{P+S+B+R} = \frac{P+S}{N} = \frac{\text{nombre total de documents pertinents}}{\text{nombre total de documents }}</math>
 
=== Amélioration des performances ===
 
Diverses techniques permettent d'affiner les résultats des recherches effectuées en combinant divers descripteurs.
 
* l''''autopostage''' consiste à adopter simultanément des descripteurs situés à divers niveaux de généralité et/ou de spécificité. Par exemple, le terme « trempe » peut être trop général pour la recherche en cours, on adoptera alors les descripteurs qui permettront de le préciser, comme « traitement thermique » ou « trempe superficielle ».
 
* la '''pondération''' : on affectera chaque descripteur d'un « poids » différent, 1, 2 ou 3 par exemple.
 
* le '''lien''' permet d'éviter les fausses combinaisons. par exemple, une recherche simultanée sur un ensemble de descripteurs tel que (bateau, transport, bois, FRANCE) peut permettre de retrouver des documents sont les titres pourraient être :
: (1) Transport du bois français par bateau,
: (2) Transport des bateaux français en bois,
: (3) Bateaux en bois français pour le transport,
: (4) Transport du bois vers la France en bateau,
: (5) etc.
 
La combinaison (1) sera notée [transport (A) - bateau (A) - bois (B) - FRANCE (B)].
 
=== Antidictionnaire ===
 
« Du », « par », « des », « en », « pour », « faire », « je », ... sont des '''mots vides''' utiles pour construire des phrases mais dénués de toute référence à un véritable contenu informatif. On les consigne dans un '''antidictionnaire'''. Les mots vides sont grosso modo ceux que l'on supprimait en écrivant un télégramme, d'où l'expression « style télégraphique » ; ils ne doivent en aucun cas être utilisés comme descripteurs, d'où la nécessité d'en dresser la liste.
 
== Bibliographie ==