« La documentation » : différence entre les versions

Contenu supprimé Contenu ajouté
Ligne 249 :
Si deux indexations d'un même document ont fourni deux ensembles A et B de descripteurs, le taux de cohérence s'écrit :
 
::<math>C_{AB}= \frac{\text{nombre de descripteurs communs}}{\text{nombre total de descripteurs}}</math>
 
Le taux de cohérence peut être externe, A et B provenant de deux analystes différents, ou interne, les deux InrlA)(~tinnsindexations étant l'œuvre du même analyste à des dates différentes. Une baisse du taux de cohérence est le signe d'une indexation de mauvaise qualité et qu'il convient de corriger.
 
=== Efficacité de la recherche ===
 
Une recherche documentaire idéale dans l'ensemble '''N''' comportant tous les documents d'une certaine collection conduirait à en extraire le sous-ensemble des documents pertinents et lui seul. En pratique une telle recherche aboutit en fait à extraire un autre sous-ensemble généralement distinct du précédent.
 
Le taux de cohérence peut être externe, A et B provenant de deux analystes différents, ou interne, les deux InrlA)(~tinns étant l'œuvre du même analyste à des dates
 
[[File:Pertinents-extraits.svg|300px|center]]
 
 
On peut ainsi répartir les N documents de la collection en quatre catégories :
* '''P''' : nombre de documents pertinents extraits, le résultat
* '''S''' : nombre de documents pertinents non extraits, ou '''silence''',
* '''B''' : nombre de documents non pertinents extraits, ou '''bruit''',
* '''R''' : nombre de documents non pertinents non extraits, ce qui reste.
 
 
: naturellement <math>N = P + S + B + R \,</math>
 
On définit à partir de ces nombres divers critères :
 
* le '''taux de rappel''' :
:<math>r = \frac{P}{P+S} = \frac{\text{nombre de documents pertinents extraits}}{\text{nombre total de documents pertinents}}</math>
 
* le '''taux de pertinence''' :
:<math>p = \frac{P}{P+B} = \frac{\text{nombre de documents pertinents extraits}}{\text{nombre total de documents extraits}}</math>
 
* le '''taux de bruit''' :
:<math>b = \frac{B}{P+B} = \frac{\text{nombre de documents non pertinents extraits}}{\text{nombre total de documents extraits}}</math>
 
* le '''taux de chute''' :
:<math>c = \frac{B}{B+R} = \frac{\text{nombre de documents non pertinents extraits}}{\text{nombre total de documents non pertinents}}</math>
 
* le '''facteur de généralité''' :
:<math>g = \frac{P+S}{P+S+B+R} = \frac{P+S}{N} = \frac{\text{nombre total de documents pertinents}}{\text{nombre total de documents }}</math>