Recherche d'information sur l'internet/Moteurs de recherche sur l'internet

Principe des moteurs de recherche

Les moteurs de recherche d'information sur l'internet sont des sites qui lancent des requêtes sur une base de données constituée de façon automatique d'après le contenu des pages recensées par les "spiders", outils qui parcourent régulièrement le web en se basant sur les liens hypertextes.

On peut avoir une idée de ce que "voit" un spider sur le site http://www.spider-simulator. Les données contenues dans les pages rencontrées sont indexées et pondérées automatiquement, selon différents critères qui varient selon les outils :

structuration du code "source" de la page (les termes reçoivent une pondération plus ou moins importantes selon les "zones" de la page où ils sont placés.
"notoriété" de la page (déterminée par le nombre de liens hypertexte pointant vers celle-ci)
fréquentation de la page.

Lorsque l'on interroge un moteur de recherche, c'est dans cette base préétablie qu'il va puiser pour proposer une liste de réponses, triées en fonction de leur adéquation supposée (c'est-à-dire calculée) avec la question. Chaque moteur a sa propre méthode de tri - jalousement gardée...

Limites

Les performances des moteurs s'accroissent régulièrement (cf http://www.searchenginewatch.com/reports/). Mais le nombre de pages web est en progression constante et aucun moteur ne peut toutes les indexer :

Les robots ne peuvent pas parcourir toutes les pages existantes : il faut qu'au moins un lien les conduisent sur une page donnée (cf la théorie du nœud papillon).
Délai de mise à jour (entre 2 visites d'un robot à une page web) : de 1 jour à quelques semaines. Ainsi des bases très importantes peuvent contenir des informations périmées(demandez par exemple à un moteur de recherche le "compte rendu du dernier conseil des ministres" : il est peu probable qu'il vous propose celui de mercredi dernier).
Il existe un "Web invisible" qui ne peut pas, du fait de sa structure, être consulté par les moteurs de recherche "classiques")

Quant aux résultats proposés par les moteurs, ils sont souvent très pertinents et génèrent relativement peu de "bruit" (réponses sans rapport avec la question), mais :

il y a beaucoup de "silence", pour les raisons évoquées ci-dessus et parce que la structuration des pages HTML ne permet pas une indexation très poussée des documents;
et seul l'esprit humain est capable de juger de la qualité de l'information trouvée.

Calcul de pertinence

Les moteurs se distinguent entre eux non seulement par les résultats trouvés, mais aussi par la façon dont ils évaluent la pertinence de ceux-ci. Les méthodes de tri des résultats combinent à des degrés divers selon les moteurs, les éléments suivants:

place du mot dans le document : plus important s'il est dans le titre ou le début du texte.

densité : fréquence du mot dans la page (un mot qui figure 2 fois sur une page de 200 mots est plus "dense" qu'un mot qui figure 3 fois sur une page de 500 mots).

rareté : un mot rare dans la base de données du moteur sera mieux "considéré".

expression et proximité : plus les termes de la requête sont proches dans un document, mieux cette page sera classée ; les pages contenant l'expression exacte arrivent en tête.

notoriété : plus une page est citée (i.e. référencée par un lien hypertexte) par d'autres, plus elle est importante ; cette importance est accrue si les pages qui pointent vers elle sont elles-mêmes très citées.

popularité : le moteur augmente la pondération des pages qui ont été jugées pertinentes par l'internaute pour une question donnée (quels liens de la liste ont été visités et pendant combien de temps avant que l'internaute ne reviennent à la liste des résultats).

Le classement des moteurs de recherche dépend aussi largement de la façon dont on formule sa question (notamment l'ordre des mots)

Syntaxe de recherche

Chaque moteur de recherche a sa propre "base de données" mais aussi ses propres règles de recherche, concernant notamment:

la prise en compte des majuscules et des lettres accentuées
le traitement des mots vides
les opérateurs utilisables

Pensez à consulter l'aide (guide, help, tips,...) de chaque moteur.

Pensez à utiliser plus d'un terme dans votre requête, sinon il y aurait trop de "bruit".

La plupart des moteurs offrent une recherche simple et une recherche avancée.

Recherche simple

La recherche simple permet généralement de saisir :

une succession de termes séparés par des espaces. Les pages trouvées seront celles contenant tous ces mots(les pages seront les premières dans le tri par pertinence)ou seulement certains d'entre eux (les pages ne contenant pas tous les termes seront moins bien classées - Google ne les présentera pas). Les mots vides ne seront en principe pas pris en compte.

une expression exacte en plaçant les termes entre guillemets : "chaîne de caractères"
de forcer ou d'exclure la recherche sur certains termes : généralement le + placé devant un terme permet de forcer la recherche sur ce terme (utile pour les mots considérés a priori comme "vides" par le moteur): paris +10 +du

Le - placé devant un terme permet d'exclure ce terme de la recherche : leonardo -caprio

Recherche avancée

La recherche avancée accepte généralement :

   ...mais pas toujours : cf les tableaux comparatifs des fonctionnalités des principaux moteurs :     
   * http://www.abondance.com/outils/comparatif.html
   * http://www.infopeople.org/search/chart.html [en]
   * http://www.dsi-info.ca/moteurs-de-recherche.html (tableau à la fin de chacune des pages
    décrivant une fonctionnalité)

Les opérateurs booléens

pour restreindre votre recherche:

ET (AND, +, "tout les mots", ...),
SAUF (NOT, -, AND NOT, "termes exclus", ...)

pour élargir votre recherche (aux synonymes, par ex.) :

OU (OR, "n'importe quel mot", "any word")

>>> sur le principe des opérateurs booléens : http://www.bibl.ulaval.ca/vitrine/giri/mod3/booleen.htm site web

La troncature

petrol* trouvera pétrolière, petrol, pétrolifères (mais aussi pétrolette et pétroleuses...)
certains moteurs (Google, par ex.) ne la "comprennent" pas.

L'opérateur de proximité

NEAR suivi éventuellement d'un chiffre pour préciser la distance maximale entre deux termes.

La recherche sur une partie précise du document

ex sur http://www.voila.fr :

keywords:internet : le terme "internet" doit être trouvé dans les mots-clés (<META name="keywords">) de la page.

title:actualites : le terme "actualites" devra figurer dans le titre (<TITLE>) de la page

url:voila le terme "voila" devra figurer sur l'adresse internet de la page Des restrictions dans le temps et l'espace

Autres possibilités

recherche des pages mises à jour depuis telle date, appartenant à tel domaine (.gouv.fr, par ex), etc.

Liste des commandes avancées des principaux moteurs de recherche [EN] : http://www.virtualchase.com/articles/advanced_search_commands.html

Métamoteurs

Les métamoteurs sont des outils qui peuvent lancer la même requête simultanément dans plusieurs moteurs de recherche mais dans ce cas, la syntaxe est réduite au plus petit commun dénominateur.

Les métamoteurs sont surtout intéressants par la façon dont ils présentent les résultats, par exemple :

   * prévisualisation des résultats : Carrot
   * métamoteur de recherche "solidaire" Veosearch 
   (En effectuant vos recherches sur VeoSearch, vous générez des revenus
    publicitaires. Ces revenus permettent de financer et faire connaître 
    des projets associatifs liés au développement durable)

(une sélection plus complète sur Educnet voir aussi Life Beyond Google: Some of the Best of the Rest sur Fumsi.com)

D'autres outils, basés sur un métamoteur, ont également des fonctions de veille documentaire et d'alerte (Copernic -téléchargeable).

Moteurs spécialisés

voir : outils de recherche spécialisés