LE NEWSMAGAZINE Nº1 DES NOUVELLES TECHNOLOGIES

Les dessous de la recherche sur Internet

Tapez un mot dans Google, des réponses par milliers apparaissent instantanément. Et il ne s'agit pas de magie !
envoyer
par mail
imprimer
l'article
partager sur Viadeo
partager sur Facebook
partager sur LinkedIn
partager sur Scoopeo
partager sur Technorati
partager sur Digg
partager sur Delicious
partager sur Google
partager sur Myspace
partager sur Yahoo!

Avec quelque 30 milliards de pages Web recensées en 2007, Internet est la plus grande bibliothèque au monde. En perpétuel mouvement puisque de nouveaux sites s'ouvrent et se ferment sans cesse. Dans ces conditions, une solution s'impose pour s'y retrouver : utiliser les services d'un moteur de recherche. Comme un bibliothécaire qui connaîtrait par cœur tous les ouvrages qu'il référence, le moteur pointe immédiatement les sites susceptibles de répondre à votre requête.

Des pages digérées à la pelle

Il n'y a pas de magie. Pour être capable de vous guider sur la Toile, il doit avoir déjà lui-même parcouru l'ensemble du Web. Mais il le fait avec méthode, en séparant les tâches.

Première étape, la récupération des données. C'est le rôle dévolu aux robots d'indexation (appelés “ bots ”, “ crawleras ” ou “ spiders ”). Ces programmes complètement autonomes surfent sans relâche en suivant tous les liens qu'ils rencontrent. Ils passent de site en site et aspirent le contenu des pages. En fait, les robots naviguent sur le Web comme vous le feriez vous-même avec, toutefois, une différence de taille : la rapidité de lecture. Chaque jour, un seul de ces robots peut ainsi récupérer des millions de pages.

Lors de l'étape suivante, les pages aspirées par les robots d'indexation sont stockées sur des serveurs. La clé pour un moteur est donc sa capacité de stockage. Google dispose d'une centaine de “ data-centers ” à travers le monde : des salles entières remplies de PC connectés en réseau et qui se chargent du traitement des données. Au total, le moteur de recherche revendique un millier de PC reliés au Web ! Résultat : Google peut s'enorgueillir de référencer 8 milliards de pages, contre 5 milliards pour ses concurrents Live Search de Microsoft et Yahoo!.

Ensuite, une fois aspirées et stockées, les pages sont digérées par un moteur d'indexation. Pour chaque page, celui-ci va retenir chacun des mots présents dans la page. Les “ mots vides ” que sont les conjonctions de coordination et les articles vont être écartés. Il va aussi s'intéresser à la position des mots dans la page, à leur répétition, à l'adresse Web de la page, au nombre de liens pointant vers la page, aux noms des images, etc. Tous ces éléments sont alors intégrés dans une gigantesque base de données, “ l'index ”, en perpétuel mouvement.

De nouveaux sites sont en effet sans cesse intégrés à l'index – Google ajoute un nouveau site à sa base en deux jours ! Concrètement, la base de données est organisée comme l'index terminologique d'un livre. Pour chaque mot, le moteur pointe les pages qui le contiennent. Mais l'index va plus loin : pour chaque page, le moteur attribue un score qui hiérarchise les résultats d'une recherche pour un mot-clé ou un groupe de mots-clés donnés.

Une question d'organisation

En la matière, le géant Google a lancé une vraie révolution avec son concept de “ Page Rank ”. Le principe est simple : tout lien d'une page A pointant vers une page B est considéré comme un vote de la page A en faveur de la page B. Du coup, la page B gagne en popularité et le moteur considérera que son contenu est plus pertinent. Outre la prise en compte des liens, Google procède à une analyse du contenu, sur le titre de la page, le texte, les noms des images… Lorsque vous interrogez un moteur, c'est donc dans sa base de données qu'il trouve les pages contenant les mots recherchés. Et si l'index n'a pas été mis à jour entre-temps, la page Web disparue figurera toujours dans la base de données, mais vous obtiendrez un lien mort. Chaque seconde, le moteur de recherche opère des millions de calculs pour répondre aux requêtes des internautes. Quant aux différences d'index et d'algorithme, elles expliquent les variations de résultats d'un moteur à l'autre.

D'où l'intérêt pour l'internaute d'utiliser plusieurs moteurs pour croiser ses informations et ne rien perdre du Web !

Les secrets de Google

PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

Cette formule, simplifiée, est la force de Google : celle du “ Page Rank ”. Le principe : chaque lien vers un site est considéré comme un vote en faveur du site lié. Mais l'algorithme ne s'arrête pas là. Sa formule complète, gardée secrète, intègre plus de 200 informations sur la page Web concernée. Cela va de la densité du mot-clé dans la page au titre des images en passant par la présence du mot-clé dans l'adresse même du site, l'ancienneté de la page et de ses fichiers, l'historique du contenu et la façon dont celui-ci a évolué ou encore la fréquence de mise à jour ou le nombre de nouvelles pages présentes dans le site depuis le dernier passage des robots…

Le comportement des internautes sur Google est également analysé : pour ceux qui effectuent leur recherche via Gmail, le moteur va créer un historique des recherches et s'adapter au fil du temps aux centres d'intérêt de l'internaute. Pour un internaute cultivateur discutant souvent de fruits dans Gmail, une recherche sur “ Grenade ” fera apparaître en premier des résultats concernant le fruit. Pour d'autres, ce sera la ville espagnole ! Enfin, les 10 000 employés de Google ont leur mot à dire. Si un résultat ne leur semble pas performant, ils disposent d'un outil qui leur permet de faire remonter l'information à l'équipe chargée de l'algorithme. Résultat : l'algorithme est en perpétuelle évolution pour affiner toujours plus la qualité des réponses. Google affirme ainsi qu'une petite dizaine de modifications, mineures ou majeures, est effectuée chaque semaine.

publicité
à lire aussi
SUR LES MÊMES THÈMES
Solr 1.4 accepte plus que le XML
Le boîtier Google introduit l’analyse comportementale dans l’entreprise
Les Google Docs n'échapperont plus aux moteurs de recherche
Bing teste la recherche visuelle avec Visual Search
Le champ de saisie de Google gagne des millimètres
Google invite les internautes à tester son futur moteur
Avec DoYouBuzz, les candidats à l’emploi se référencent dans les moteurs de recherche
Google Squared : le moteur de recherche du futur ?
Microsoft ouvre une version française allégée de Bing
Microsoft mettra du Bing dans la version française de son Messenger
1 000 euros (ht) par mois pour un référencement Web naturel
Microsoft doit dévoiler son nouveau moteur de recherche jeudi 28 mai
WolframAlpha : le moteur de recherche qui a réponse à tout
Fast commence à intégrer Sharepoint
Un moteur à revoir
Il cherche et il affiche
Google Insights donne les dernières tendances de l'Internet
Microsoft s'offre un “ Google killer ”
La fausse bonne idée des requêtes en langage naturel
Microsoft paie les utilisateurs de Live Search
01Informatique
01 INFORMATIQUE
L'hebdo de référence des décideurs informatiques.
Micro Hebdo
MICRO HEBDO
L'hebdo qui vous simplifie la micro
et Internet.
L'Ordinateur Individuel
L'ORDINATEUR INDIVIDUEL
Le mensuel informatique qui vous informe et vous conseille.
Tous droits réservés © 1999 - 2009 Internext - 01net.