Avec quelque 30 milliards de pages Web recensées en 2007, Internet est la plus grande bibliothèque au monde. En perpétuel mouvement puisque de nouveaux sites s'ouvrent et se ferment sans cesse. Dans ces conditions, une solution s'impose pour s'y retrouver : utiliser les services d'un moteur de recherche. Comme un bibliothécaire qui connaîtrait par cœur tous les ouvrages qu'il référence, le moteur pointe immédiatement les sites susceptibles de répondre à votre requête.
Il n'y a pas de magie. Pour être capable de vous guider sur la Toile, il doit avoir déjà lui-même parcouru l'ensemble du Web. Mais il le fait avec méthode, en séparant les tâches.
Première étape, la récupération des données. C'est le rôle dévolu aux robots d'indexation (appelés “ bots ”, “ crawleras ” ou “ spiders ”). Ces programmes complètement autonomes surfent sans relâche en suivant tous les liens qu'ils rencontrent. Ils passent de site en site et aspirent le contenu des pages. En fait, les robots naviguent sur le Web comme vous le feriez vous-même avec, toutefois, une différence de taille : la rapidité de lecture. Chaque jour, un seul de ces robots peut ainsi récupérer des millions de pages.
Lors de l'étape suivante, les pages aspirées par les robots d'indexation sont stockées sur des serveurs. La clé pour un moteur est donc sa capacité de stockage. Google dispose d'une centaine de “ data-centers ” à travers le monde : des salles entières remplies de PC connectés en réseau et qui se chargent du traitement des données. Au total, le moteur de recherche revendique un millier de PC reliés au Web ! Résultat : Google peut s'enorgueillir de référencer 8 milliards de pages, contre 5 milliards pour ses concurrents Live Search de Microsoft et Yahoo!.
Ensuite, une fois aspirées et stockées, les pages sont digérées par un moteur d'indexation. Pour chaque page, celui-ci va retenir chacun des mots présents dans la page. Les “ mots vides ” que sont les conjonctions de coordination et les articles vont être écartés. Il va aussi s'intéresser à la position des mots dans la page, à leur répétition, à l'adresse Web de la page, au nombre de liens pointant vers la page, aux noms des images, etc. Tous ces éléments sont alors intégrés dans une gigantesque base de données, “ l'index ”, en perpétuel mouvement.
De nouveaux sites sont en effet sans cesse intégrés à l'index – Google ajoute un nouveau site à sa base en deux jours ! Concrètement, la base de données est organisée comme l'index terminologique d'un livre. Pour chaque mot, le moteur pointe les pages qui le contiennent. Mais l'index va plus loin : pour chaque page, le moteur attribue un score qui hiérarchise les résultats d'une recherche pour un mot-clé ou un groupe de mots-clés donnés.
En la matière, le géant Google a lancé une vraie révolution avec son concept de “ Page Rank ”. Le principe est simple : tout lien d'une page A pointant vers une page B est considéré comme un vote de la page A en faveur de la page B. Du coup, la page B gagne en popularité et le moteur considérera que son contenu est plus pertinent. Outre la prise en compte des liens, Google procède à une analyse du contenu, sur le titre de la page, le texte, les noms des images… Lorsque vous interrogez un moteur, c'est donc dans sa base de données qu'il trouve les pages contenant les mots recherchés. Et si l'index n'a pas été mis à jour entre-temps, la page Web disparue figurera toujours dans la base de données, mais vous obtiendrez un lien mort. Chaque seconde, le moteur de recherche opère des millions de calculs pour répondre aux requêtes des internautes. Quant aux différences d'index et d'algorithme, elles expliquent les variations de résultats d'un moteur à l'autre.
D'où l'intérêt pour l'internaute d'utiliser plusieurs moteurs pour croiser ses informations et ne rien perdre du Web !
PR(A) = (1-d) + d (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))
Cette formule, simplifiée, est la force de Google : celle du “ Page Rank ”. Le principe : chaque lien vers un site est considéré comme un vote en faveur du site lié. Mais l'algorithme ne s'arrête pas là. Sa formule complète, gardée secrète, intègre plus de 200 informations sur la page Web concernée. Cela va de la densité du mot-clé dans la page au titre des images en passant par la présence du mot-clé dans l'adresse même du site, l'ancienneté de la page et de ses fichiers, l'historique du contenu et la façon dont celui-ci a évolué ou encore la fréquence de mise à jour ou le nombre de nouvelles pages présentes dans le site depuis le dernier passage des robots…
Le comportement des internautes sur Google est également analysé : pour ceux qui effectuent leur recherche via Gmail, le moteur va créer un historique des recherches et s'adapter au fil du temps aux centres d'intérêt de l'internaute. Pour un internaute cultivateur discutant souvent de fruits dans Gmail, une recherche sur “ Grenade ” fera apparaître en premier des résultats concernant le fruit. Pour d'autres, ce sera la ville espagnole ! Enfin, les 10 000 employés de Google ont leur mot à dire. Si un résultat ne leur semble pas performant, ils disposent d'un outil qui leur permet de faire remonter l'information à l'équipe chargée de l'algorithme. Résultat : l'algorithme est en perpétuelle évolution pour affiner toujours plus la qualité des réponses. Google affirme ainsi qu'une petite dizaine de modifications, mineures ou majeures, est effectuée chaque semaine.
