Comprendre le crawl par les moteurs de recherche


Cette fin d'année 2021 est marquée par un mini-drame dans le monde du référencement : comme l'explique ce blog Webmarketing, Google reconnaît ne plus vouloir indexer l'intégralité des contenus. Si l'argument "qualité" fièrement mis en amant par John Mueller ne convainc pas la communauté des SEO, ceux-ci n'ont pas encore trouvé les parades pour garantir l'indexation de leurs contenus. Cette actualité donne l'occasion de revenir sur l'aspect technique du crawl par les moteurs de recherche, et en particulier Google.

Comment fonctionne un moteur de recherche ?

Les concepts à l'origine de la création des moteurs de recherche remontent à l'après-guerre pour la méthodologie de structuration de l’information, et même sous certains aspects aux années 1930 avec les outils de théorie des graphes. C'est donc d'avant internet, notamment dans les années 1960-1970 avec les progrès de la théorie de l’information, etc., que proviennent les principaux éléments conceptuels à l'origine des moteurs de recherche pour le web.

Les algorithmiciens représentent le Web comme un graphe orienté dont les nœux sont les pages web, et les arcs les liens permettant la navigation d’une page à une autre. Une telle représentation permet de calculer l’importance des pages, au moyen d'une formule célèbre dénommée PageRank.

Le crawl : première étape d'un moteur de recherche

La première tâche que remplit un moteur de recherche consiste à crawler le Web, c'est-à-dire à explorer tous les contenus disponibles sur internet. Pour les moteurs de recherche, la facilité de l’accès aux contenus web est primordiale, du fait des coûts induits. Google utilise sa copie du DNS (Domain name system), afin de plus rapidement accéder aux pages lorsqu'il saute de liens hypertextes en liens hypertextes, économisant ainsi le temps de réponse du DNS.

Le crawl a pour objectif de rassembler l'ensemble des données utiles contenues dans les pages web, en distinguant le contenu à proprement parler de la structure du web, c'est-à-dire les liens hypertextes reliant les pages.

Le traitement des pages lors du crawl

Des analyses sont menées sur le contenus dès l'étape du crawl, avec des traitements différenciés selon les adresses web. Par exemple, une page sur un site en .EDU paraît a priori plus légitime et subira donc un traitement plus léger qu'une page sur un site en .TOP, nTLD célèbre pour sour son haut niveau de spam. L'analyse des liens est également susceptible de déclencher des filtres, par exemple si le nombre de liens semble anormalement élevé et/ou acquis trop rapidement.

De même, c'est lors du crawl qu'est effectuée l'analyse de duplication.

Le crawl peut prendre diverses formes : analyse et indexation en profondeur d'un site (dans la limite du raisonnable, afin de ne pas mettre en difficulté le serveur) ou seulement de quelques pages (par exemple les nouvelles pages), etc.

Au total, ce sont des milliards de bots qui crawlent le web en permanence, chaque moteur devant les coordonner entre eux afin d'optimiser la mise à jour des bases de données du moteur, en fonction des objectifs d'efficacité et de minimisation des coûts.