Des documents internes de Google Search ont été divulgués par une source anonyme qui a contacté Rand Fishkin, fondateur de SparkToro et ex-fondateur de Moz. Ces documents dévoilent des informations cruciales sur le fonctionnement de l’algorithme de Google.
Points clés à retenir :
- Les clics et les comportements post-clics sont des facteurs de classement très importants.
- NavBoost, un système de re-ranking basé sur les clics, influence directement le classement.
- Google intègre les données de clics issues de Chrome.
- Les clics permettent de pondérer les liens dans les SERP en classant les pages sur 3 niveaux.
- Google applique des listes blanches pour des requêtes sensibles.
Les fuites Internes de Google Search
Le 5 mai 2024, Rand Fishkin reçoit un email d’une source anonyme prétendant posséder des milliers de documents internes de l’équipe de recherche de Google. Selon cette source, les documents ont été authentifiés par d’anciens employés de Google, qui ont également fourni des informations supplémentaires.
Ces documents révèlent des pratiques internes de Google qui contredisent ses déclarations publiques, en particulier sur l’utilisation des signaux de clics.
Développements importants :
- NavBoost : Initialement basé sur les données de PageRank de la barre d’outils de Google, NavBoost a motivé la création de Chrome pour collecter davantage de données de navigation. Il utilise le nombre de recherches pour un mot-clé donné, les clics sur les résultats de recherche, et les clics longs par rapport aux clics courts pour évaluer les tendances de recherche et l’intention de l’utilisateur.
- Fonctionnalités Déclenchées : Les seuils d’attention et les clics sur des vidéos ou des images peuvent déclencher des fonctionnalités de vidéo ou d’image pour certaines requêtes et leurs associées.
- Engagement utilisateur : Google examine les clics et l’engagement pendant et après la requête principale. Par exemple, si de nombreux utilisateurs recherchent “Rand Fishkin”, ne trouvent pas SparkToro, puis modifient leur recherche en “SparkToro” et cliquent sur le site, SparkToro et les sites le mentionnant recevront un coup de pouce pour le mot-clé “Rand Fishkin”.
- Autres facteurs : Des pénalités pour les noms de domaine correspondant exactement aux requêtes de recherche sans marque, un nouveau score “BabyPanda” et les signaux de spam sont également pris en compte.
- Délimitation Géographique : NavBoost prend en compte les données de clics par pays, état, et type d’appareil (mobile vs ordinateur).
- Listes Blanches : Pendant la pandémie de Covid-19 et les élections, Google a utilisé des listes blanches pour promouvoir ou rétrograder certains sites dans les résultats de recherche.
Certaines de ces informations, notamment celles concernant NavBoost, avaient déjà été révélées lors du procès antitrust de Google.
Réactions et vérifications
Initialement sceptique, Rand Fishkin a pu s’entretenir en visioconférence avec la source, qui lui a montré directement la fuite de documents : plus de 2500 pages de documentation semblant provenir du “Content API Warehouse” interne de Google. Le code a été téléchargé sur GitHub le 27 mars 2024 puis supprimé le 7 mai 2024.
Pour vérifier l’authenticité de ces documents, Rand a contacté plusieurs amis ex-Googlers et Mike King, le fondateur d’iPullRank. Ce dernier a confirmé qu’il semblait bien s’agir de documents légitimes provenant de l’équipe de recherche de Google.
NavBoost : Utilisation des clics et des données utilisateurs
NavBoost est un système de Google mentionné pour la première fois dans les témoignages du département de la justice des États-Unis par Pandu Nayak, vice-président de la recherche chez Google. Développé pour améliorer la qualité des résultats de recherche et identifier les tendances en utilisant des données de clics, NavBoost a collecté des données à partir de la barre d’outils PageRank de Google et plus tard de Chrome, dont la création a été motivée par le besoin accru de données de clics.
NavBoost recueille une variété de données de clics, notamment :
- Nombre de clics sur un résultat de recherche : Utilisés pour déterminer la popularité et la pertinence du résultat.
- Clics longs versus clics courts : Aident à évaluer la satisfaction de l’utilisateur en distinguant les clics où l’utilisateur passe beaucoup de temps sur la page des clics où il revient rapidement à la page de résultats.
- Clics “écrasés” VS “non écrasés” : Les clics écrasés sont considérés comme moins fiables ou pertinents, tandis que les clics non écrasés sont de haute qualité.
- Délimitation Géographique : NavBoost prend en compte les données de clics par pays, état, et type d’appareil pour affiner la pertinence des résultats de recherche.
Pendant la pandémie de Covid-19 et les élections, Google a utilisé des listes blanches pour promouvoir ou rétrograder certains sites dans les résultats de recherche.
Certaines de ces informations, notamment celles sur NavBoost, ont déjà été révélées lors du procès antitrust de Google.