Le crawler sur mesure d'OTTO pour optimiser les scores de référencement

OTTO est l'un des plus grands magasins en ligne des Pays-Bas. Avec un large éventail de plus de 160 000 produits, dont la mode pour femmes, hommes et enfants, le multimédia, la maison, les appareils ménagers et de jardinage, les clients peuvent trouver chez OTTO presque tout pour l'intérieur et l'extérieur de leur maison.

En raison de ce vaste assortiment de produits, qui doit être actualisé en permanence, il est très important que l'ensemble du site data soit bien structuré et que tous les processus se déroulent sans heurts. Les informations fournies par OTTO sur son site web sont en constante évolution, ce qui influe sur les résultats organiques des moteurs de recherche. Les modifications apportées au site web peuvent donc avoir des conséquences importantes, mais aussi désastreuses, sur les scores de référencement. Pour obtenir un avantage concurrentiel, il est important de bien superviser les descriptions de produits, les stocks, les prix, etc. afin de s'assurer qu'OTTO continue d'obtenir de bons résultats pour les mots-clés de recherche organique.

Pour suivre l'état de santé du site web et détecter les problèmes liés au référencement à un stade précoce, OTTO souhaitait disposer d'un système de suivi interne permettant de conserver les informations sur une période plus longue. Pour répondre à cette question, l'entreprise s'est tournée vers Artefact.

Les conditions préalables à notre système de surveillance

Après avoir discuté du défi avec OTTO, nous avons défini plusieurs exigences pour le système de surveillance. Il doit être

Capable de récupérer une version actualisée du site data sur une base hebdomadaire ;
Disponible à un niveau automatisé ;
Capable de traiter de grandes quantités de data;
Stockage sécurisé et conforme au GDPR de data;
Contrôle total de qui, quoi, où et quand data est récupéré et accès à data;
Un tableau de bord clair qui montre les changements immédiats pour les spécialistes du référencement comme pour les profanes ;
Possibilité d'afficher des notifications push lorsqu'une erreur importante est détectée.

Si le système de surveillance répondait à toutes ces exigences, il serait finalement en mesure de réduire le pourcentage d'erreurs de site web pour les scores de référencement de 10 % à 5 %.

La solution : un crawler interne

Nous avons rapidement constaté qu'un crawler était la meilleure solution pour répondre à notre demande. Un crawler est un algorithme qui effectue des études automatisées (c'est-à-dire des crawls) sur la santé technique du site web. Les résultats des recherches sont présentés dans un tableau de bord clair qui peut être utilisé comme un instrument stratégique pour surveiller et améliorer les aspects techniques, ainsi que le contenu du site web. Même si OTTO utilisait déjà un crawler, celui-ci ne répondait pas à toutes nos exigences. Nous avons donc décidé de construire notre propre crawler, en pleine propriété de l'OTTO, qui nous fournit des informations actualisées pour nous aider à améliorer les scores de référencement. Ce crawler devait cartographier les erreurs de site web (codes de statut 4XX et 5XX) sur le site web, afin de les tracer et de les traiter rapidement.

Il est important d'être informé rapidement des erreurs afin d'optimiser la navigabilité du site web. Des audits hebdomadaires automatisés par le robot d'exploration permettent d'identifier et de corriger les erreurs telles que les liens morts et les pages manquantes, l'automatisation étant l'élément le plus important à cet égard. Les outils et les scripts automatisés permettent de résoudre rapidement des problèmes qui ne peuvent pas être résolus manuellement. En outre, ils permettent à OTTO d'économiser du temps et de l'argent.

Les étapes de la mise en œuvre

Nous avons pris plusieurs mesures pour construire le crawler, dont certaines ont été très utiles, d'autres moins. Nous allons mettre en évidence les plus importantes :

La première étape a consisté à obtenir la certification "Google Cloud Certified Cloud Digital Leader" de Google pour l'ensemble de l'équipe de référencement.
Après avoir obtenu la certification, nous avons plongé dans Google Cloud et testé différentes configurations de serveurs (beaucoup de stockage + moins de RAM, ou moins de stockage + beaucoup de RAM) et d'interfaces (GUI, headless) pour optimiser l'efficacité.
Une fois le premier proof-of-work terminé, nous avons commencé à tester la connexion BigQuery pour créer le tableau de bord dans LookerStudio. Le premier test s'est avéré concluant, mais il nécessitait des améliorations au niveau de l'évolutivité. En collaboration avec nos équipes Data Engineering et Data Analytics, nous avons construit une preuve de concept pour vérifier la faisabilité de la construction de notre propre crawler. Les facteurs les plus importants étaient l'évolutivité et la précision du site data.
Ensuite, nous avons ajouté un filtre de catégorie et des champs supplémentaires au site data afin de générer des aperçus faciles à comprendre et à télécharger, tant pour les spécialistes du référencement que pour les profanes.
Enfin, nous avons élaboré un tableau de bord clair basé sur le modèle de Screaming Frog.

Améliorer le CTR et les erreurs de site web en quelques minutes

Le crawler vient d'être lancé sur le site web de l'OTTO et commence à recueillir des informations à l'adresse data. Bien que le crawler ne soit pas opérationnel depuis longtemps, nous avons quelques résultats préliminaires à partager.

Résultats obtenus

Détection d'environ 130 000 méta titres et descriptions erronés/manquants/trop courts ou trop longs, ce qui permet d'améliorer le CTR après avoir résolu ces problèmes ;
Diminution de 50 % des pages 4XX ;
Le pourcentage d'URL 404 est passé de 6,6 % à 3 % ;
Le nombre d'URLs non indexés avec une profondeur ≥6 a été réduit de 6200 à 0.

Résultats attendus

Amélioration du plan du site ;
Diminuer le nombre d'URL concurrentes au moyen de balises canoniques et de liens internes ;
Diminuer le nombre d'URL indexées qui sont canonisées ;
Améliorer la structure des liens internes ;
Optimiser les en-têtes en termes de longueur et éviter les doublons / multiples sur la même page ;
Optimisation de la vitesse des pages ;
Optimisation des pages orphelines.

Les conditions préalables fixées pour le crawler ont toutes été remplies. Les principaux avantages de ce crawler sont qu'il appartient entièrement à OTTO et que le site data n'a plus besoin d'être récupéré manuellement par lots, ce qui permet de gagner beaucoup de temps. En outre, nous avons un contrôle total sur ce que fait le crawler, sur les personnes qui y ont accès et sur l'endroit où le site data est stocké, conformément au GDPR.