Qu’est-ce que le Budget Crawl et 13 Façons de l’Optimiser

Optimiser Budget Crawl SEO
04Dec, 2019

Budget de Crawl : Guide complet pour son optimisation SEO

Budget de Crawl (ou Crawl Budget ) est un terme créé par la communauté  SEO qui se réfère à la fréquence à laquelle les moteurs de recherche peuvent et veulent crawler votre site Web.

Il s'agit d'un concept SEO technique important surtout quand vous  travailler sur des gros sites Web à fort volumétrie de trafics par exemple certain  site e-commerce.

Dans ce guide Budget de Crawl  je vais couvrir ce qu'est un budget de crawl, pourquoi il est important, et comment l'optimiser pour améliorer les performances SEO de votre site.

C'est quoi le budget de crawl ?

Le budget de crawl est le nombre d'URLs que Googlebot va parcourir sur votre site en moyenne chaque jour. Deux facteurs déterminent votre budget crawl :

  • Le nombre de requêtes que votre site peut traiter avant de répondre avec des erreurs de serveur.
  • La popularité de votre site web sur Internet. Et à quel point l'URL est devenue obsolète dans l'index de Google.

Voilà  comment Google définit le  budget de crawl :

Budget Crawl : Qu'est-ce que c'est ?

Limite de vitesse du crawl budget

La limite de vitesse de recherche est conçue pour aider Googlebot à ne pas parcourir vos pages trop souvent et trop vite pour ne faire sauter votre serveur.

L'objectif de Google n'est pas de dégrader l'expérience d'utilisateur des personnes qui visitent votre site Web. Par exemple, si Googlebot demande trop de pages à la fois, Googlebot (et les utilisateurs) obtiendra 5xx codes de réponse HTTP :

5xx codes de réponse HTTP

Ainsi, Google ajustera la limite de vitesse de recherche vers le haut ou vers le bas en fonction de la façon dont votre serveur répond à leur activité.

Vous pouvez lire ce que Google dit au sujet de la limite de la vitesse d'exploration ci-dessous :

Mlocalseo Crawl Budget

 

 

Demande de Crawl

La demande d'exploration c'est le cas ou  Googlebot veut parcourir vos pages. La “demande” est basée sur la popularité de vos pages par exemple les backlinks  et sur l'ancienneté du contenu dans l'index Google.

Google aura tendance à parcourir les pages qui ont beaucoup de backlinks plus fréquemment que celles qui n'en ont pas beaucoup. De plus, si votre contenu change régulièrement, Googlebot visitera ces pages plus souvent  qu'un site statique.

Vous pouvez lire ce que Google dit sur la demande de crawl ci-dessous :

Mlocalseo.com crawl budget

 

Pourquoi optimiser son budget de crawl ?

Le crawle est une partie fondamentale du SEO , et sans les moteurs de recherche  il n'y a pas de crawl pour votre site Web,  vous ne serez jamais en mesure de  classer  dans le SERP de Google.

Ainsi, la compréhension, le contrôle et l'optimisation de votre budget crawl est une partie cruciale de votre succès SEO. On va voir les  trois raisons pour lesquelles je crois que l'optimisation du budget  crawl est vitale pour le référencement naturel.

Votre contenu ne peut pas être indexé et hiérarchisé sans être crawlé.

C'est aussi simple que cela. Votre contenu n'apparaîtrait pas dans Google si  Googlebot ne l'a pas parcouru. L'utilisation efficace de votre budget de  crawl est important pour que les moteurs de recherche puissent parcourir vos pages stratégiques  et les classer ensuite dans le SERP.

Orienter votre crawl vers vos pages stratégiques

Vous voulez que Googlebot passe la plupart de son temps à parcourir des pages qui vous rapportent de l'argent, non? C'est ça l'optimisation du budget de crawl, pousser Googlebot vers vos pages pour des conversions. Un autre point Google ne crawl jamais toute la totalité d'un site d'un coup. Alors, pas de panique.

Faire découvrir et mettre à jour rapidement votre contenu

Le contenu de tous les sites Web n'est pas statique. Certains sites mettent à jour leur contenu  de façon dynamique plusieurs fois par jour. Et d'autres ajoutent de nouvelles pages chaque jour.

Si c'est le cas, vous voulez que Googlebot parcoure ces pages fréquemment pour vous en assurer :

  • Les nouvelles pages se classent et génèrent du trafic organique.
  • Le contenu mis à jour est frais dans l'index de Google.

Si Google perd du temps à parcourir des pages de faible valeur, c'est que vous n'utilisez pas efficacement votre budget de crawl. Et là vous avez un souci.

En fin de compte, l'optimisation du budget crawl est importante pour le référencement, car elle permet à Googlebot d'accéder rapidement  aux pages qui vous rapportent le plus  et fréquemment. C'est pour cela il faut faire un petit nettoyage au niveau des URLs quand c'est nécessaire avec méthode.

Qu'est-ce qui affecte le budget  crawl ?

Vous vous posez peut-être la question : “Qu'est-ce qui peut avoir un impact négatif sur le budget crawl ?

Disons  toute URL qui ne rapporte pas de l'argent à votre entreprise ou qui n'offre aucune valeur aux utilisateurs (ou à Google). Alors,  pourquoi on parle  de gaspillage de budget de crawl et comment les réparer dans la section suivante. Bon je vais essayer… 🙂

Mais pour vous donner un bref aperçu, voici ce que dit Google :

Facteurs affectant le budget d'exploration

 

Comment optimiser votre budget crawl

La meilleure façon de maximiser votre budget d'exploration est de passer en revue les fichiers journaux  ( ou Analyser vos logs ) de votre serveur pour comprendre ce que Googlebot est en train de crawler.

N'oubliez pas de lire mon Guide sur l'Analyse des fichiers de logs: un guide de référencement.

Voici mes meilleurs conseils pour optimiser votre budget  crawl :

  • Avoir une structure de site bien planifiée
  • Améliorez la vitesse de chargement des pages de votre serveur.
  • Utilisez les liens internes pour les pages importantes.
  • Nettoyer les chaînes de redirection
  • Ne laissez pas Google explorer les paramètres d'URL inutilisés.
  • Limite des réponses non-200
  • Fournir des pages importantes dans les sitemaps XML
  • Utilisez un fichier robots.txt pour contrôler Googlebot
  • Visez une URL par élément de contenu.
  • Ne donnez pas de signaux contradictoires à Googlebot.
  • Évitez les chiffres élevés sur les pages non indexées et crawlables.
  • Ne permettez pas d'espaces infinis.

Maintenant comment vous pouvez l'utiliser pour optimiser votre budget crawl.

Avoir une structure de site bien planifiée

La structure du site est vitale pour fournir des chemins de recherche clairs pour Googlebot. Une structure de site plate est parfaite pour distribuer le PageRank à vos pages. C'est ça qui est le plus important. Une structure de site plate est généralement définie en ayant des pages d'importance pas plus de trois clics de la page d'accueil.

Mlocalseo.com maillage interne

Googlebot parcourra les pages qui ont un PageRank plus élevé plus fréquemment que celles qui ne sont pas en haut dans la structure du site.

Améliorez la vitesse de chargement des pages de votre serveur.

Google détermine la limite de vitesse de recherche en fonction de la façon dont votre serveur répond aux requêtes de Googlebot. Si vous augmentez la capacité de vos serveurs à réagir rapidement à Googlebot, vous pouvez augmenter le nombre de visites que vous recevez par jour. Un CDN pourra faire la différence.

Utilisez les liens internes pour les pages importantes.

Les liens internes sont ce que Googlebot va suivre sur votre site au fur et à mesure de son exploration. Il est essentiel que vous planifiez votre stratégie de liens internes, afin que les pages qui vous tiennent le plus à cœur aient le plus grand nombre de liens.

Vous devriez éviter de créer des liens vers les pages suivantes :

  • URLs qui ne renvoient pas un code de statut 200.
  • URL qui est canonisée à une autre URL.
  • Des URL qui ne vous rapportent pas d'argent.

Les liens vers ces URLs gaspillent votre budget de crawl sur des pages qui ne vous rapportent pas d'argent.

Nettoyer les chaînes de redirection

Les chaînes de redirections il faut les stopper dans cas car elles vont bouffer votre budget de crawl très rapidement. Une chaîne de redirection est lorsqu'une URL redirige vers une autre URL, puis cette URL redirige vers une autre et ainsi de suite. Googlebot suivra jusqu'à 5 sauts de redirection, donc chaque sauts que vous avez est un gaspillage de budget de crawl. Comme vous pouvez le voir sur cette image d'oncrawl.

redirection 301

Vous devez éliminer toute chaîne de redirection sur votre site Web et vous assurer que toutes les redirections sont un à un. Vous pouvez trouver des chaînes de redirection à l'aide de logiciel de crawlabilité tel que Screaming Frog.

Ne laissez pas Google explorer les paramètres d'URL inutilisés.

Les paramètres URL sont préjudiciables à votre budget d'exploration s'ils ne sont pas gérés efficacement. Dans un monde idéal, Google ne devrait jamais explorer les paramètres. Ils sont destinés à l'interaction de l'utilisateur, comme le tri et la commande, et Googlebot n'a pas besoin de les voir.

Si vous utilisez des paramètres pour classer les URLs, vous devez les convertir en URLs SEO. Vous pouvez gérer l'exploration des paramètres dans Google Search Console.

Cependant, je vous recommande d'être plus agressif. Si l'URL d'un paramètre ne génère pas de trafic organique, alors :

  1. Ajoutez une balise noindex à toutes les URLs contenant le paramètre
  2. Attendez qu'ils disparaissent de l'index de Google.
  3. Empêchez-les d'être crawlés dans le fichier robots.txt

Limite des réponses non-200

Chaque URL que Googlebot demande compte pour votre budget de crawl, donc vous voulez que chaque appel en vaille la peine. Toute réponse qui n'est pas un 200 OK est un gaspillage essentiel de crawl. Pour cela il faut faire  du monitoring de logs  pour comprendre où Googlebot reçoit les réponses 3xx, 4xx et 5xx et essayer de les nettoyer. En fait Google n'a pas une énergie infinie à consacrer à l'exploration de votre site, c'est pour cela qu'on parle souvent de quota de crawl.

Fournir des pages importantes dans les sitemaps XML

Google trouve des liens à partir des balises. href et des sitemaps XML, il est donc crucial de fournir à Googlebot une liste de vos liens les plus importants sous la forme de Sitemaps XML. Le XML sitemaps doit inclure :

  • URLs qui vous font gagner de l'argent
  • URL qui répondent avec 200 OK
  • URLs avec ne contiennent pas de balise meta no-index
  • Les URLs ne se canonisent pas à une URL différente

Utilisez un fichier robots.txt pour contrôler Googlebot

Le fichier robots.txt est votre meilleur ami pour l'optimisation de votre budget crawl. Utilisez le fichier robots.txt pour empêcher Googlebot de parcourir des pages intutiles.

Mlocalseo robots.txt

 

Voici quelques exemples de pages que vous devez bloquer dans robots.txt :

  • Pages de connexion
  • Pages des membres
  • Panier d'achat
  • Résultats de la recherche
  • Paramètres à facettes multiples

Visez une URL par élément de contenu.

Dans un monde parfait, vous avez une URL qui représente chaque élément de contenu que Googlebot va parcourir. Si vous y parvenez, vos efforts d'optimisation de votre budget crawl seront un succès.

Il y a une optimisation simple qui peut vous empêcher de montrer plusieurs versions de la même URL à Googlebot. En voici quelques-unes :

  • Est-ce que votre site web retourne 200 OK pour la version www et non-www ?
  • Est-ce que votre site web retourne 200 OK pour la version HTTP et HTTPs ?
  • Est-ce que votre site Web retourne 200 OK pour la barre oblique arrière et la barre oblique non arrière ?

Choisissez une version préférée de votre nom de domaine et assurez-vous que tout le reste y est redirigé directement.

Ne donnez pas de signaux contradictoires à Googlebot

Un autre perte pour votre crawl budget est l'utilisation abusive d'éléments de balises HTML envoyant des signaux contradictoires à Googlebot. Voici quelques exemples à surveiller :

  • Liens internes vers des pages qui canonisent vers une autre page
  • Liens internes vers des pages marquées noindex
  • Liens internes vers des URL qui redirigent vers une autre URL

Chacun de ces scénarios dit à Googlebot : “Hé, tu devrais parcourir cette page. Oh, attends, non, tu devrais crawl moins souvent cette page“. Vous risquez d'avoir de sérieux problèmes.

Il est essentiel que vous utilisiez chaque signal sur votre site Web pour envoyer des messages clairs à Googlebot sur ce qu'il faut crawler et ce qu'il ne faut pas crawler.

Évitez les chiffres élevés sur les pages non indexées et crawlables.

Souvent on entend cette  idée fausse que les pages marquées noindex ne sont pas parcourues. Ce n'est pas vrai. Googlebot visitera toujours les pages qui sont marquées noindex.

Il est essentiel que vous évaluiez que vous utilisez la bonne action lorsque vous n'avez pas de pages indexer. Posez-vous la question :

  1. Est-ce que j'ai des utilisateurs pour accéder à cette page ?
  2. Est-ce que je veux que cette page soit classée sur Google ?

Si vous avez répondu oui à la question 1 et non à la question 2, alors :

  1. Supprimer les références dans les sitemaps pour cette URL
  2. Essayez de limiter le nombre de liens internes à l'URL
  3. Ajouter une balise noindex à l'URL

Si vous avez répondu non aux deux questions, vous devez supprimer l'URL :

  1. Servez-vous d' un 410 pour toute demande d'URL ( suppression définitive de cette page)
  2. Attendez qu'il disparaisse de l'index de Google
  3. Empêchez-les d'être crawl dans le fichier robots.txt

Tu vois où je veux en venir ? Toutes les URL que vous affichez à Google via des liens et dans le sitemap seront parcourues. Donc, s'il ne vous apporte aucune valeur, alors débarrassez-vous en !

Ne permettez pas de scroll infini.

Les scroll infini sont un cauchemar pour votre budget crawl. Les espaces infinis se réfèrent au moment où Googlebot peut continuer à suivre les URLs dans une boucle infinie qui ne finira jamais.

Les exemples classiques de scroll infini sont les URLs de génération automatique de dates codées en dur. Imaginez que vous avez un lien vers “le mois prochain“, et que chaque page a un nouveau lien vers le mois suivant. Ce processus peut durer éternellement !

Un autre exemple est la pagination si chaque nouvelle page est liée à la page suivante de la série et renvoie un code de réponse de 200, même si la page n'existe pas.

Comme vous pouvez le voir, les “scroll infini” peuvent vous faire perdre beaucoup  et très rapidement votre budget de crawl. Méfiez-vous de cela et assurez-vous d'arrêter Googlebot dans sa course folle  avant qu'il ne s'engage sur un chemin de scroll infini.

Foire aux questions à propos de Crawl Budget

Le budget crawl est souvent un sujet mal compris et de nombreuses questions courantes sont posées. Voici donc mes réponses aux questions qui me sont fréquemment posées.

Quand devrais-je m'inquiéter du budget crawl ?

Le budget crawl n'est pas quelque chose à laquelle la plupart des sites Web ont besoin d'y penser. Vous devriez commencer à tenir compte de votre budget de crawl dans les scénarios suivants :

  • Si les nouvelles pages ne sont pas parcourues le jour même où vous les mettez en ligne.
  • Si votre site Web a plus de milliers d'URLs.
  • La découverte rapide de votre contenu par Googlebot est cruciale (par exemple, les sites web d'actualités).
  • Vous générez automatiquement un grand nombre de paramètres URLs.

Cependant, je recommande que chaque site web prenne en compte la fenêtre de crawl de ce que Googlebot crawl et à quelle fréquence au moins une fois. Ce n'est pas quelque chose que vous aurez besoin de surveiller continuellement, mais vous devriez avoir une idée. Comme l'a dit l'autre : “Tu es ce que Googlebot mange”. Possibilité d'un monotoring  de log.

Comment puis-je vérifier mon budget de crawl ?

Vous pouvez vérifier votre budget crawl de deux façons. La façon la plus simple est de vérifier le rapport des statistiques de recherche dans Google Search Console. Cependant, je recommande d'effectuer une analyse log.

La deuxième option consiste à consulter les fichiers de log d'accès de votre site Web pour savoir qu'elles sont les pages que Googlebot visite. L'analyse des fichiers log est un outil très puissant et vital pour comprendre votre budget de crawl.

Comment augmenter mon budget crawl ?

Pour augmenter votre budget crawl, vous devez tirer sur l'un des deux leviers qui le définissent : limite de vitesse d'exploration ou demande d'exploration. Malheureusement, il n'y a pas de bouton rouge sur lequel vous pouvez appuyer pour augmenter instantanément votre budget crawl.

Pour augmenter votre limite de vitesse d'exploration, vous devez améliorer la vitesse à laquelle votre serveur répond aux requêtes. Pour augmenter votre demande de crawl, vous devez acquérir plus de backlinks à travers des campagnes de Netlinking. Mais, aussi vous pouvez aussi orienter votre crawl.

Dans la plupart des cas, il s'agit d'une meilleure option pour optimiser votre allocation de budget crawl.

Le budget crawl est-il un facteur de classement SEO ?

Non. Le budget crawl n'est pas un facteur de classement sur Google ; cependant, il peut indirectement avoir un impact positif sur les performances de recherche.

Voici ce que Google dit sur la question :

5xx codes de réponse HTTP

Pourquoi Google ne parcourt pas mon site ?

Googlebot ne crawl pas votre site Web seulement si : il n'est pas au courant de l'existence de vos sites ou si vous avez demandé à Googlebot de ne pas explorer votre site Web.

Si votre site Web est nouveau, Google doit être informé de son existence. Google trouvera votre site Web à partir d'autres sites liés au vôtre ou en vous demandant de l'indexer via Google Search Console. Googlebot est même capable de trouver des pages orphelines  qui ne sont  plus dans la structure du site pour une raison ou autre (refontes- ancien produits…).

Pour ce dernier, vous devez vérifier votre fichier robots.txt et vous assurer que vous n'empêchez pas Google de parcourir votre site Web. Pour cela, naviguez vers votre site web et ajoutez /robots.txt/ à l'URL.

user-agent

Comment puis-je établir mon budget crawl ?

Comme je l'ai mentionné, vous pouvez fixer votre budget d'exploration à un niveau supérieur à ce que Google juge acceptable.

Mais si Googlebot nuit aux performances de vos serveurs, vous limitez le taux d'exploration maximal de Google via Google Search Console.

Vous avez besoin d'aide pour votre SEO Technique  Cliquez ici.

Je veux plus de Trafic
J'accepte de donner mon email...
Rejoignez plus de 10 000 visiteurs qui reçoivent notre newsletter et apprenez à optimiser votre site internet pour obtenir du trafic gratuitement.
Nous détestons le spam. Votre adresse email ne sera ni vendue ni partagée avec qui que ce soit.
About The Author
M. Claude MAGNE Consultant Référencement Local

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.