Définition
Le crawl (ou exploration) est la premiere etape du processus de referencement par les moteurs de recherche. Des robots logiciels appeles crawlers ou spiders (comme Googlebot pour Google) parcourent le web de lien en lien pour decouvrir de nouvelles pages et verifier les mises a jour des pages existantes. Chaque site dispose d'un budget de crawl (crawl budget) qui determine le nombre de pages que Googlebot va explorer lors de chaque visite. Optimiser le crawl de son site est essentiel pour s'assurer que toutes les pages importantes sont decouvertes et regulierement mises a jour dans l'index. Le fichier robots.txt et le sitemap XML sont les principaux outils de gestion du crawl.
Points clés à retenir
- Googlebot est le crawler principal de Google qui decouvre et explore les pages web
- Le crawl budget est le nombre de pages que Google explore sur un site lors de chaque visite
- Un sitemap XML et un robots.txt bien configures optimisent l'exploration du site
Exemples concrets
Optimisation du crawl budget
Un site e-commerce de 50 000 pages bloque le crawl des pages de filtres et de pagination inutiles via le robots.txt, permettant a Googlebot de concentrer son budget de crawl sur les fiches produits et categories strategiques.
Analyse des logs serveur
En analysant les logs du serveur, un webmaster identifie que Googlebot passe 60% de son temps a explorer des pages d'administration inutiles. En corrigeant les directives de crawl, il ameliore la frequence d'exploration des pages importantes.
Questions fréquentes
Pour optimiser le crawl, assurez-vous que votre site a une architecture claire avec un maillage interne efficace, soumettez un sitemap XML a jour dans la Search Console, configurez correctement votre robots.txt, ameliorez la vitesse de chargement de vos pages et evitez les chaines de redirections. Les backlinks de qualite incitent egalement Googlebot a visiter votre site plus frequemment.
Le crawl budget represente le nombre de pages que Googlebot va explorer sur votre site dans un laps de temps donne. Il est determine par la frequence de crawl (combien de requetes le serveur peut supporter) et la demande de crawl (l'interet de Google pour vos pages). Pour les grands sites, un crawl budget mal optimise signifie que des pages importantes risquent de ne pas etre explorees regulierement.
Termes liés
Aller plus loin avec LemmiLink
Découvrez comment LemmiLink peut vous aider à mettre en pratique ces concepts SEO.
Dernière mise à jour : 2026-02-07