Définition
Le robots.txt est un fichier de configuration au format texte brut situe a la racine d'un domaine (exemple.com/robots.txt) qui communique des directives aux robots d'exploration des moteurs de recherche. Il utilise le protocole REP (Robots Exclusion Protocol) pour autoriser ou interdire l'acces a certaines parties du site via les directives Allow et Disallow. Ce fichier est essentiel pour gerer le crawl budget en empechant l'exploration de pages inutiles (pages d'administration, filtres, doublons) et pour proteger des zones sensibles du site. Important : le robots.txt bloque le crawl mais pas necessairement l'indexation. Une page bloquee par robots.txt peut quand meme apparaitre dans les resultats si d'autres pages y font reference. Pour empecher l'indexation, la balise meta noindex est plus appropriee.
Points clés à retenir
- Le robots.txt bloque le crawl mais pas l'indexation : utiliser noindex pour empecher l'apparition dans les resultats
- Il doit etre place a la racine du domaine et etre accessible publiquement
- Une erreur dans le robots.txt peut bloquer l'ensemble du site : toujours tester avant mise en production
Exemples concrets
Blocage de l'espace d'administration
Un site WordPress ajoute 'Disallow: /wp-admin/' dans son robots.txt pour empecher Googlebot d'explorer les pages du back-office, economisant du crawl budget pour les pages publiques.
Reference au sitemap
En ajoutant la ligne 'Sitemap: https://www.monsite.com/sitemap.xml' dans le robots.txt, un webmaster s'assure que tous les crawlers decouvrent facilement le plan du site, meme sans lien direct.
Questions fréquentes
Creez un fichier texte nomme 'robots.txt' a la racine de votre site. La syntaxe de base utilise 'User-agent:' pour cibler un robot specifique (ou * pour tous), 'Disallow:' pour interdire l'acces a un chemin, et 'Allow:' pour autoriser l'acces. Ajoutez aussi la ligne 'Sitemap:' avec l'URL de votre sitemap. Testez toujours votre fichier via l'outil de test robots.txt de la Search Console avant de le mettre en ligne.
Non, le robots.txt empeche le crawl (l'exploration) mais pas forcement l'indexation. Si d'autres sites font des liens vers une page bloquee dans le robots.txt, Google peut quand meme l'indexer avec un titre et une description generiques. Pour vraiment empecher l'indexation, il faut utiliser la balise meta 'noindex' ou l'en-tete HTTP X-Robots-Tag, mais attention : la page doit etre accessible au crawl pour que Google puisse lire la directive noindex.
Termes liés
Aller plus loin avec LemmiLink
Découvrez comment LemmiLink peut vous aider à mettre en pratique ces concepts SEO.
Dernière mise à jour : 2026-02-07