Robots.txt : Configuration du Fichier SEO

Définition

Le fichier robots.txt est un fichier texte place a la racine d'un site web qui indique aux robots des moteurs de recherche quelles pages ou sections ils peuvent ou ne peuvent pas explorer.

Le robots.txt est un fichier de configuration au format texte brut situe a la racine d'un domaine (exemple.com/robots.txt) qui communique des directives aux robots d'exploration des moteurs de recherche. Il utilise le protocole REP (Robots Exclusion Protocol) pour autoriser ou interdire l'acces a certaines parties du site via les directives Allow et Disallow. Ce fichier est essentiel pour gerer le crawl budget en empechant l'exploration de pages inutiles (pages d'administration, filtres, doublons) et pour proteger des zones sensibles du site. Important : le robots.txt bloque le crawl mais pas necessairement l'indexation. Une page bloquee par robots.txt peut quand meme apparaitre dans les resultats si d'autres pages y font reference. Pour empecher l'indexation, la balise meta noindex est plus appropriee.

fichier robots.txt robots txt fichier d'exclusion des robots protocole d'exclusion des robots

Points clés à retenir

Le robots.txt bloque le crawl mais pas l'indexation : utiliser noindex pour empecher l'apparition dans les resultats
Il doit etre place a la racine du domaine et etre accessible publiquement
Une erreur dans le robots.txt peut bloquer l'ensemble du site : toujours tester avant mise en production

Exemples concrets

Blocage de l'espace d'administration

Un site WordPress ajoute 'Disallow: /wp-admin/' dans son robots.txt pour empecher Googlebot d'explorer les pages du back-office, economisant du crawl budget pour les pages publiques.

Reference au sitemap

En ajoutant la ligne 'Sitemap: https://www.monsite.com/sitemap.xml' dans le robots.txt, un webmaster s'assure que tous les crawlers decouvrent facilement le plan du site, meme sans lien direct.

Questions fréquentes

Comment creer un fichier robots.txt ?

Creez un fichier texte nomme 'robots.txt' a la racine de votre site. La syntaxe de base utilise 'User-agent:' pour cibler un robot specifique (ou * pour tous), 'Disallow:' pour interdire l'acces a un chemin, et 'Allow:' pour autoriser l'acces. Ajoutez aussi la ligne 'Sitemap:' avec l'URL de votre sitemap. Testez toujours votre fichier via l'outil de test robots.txt de la Search Console avant de le mettre en ligne.

Le robots.txt empeche-t-il vraiment l'indexation d'une page ?

Non, le robots.txt empeche le crawl (l'exploration) mais pas forcement l'indexation. Si d'autres sites font des liens vers une page bloquee dans le robots.txt, Google peut quand meme l'indexer avec un titre et une description generiques. Pour vraiment empecher l'indexation, il faut utiliser la balise meta 'noindex' ou l'en-tete HTTP X-Robots-Tag, mais attention : la page doit etre accessible au crawl pour que Google puisse lire la directive noindex.

Termes liés

Aller plus loin avec LemmiLink

Découvrez comment LemmiLink peut vous aider à mettre en pratique ces concepts SEO.

LemmiLink, votre partenaire SEO technique Configuration technique pour editeurs de sites Audit technique SEO pour agences