Testeur de robots.txt
Consultez notre article détaillé sur robots.txt
Ouvrir l'articleQu'est-ce que le fichier robots.txt ?
Le fichier robots.txt est un fichier texte standard placé dans le répertoire racine du domaine à l'adresse /robots.txt. Il informe les robots des moteurs de recherche (crawlers) sur les parties du site qui peuvent être indexées et celles qui doivent être ignorées. Il fait partie du protocole REP (Robots Exclusion Protocol) et, bien que les robots ne soient pas obligés de le respecter, tous les principaux moteurs de recherche comme Google, Bing ou Yandex suivent ces règles.
Empêche l'indexation des doublons, des pages de pré-production, des panneaux d'administration et d'autres ressources qui ne devraient pas figurer dans les résultats de recherche.
Limitez la fréquence de crawl à l'aide de Crawl-delay pour ne pas surcharger le serveur avec les robots des moteurs de recherche.
Indiquez l'emplacement du sitemap XML — cela aide les moteurs de recherche à découvrir toutes les sous-pages du site.
Syntaxe du fichier robots.txt
| Directive | Exemple | Signification |
|---|---|---|
User-agent |
User-agent: * | Définit à quel robot les règles s'appliquent. * désigne tous les robots. |
Disallow |
Disallow: /admin/ | Bloque l'accès au chemin indiqué et à tous ses sous-répertoires. |
Allow |
Allow: /public/ | Autorise l'accès au chemin, même si le parent est bloqué. |
Sitemap |
Sitemap: /sitemap.xml | Indique l'emplacement du sitemap XML pour les moteurs de recherche. |
Crawl-delay |
Crawl-delay: 10 | Définit l'intervalle minimal en secondes entre les requêtes successives du crawler. |
Disallow |
Disallow: | Disallow vide — autorise l'accès à l'ensemble du site. |
Disallow |
Disallow: / | Bloque l'accès à l'ensemble du site pour un robot donné. |
Exemple de fichier robots.txt
# tous les robots User-agent: * Disallow: /admin/ Disallow: /tmp/ Disallow: /search? Allow: /public/ # seulement Googlebot User-agent: Googlebot Disallow: /no-google/ # bloquer complètement Bingbot User-agent: Bingbot Disallow: / Sitemap: https://example.com/sitemap.xml
Questions fréquemment posées
Pas tout à fait. Le fichier robots.txt dit aux crawlers de ne pas visiter certaines adresses, mais ne garantit pas que la page n'apparaîtra pas dans les résultats de recherche. Si un autre site lie vers un URL bloqué, Google peut l'indexer sans le visiter. Pour bloquer totalement l'indexation, utilisez la balise méta noindex ou l'en-tête X-Robots-Tag.
Oui — le fichier robots.txt jest toujours accessible publiquement à l'adresse /robots.txt. N'y placez pas d'informations sensibles sur la structure du site que vous ne souhaitez pas divulguer, car tout le monde peut le lire.
Disallow bloque l'accès à un chemin, Allow l'autorise. Allow a une priorité plus élevée que Disallow lorsque les deux règles correspondent au même URL. Exemple : Disallow: /folder/ et Allow: /folder/publiczny/ — le robot n'entrera pas dans /folder/ mais entrera dans /folder/publiczny/.
Utilisez notre testeur ci-dessus — saisissez le domaine ou collez votre propre fichier et vérifiez si un URL spécifique est bloqué pour le robot sélectionné. Vous pouvez également utiliser la Google Search Console → Outil de test du fichier robots.txt qui montre comment Googlebot interprète les règles.
L'astérisque * est un caractère générique (wildcard) désignant tous les robots. Les règles sous User-agent: * s'appliquent à tous les crawlers qui n'ont pas leur propre section dédiée. Si un robot a sa propre section (par exemple User-agent: Googlebot), il applique uniquement les règles de cette section et ignore les règles pour *.
Non — l'absence de fichier robots.txt signifie que tous les robots peuvent librement crawler l'ensemble du site. C'est le comportement par défaut. Le problème survient lorsque vous voulez bloquer certaines sections (ex: /admin/, /staging/) ou indiquer l'emplacement du sitemap.