wtoolsy.com
Réseau, DNS, IP
Outils de développement
SEO et analyse de site
Finance et calculateurs
Universel
Articles

Testeur de robots.txt

Téléchargez et analysez le fichier robots.txt, vérifiez les règles et validez l'accès des robots aux pages.
Vérifier l'accès à l'URL

Consultez notre article détaillé sur robots.txt

Ouvrir l'article

Qu'est-ce que le fichier robots.txt ?

Le fichier robots.txt est un fichier texte standard placé dans le répertoire racine du domaine à l'adresse /robots.txt. Il informe les robots des moteurs de recherche (crawlers) sur les parties du site qui peuvent être indexées et celles qui doivent être ignorées. Il fait partie du protocole REP (Robots Exclusion Protocol) et, bien que les robots ne soient pas obligés de le respecter, tous les principaux moteurs de recherche comme Google, Bing ou Yandex suivent ces règles.

SEO

Empêche l'indexation des doublons, des pages de pré-production, des panneaux d'administration et d'autres ressources qui ne devraient pas figurer dans les résultats de recherche.

Budget de crawl

Limitez la fréquence de crawl à l'aide de Crawl-delay pour ne pas surcharger le serveur avec les robots des moteurs de recherche.

Sitemap

Indiquez l'emplacement du sitemap XML — cela aide les moteurs de recherche à découvrir toutes les sous-pages du site.

Syntaxe du fichier robots.txt

Directive Exemple Signification
User-agent User-agent: * Définit à quel robot les règles s'appliquent. * désigne tous les robots.
Disallow Disallow: /admin/ Bloque l'accès au chemin indiqué et à tous ses sous-répertoires.
Allow Allow: /public/ Autorise l'accès au chemin, même si le parent est bloqué.
Sitemap Sitemap: /sitemap.xml Indique l'emplacement du sitemap XML pour les moteurs de recherche.
Crawl-delay Crawl-delay: 10 Définit l'intervalle minimal en secondes entre les requêtes successives du crawler.
Disallow Disallow: Disallow vide — autorise l'accès à l'ensemble du site.
Disallow Disallow: / Bloque l'accès à l'ensemble du site pour un robot donné.

Exemple de fichier robots.txt

# tous les robots
User-agent: *
Disallow: /admin/
Disallow: /tmp/
Disallow: /search?
Allow: /public/

# seulement Googlebot
User-agent: Googlebot
Disallow: /no-google/

# bloquer complètement Bingbot
User-agent: Bingbot
Disallow: /

Sitemap: https://example.com/sitemap.xml

Questions fréquemment posées

Est-ce que le robots.txt bloque l'indexation d'une page ?

Pas tout à fait. Le fichier robots.txt dit aux crawlers de ne pas visiter certaines adresses, mais ne garantit pas que la page n'apparaîtra pas dans les résultats de recherche. Si un autre site lie vers un URL bloqué, Google peut l'indexer sans le visiter. Pour bloquer totalement l'indexation, utilisez la balise méta noindex ou l'en-tête X-Robots-Tag.

Est-ce que le fichier robots.txt est visible publiquement ?

Oui — le fichier robots.txt jest toujours accessible publiquement à l'adresse /robots.txt. N'y placez pas d'informations sensibles sur la structure du site que vous ne souhaitez pas divulguer, car tout le monde peut le lire.

Quelle est la différence entre Allow et Disallow ?

Disallow bloque l'accès à un chemin, Allow l'autorise. Allow a une priorité plus élevée que Disallow lorsque les deux règles correspondent au même URL. Exemple : Disallow: /folder/ et Allow: /folder/publiczny/ — le robot n'entrera pas dans /folder/ mais entrera dans /folder/publiczny/.

Comment vérifier si le robots.txt fonctionne correctement ?

Utilisez notre testeur ci-dessus — saisissez le domaine ou collez votre propre fichier et vérifiez si un URL spécifique est bloqué pour le robot sélectionné. Vous pouvez également utiliser la Google Search Console → Outil de test du fichier robots.txt qui montre comment Googlebot interprète les règles.

Que signifie User-agent: *?

L'astérisque * est un caractère générique (wildcard) désignant tous les robots. Les règles sous User-agent: * s'appliquent à tous les crawlers qui n'ont pas leur propre section dédiée. Si un robot a sa propre section (par exemple User-agent: Googlebot), il applique uniquement les règles de cette section et ignore les règles pour *.

Est-ce qu'une absence de fichier robots.txt est un problème ?

Non — l'absence de fichier robots.txt signifie que tous les robots peuvent librement crawler l'ensemble du site. C'est le comportement par défaut. Le problème survient lorsque vous voulez bloquer certaines sections (ex: /admin/, /staging/) ou indiquer l'emplacement du sitemap.