Robots.txt — guía completa del archivo robots.txt

El archivo robots.txt es uno de los fundamentos de la configuración de un sitio web para los motores de búsqueda. A pesar de su sintaxis sencilla, una configuración incorrecta puede bloquear la indexación de todo el sitio o revelar estructuras sensibles del servicio. Esta guía te llevará a través de todo lo que necesitas saber, desde la sintaxis básica hasta técnicas avanzadas y errores comunes.

¿Quieres comprobar el archivo robots.txt de tu dominio?

Abrir el probador de robots.txt

¿Qué es el archivo robots.txt?

Robots.txt es un archivo de texto que se coloca en el directorio raíz del dominio en la dirección example.com/robots.txt. Define reglas para los robots de internet (rastreadores) especificando qué partes del sitio pueden ser visitadas e indexadas. Este protocolo se conoce como REP (Robots Exclusion Protocol) y es respetado por todos los principales motores de búsqueda: Google, Bing, Yandex, DuckDuckGo y otros.

Importante: robots.txt es solo una sugerencia, no un mandato. Los bots maliciosos pueden ignorar sus reglas. No debe utilizarse como el único mecanismo de protección de recursos sensibles.

¿Dónde colocar el archivo robots.txt?

El archivo debe estar en el directorio raíz del dominio, no en un subdominio ni en un subdirectorio. Disponible en la dirección:

https://example.com/robots.txt ✓ Correcto

https://www.example.com/robots.txt ✓ Correcto

https://example.com/folder/robots.txt ✗ Incorrecto

https://sub.example.com/robots.txt ✓ Robots.txt independiente para el subdominio

Sintaxis básica

El archivo robots.txt consta de grupos de reglas. Cada grupo comienza con una o más directivas User-agent, seguidas de las directivas Allow y Disallow. Los grupos están separados por líneas vacías.

Estructura del archivo

# Comentario: la línea comienza con #

User-agent: [nombre-del-bot]

Disallow: [ruta]

Allow: [ruta]

Crawl-delay: [segundos]

User-agent: [otro-bot]

Disallow: [ruta]

Sitemap: [URL-del-sitemap]

Directivas: lista completa

User-agent Todos

User-agent: *

Especifica el bot. * significa todos.

Disallow Todos

Disallow: /admin/

Bloquea el acceso a la ruta y a los subdirectorios.

Allow Google, Bing

Allow: /public/

Permite el acceso, incluso si la ruta superior está bloqueada.

Sitemap Todos

Sitemap: /sitemap.xml

Indica la ubicación del sitemap XML.

Crawl-delay Bing, Yandex

Crawl-delay: 10

Pausa mínima entre las solicitudes del rastreador en segundos. Google lo ignora.

Host Yandex

Host: example.com

Indica el dominio preferido. Utilizado por Yandex.

Clean-param Yandex

Clean-param: sid

Informa a los bots sobre parámetros de URL sin importancia para el contenido.

Comodines y patrones de ruta

Google y Bing admiten dos caracteres especiales de comodín en las rutas:

Disallow: /*.pdf$

Coincide con cualquier cadena de caracteres (cero o más).

Disallow: /search$

Coincide con el final de la URL: la ruta debe terminar exactamente en ese punto.

Ejemplos de patrones

# bloquea todo el sitio

Disallow: /

# bloquea /admin/ y todos los subdirectorios

Disallow: /admin/

# bloquea todas las URL que terminan en .pdf

Disallow: /*.pdf$

# bloquea todas las URL con parámetros de consulta

Disallow: /*?

# bloquea solo /search, no /search/results

Disallow: /search$

# permite un subdirectorio de un directorio bloqueado

Allow: /admin/public/

Prioridad de las reglas: ¿cuál gana?

Cuando varias reglas coinciden con la misma URL, Google aplica la regla de la coincidencia más larga: gana la regla con el patrón coincidente más largo. En caso de igual longitud, Allow tiene prioridad sobre Disallow.

# Reglas de ejemplo:

User-agent: *

Disallow: /carpeta/

Allow: /carpeta/público/

# Para la URL /folder/privado/ → Disallow (coincidencia más larga)

# Para la URL /folder/publico/ → Allow (coincidencia más larga)

# Para la URL /folder/ → Disallow

Ejemplos de configuración

1. Configuración básica — WordPress

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /?s=
Disallow: /tag/
Disallow: /author/

Sitemap: https://example.com/sitemap.xml

2. Tienda de comercio electrónico

User-agent: *
Disallow: /carrito/
Disallow: /pedido/
Disallow: /mi-cuenta/
Disallow: /panel/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?page=
Allow: /productos/
Allow: /categorías/

Sitemap: https://sklep.pl/sitemap.xml
Sitemap: https://sklep.pl/sitemap-produkty.xml

3. Bloqueo de bots de IA seleccionados

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: *
Disallow: /admin/
Allow: /

Sitemap: https://example.com/sitemap.xml

4. Sitio en modo de mantenimiento

User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /

Rastreadores conocidos y su User-Agent

Googlebot

Google

Googlebot

Google Images

Google

Googlebot-Image

Google AdsBot

Google

AdsBot-Google

Google Extended

Google AI

Google-Extended

Bingbot

Microsoft

bingbot

Yandex

YandexBot

DuckDuckBot

DuckDuckGo

DuckDuckBot

Baidu

Baiduspider

GPTBot

OpenAI

GPTBot

Claude

Anthropic

anthropic-ai

CCBot

Common Crawl

CCBot

SemrushBot

Semrush

SemrushBot

AhrefsBot

Ahrefs

AhrefsBot

Errores más comunes en robots.txt

Bloqueo de todo el sitio

Disallow: / para todos los bots bloquea todo el sitio, uno de los errores de SEO más costosos. Google informa regularmente sobre estos sitios en Search Console.

Bloqueo de páginas con noindex

Si una página tiene la metaetiqueta noindex, no la bloquees en robots.txt. El rastreador debe visitar la página para ver la directiva noindex. Una página bloqueada puede permanecer en el índice si hay un enlace hacia ella.

Revelar la estructura del servicio

Robots.txt es público. Al escribir Disallow: /panel-secreto/ informas a todos de la existencia de ese directorio. Utiliza robots.txt para controlar el rastreo, no para ocultar recursos.

Falta de archivos independientes para subdominios

El archivo robots.txt en example.com no se aplica a blog.example.com. Cada subdominio necesita su propio archivo robots.txt.

Bloqueo de recursos CSS y JS

Google necesita acceso a CSS y JavaScript para renderizar la página y evaluar su calidad. Bloquear estos recursos puede perjudicar el ranking.

Confundir robots.txt con .htaccess

Robots.txt no bloquea el acceso a los archivos, solo informa a los bots para que no los visiten. Un usuario aún puede entrar en una URL bloqueada. Para una protección real, utiliza .htaccess o la configuración del servidor.

Robots.txt y SEO: lo que debes saber

Robots.txt afecta directamente al presupuesto de rastreo (crawl budget) asignado por Google a cada sitio. El uso eficaz de robots.txt permite dirigir a los rastreadores a subpáginas importantes y evitar el desperdicio del presupuesto en URL irrelevantes.

Bloquear URL irrelevantes

Parámetros de ordenación, filtrado, sesión... bloquéalos para que los rastreadores se centren en las subpáginas de valor.

Añade siempre el Sitemap

La directiva Sitemap en robots.txt es una forma rápida de informar a todos los motores de búsqueda sobre la ubicación del sitemap.

Proteger los paneles de administración

Bloquea /admin/, /wp-admin/, /phpmyadmin/... no por seguridad, sino para no desperdiciar el presupuesto de rastreo.

Verificar en Search Console

De forma complementaria a nuestra herramienta, puedes utilizar Google Search Console, que también cuenta con una herramienta integrada para probar robots.txt; esta muestra cómo interpreta Google las reglas directamente.

Probador de Robots.txt

Comprueba el archivo robots.txt de cualquier dominio y prueba las reglas para URL específicas.

Comprobar registros DNS

Verifica la configuración DNS de tu dominio: registros A, MX, TXT y otros.