Robots.txt — guía completa del archivo robots.txt
El archivo robots.txt es uno de los fundamentos de la configuración de un sitio web para los motores de búsqueda. A pesar de su sintaxis sencilla, una configuración incorrecta puede bloquear la indexación de todo el sitio o revelar estructuras sensibles del servicio. Esta guía te llevará a través de todo lo que necesitas saber, desde la sintaxis básica hasta técnicas avanzadas y errores comunes.
¿Quieres comprobar el archivo robots.txt de tu dominio?
Abrir el probador de robots.txt¿Qué es el archivo robots.txt?
Robots.txt es un archivo de texto que se coloca en el directorio raíz del dominio en la dirección example.com/robots.txt. Define reglas para los robots de internet (rastreadores) especificando qué partes del sitio pueden ser visitadas e indexadas. Este protocolo se conoce como REP (Robots Exclusion Protocol) y es respetado por todos los principales motores de búsqueda: Google, Bing, Yandex, DuckDuckGo y otros.
Importante: robots.txt es solo una sugerencia, no un mandato. Los bots maliciosos pueden ignorar sus reglas. No debe utilizarse como el único mecanismo de protección de recursos sensibles.
¿Dónde colocar el archivo robots.txt?
El archivo debe estar en el directorio raíz del dominio, no en un subdominio ni en un subdirectorio. Disponible en la dirección:
https://example.com/robots.txt
✓ Correcto
https://www.example.com/robots.txt
✓ Correcto
https://example.com/folder/robots.txt
✗ Incorrecto
https://sub.example.com/robots.txt
✓ Robots.txt independiente para el subdominio
Sintaxis básica
El archivo robots.txt consta de grupos de reglas. Cada grupo comienza con una o más directivas User-agent, seguidas de las directivas Allow y Disallow. Los grupos están separados por líneas vacías.
Estructura del archivo
Directivas: lista completa
User-agent
Todos
Especifica el bot. * significa todos.
Disallow
Todos
Bloquea el acceso a la ruta y a los subdirectorios.
Allow
Google, Bing
Permite el acceso, incluso si la ruta superior está bloqueada.
Sitemap
Todos
Indica la ubicación del sitemap XML.
Crawl-delay
Bing, Yandex
Pausa mínima entre las solicitudes del rastreador en segundos. Google lo ignora.
Host
Yandex
Indica el dominio preferido. Utilizado por Yandex.
Clean-param
Yandex
Informa a los bots sobre parámetros de URL sin importancia para el contenido.
Comodines y patrones de ruta
Google y Bing admiten dos caracteres especiales de comodín en las rutas:
Disallow: /*.pdf$
Coincide con cualquier cadena de caracteres (cero o más).
Disallow: /search$
Coincide con el final de la URL: la ruta debe terminar exactamente en ese punto.
Ejemplos de patrones
Prioridad de las reglas: ¿cuál gana?
Cuando varias reglas coinciden con la misma URL, Google aplica la regla de la coincidencia más larga: gana la regla con el patrón coincidente más largo. En caso de igual longitud, Allow tiene prioridad sobre Disallow.
Ejemplos de configuración
1. Configuración básica — WordPress
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /?s=
Disallow: /tag/
Disallow: /author/
Sitemap: https://example.com/sitemap.xml
2. Tienda de comercio electrónico
User-agent: *
Disallow: /carrito/
Disallow: /pedido/
Disallow: /mi-cuenta/
Disallow: /panel/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?page=
Allow: /productos/
Allow: /categorías/
Sitemap: https://sklep.pl/sitemap.xml
Sitemap: https://sklep.pl/sitemap-produkty.xml
3. Bloqueo de bots de IA seleccionados
User-agent: GPTBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: *
Disallow: /admin/
Allow: /
Sitemap: https://example.com/sitemap.xml
4. Sitio en modo de mantenimiento
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
Rastreadores conocidos y su User-Agent
Googlebot
Googlebot-Image
AdsBot-Google
Google-Extended
bingbot
YandexBot
DuckDuckBot
Baiduspider
GPTBot
anthropic-ai
CCBot
SemrushBot
AhrefsBot
Errores más comunes en robots.txt
Robots.txt y SEO: lo que debes saber
Robots.txt afecta directamente al presupuesto de rastreo (crawl budget) asignado por Google a cada sitio. El uso eficaz de robots.txt permite dirigir a los rastreadores a subpáginas importantes y evitar el desperdicio del presupuesto en URL irrelevantes.