wtoolsy.com
Red, DNS, IP
Herramientas de desarrollo
SEO y análisis de páginas
Finanzas y calculadoras
Universal
Artículos
Todos los artículos

Robots.txt — guía completa del archivo robots.txt

El archivo robots.txt es uno de los fundamentos de la configuración de un sitio web para los motores de búsqueda. A pesar de su sintaxis sencilla, una configuración incorrecta puede bloquear la indexación de todo el sitio o revelar estructuras sensibles del servicio. Esta guía te llevará a través de todo lo que necesitas saber, desde la sintaxis básica hasta técnicas avanzadas y errores comunes.

¿Quieres comprobar el archivo robots.txt de tu dominio?

Abrir el probador de robots.txt

¿Qué es el archivo robots.txt?

Robots.txt es un archivo de texto que se coloca en el directorio raíz del dominio en la dirección example.com/robots.txt. Define reglas para los robots de internet (rastreadores) especificando qué partes del sitio pueden ser visitadas e indexadas. Este protocolo se conoce como REP (Robots Exclusion Protocol) y es respetado por todos los principales motores de búsqueda: Google, Bing, Yandex, DuckDuckGo y otros.

Importante: robots.txt es solo una sugerencia, no un mandato. Los bots maliciosos pueden ignorar sus reglas. No debe utilizarse como el único mecanismo de protección de recursos sensibles.

¿Dónde colocar el archivo robots.txt?

El archivo debe estar en el directorio raíz del dominio, no en un subdominio ni en un subdirectorio. Disponible en la dirección:

https://example.com/robots.txt ✓ Correcto
https://www.example.com/robots.txt ✓ Correcto
https://example.com/folder/robots.txt ✗ Incorrecto
https://sub.example.com/robots.txt ✓ Robots.txt independiente para el subdominio

Sintaxis básica

El archivo robots.txt consta de grupos de reglas. Cada grupo comienza con una o más directivas User-agent, seguidas de las directivas Allow y Disallow. Los grupos están separados por líneas vacías.

Estructura del archivo

# Comentario: la línea comienza con #
User-agent: [nombre-del-bot]
Disallow: [ruta]
Allow: [ruta]
Crawl-delay: [segundos]
User-agent: [otro-bot]
Disallow: [ruta]
Sitemap: [URL-del-sitemap]

Directivas: lista completa

User-agent Todos
User-agent: *

Especifica el bot. * significa todos.

Disallow Todos
Disallow: /admin/

Bloquea el acceso a la ruta y a los subdirectorios.

Allow Google, Bing
Allow: /public/

Permite el acceso, incluso si la ruta superior está bloqueada.

Sitemap Todos
Sitemap: /sitemap.xml

Indica la ubicación del sitemap XML.

Crawl-delay Bing, Yandex
Crawl-delay: 10

Pausa mínima entre las solicitudes del rastreador en segundos. Google lo ignora.

Host Yandex
Host: example.com

Indica el dominio preferido. Utilizado por Yandex.

Clean-param Yandex
Clean-param: sid

Informa a los bots sobre parámetros de URL sin importancia para el contenido.

Comodines y patrones de ruta

Google y Bing admiten dos caracteres especiales de comodín en las rutas:

*
Disallow: /*.pdf$

Coincide con cualquier cadena de caracteres (cero o más).

$
Disallow: /search$

Coincide con el final de la URL: la ruta debe terminar exactamente en ese punto.

Ejemplos de patrones

# bloquea todo el sitio
Disallow: /
# bloquea /admin/ y todos los subdirectorios
Disallow: /admin/
# bloquea todas las URL que terminan en .pdf
Disallow: /*.pdf$
# bloquea todas las URL con parámetros de consulta
Disallow: /*?
# bloquea solo /search, no /search/results
Disallow: /search$
# permite un subdirectorio de un directorio bloqueado
Allow: /admin/public/

Prioridad de las reglas: ¿cuál gana?

Cuando varias reglas coinciden con la misma URL, Google aplica la regla de la coincidencia más larga: gana la regla con el patrón coincidente más largo. En caso de igual longitud, Allow tiene prioridad sobre Disallow.

# Reglas de ejemplo:
User-agent: *
Disallow: /carpeta/
Allow: /carpeta/público/
# Para la URL /folder/privado/ → Disallow (coincidencia más larga)
# Para la URL /folder/publico/ → Allow (coincidencia más larga)
# Para la URL /folder/ → Disallow

Ejemplos de configuración

1. Configuración básica — WordPress

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /?s=
Disallow: /tag/
Disallow: /author/

Sitemap: https://example.com/sitemap.xml

2. Tienda de comercio electrónico

User-agent: *
Disallow: /carrito/
Disallow: /pedido/
Disallow: /mi-cuenta/
Disallow: /panel/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?page=
Allow: /productos/
Allow: /categorías/

Sitemap: https://sklep.pl/sitemap.xml
Sitemap: https://sklep.pl/sitemap-produkty.xml

3. Bloqueo de bots de IA seleccionados

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: *
Disallow: /admin/
Allow: /

Sitemap: https://example.com/sitemap.xml

4. Sitio en modo de mantenimiento

User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /

Rastreadores conocidos y su User-Agent

Googlebot
Google
Googlebot
Google Images
Google
Googlebot-Image
Google AdsBot
Google
AdsBot-Google
Google Extended
Google AI
Google-Extended
Bingbot
Microsoft
bingbot
Yandex
Yandex
YandexBot
DuckDuckBot
DuckDuckGo
DuckDuckBot
Baidu
Baidu
Baiduspider
GPTBot
OpenAI
GPTBot
Claude
Anthropic
anthropic-ai
CCBot
Common Crawl
CCBot
SemrushBot
Semrush
SemrushBot
AhrefsBot
Ahrefs
AhrefsBot

Errores más comunes en robots.txt

Bloqueo de todo el sitio
Disallow: / para todos los bots bloquea todo el sitio, uno de los errores de SEO más costosos. Google informa regularmente sobre estos sitios en Search Console.
Bloqueo de páginas con noindex
Si una página tiene la metaetiqueta noindex, no la bloquees en robots.txt. El rastreador debe visitar la página para ver la directiva noindex. Una página bloqueada puede permanecer en el índice si hay un enlace hacia ella.
Revelar la estructura del servicio
Robots.txt es público. Al escribir Disallow: /panel-secreto/ informas a todos de la existencia de ese directorio. Utiliza robots.txt para controlar el rastreo, no para ocultar recursos.
Falta de archivos independientes para subdominios
El archivo robots.txt en example.com no se aplica a blog.example.com. Cada subdominio necesita su propio archivo robots.txt.
Bloqueo de recursos CSS y JS
Google necesita acceso a CSS y JavaScript para renderizar la página y evaluar su calidad. Bloquear estos recursos puede perjudicar el ranking.
Confundir robots.txt con .htaccess
Robots.txt no bloquea el acceso a los archivos, solo informa a los bots para que no los visiten. Un usuario aún puede entrar en una URL bloqueada. Para una protección real, utiliza .htaccess o la configuración del servidor.

Robots.txt y SEO: lo que debes saber

Robots.txt afecta directamente al presupuesto de rastreo (crawl budget) asignado por Google a cada sitio. El uso eficaz de robots.txt permite dirigir a los rastreadores a subpáginas importantes y evitar el desperdicio del presupuesto en URL irrelevantes.

Bloquear URL irrelevantes
Parámetros de ordenación, filtrado, sesión... bloquéalos para que los rastreadores se centren en las subpáginas de valor.
Añade siempre el Sitemap
La directiva Sitemap en robots.txt es una forma rápida de informar a todos los motores de búsqueda sobre la ubicación del sitemap.
Proteger los paneles de administración
Bloquea /admin/, /wp-admin/, /phpmyadmin/... no por seguridad, sino para no desperdiciar el presupuesto de rastreo.
Verificar en Search Console
De forma complementaria a nuestra herramienta, puedes utilizar Google Search Console, que también cuenta con una herramienta integrada para probar robots.txt; esta muestra cómo interpreta Google las reglas directamente.