Probador de Robots.txt
Consulta nuestro artículo detallado sobre robots.txt
Abrir artículo¿Qué es el archivo robots.txt?
El archivo robots.txt es un archivo de texto estándar ubicado en el directorio raíz del dominio en la dirección /robots.txt. Informa a los robots de los motores de búsqueda (crawlers) qué partes del sitio pueden ser indexadas y cuáles deben omitirse. Forma parte del protocolo REP (Robots Exclusion Protocol) y, aunque los rastreadores no están obligados a respetarlo, todos los principales motores de búsqueda como Google, Bing o Yandex cumplen estas reglas.
Evita la indexación de duplicados, páginas de staging, paneles de administración y otros recursos que no deberían aparecer en los resultados de búsqueda.
Limita la frecuencia de rastreo mediante Crawl-delay para no sobrecargar el servidor con los robots de búsqueda.
Indica la ubicación del sitemap XML — facilita a los motores de búsqueda descubrir todas las subpáginas del sitio.
Sintaxis del archivo robots.txt
| Directiva | Ejemplo | Significado |
|---|---|---|
User-agent |
User-agent: * | Especifica a qué bot se aplican las reglas. * significa todos los bots. |
Disallow |
Disallow: /admin/ | Bloquea el acceso a la ruta indicada y a todos sus subdirectorios. |
Allow |
Allow: /public/ | Permite el acceso a la ruta, incluso si la superior está bloqueada. |
Sitemap |
Sitemap: /sitemap.xml | Indica la ubicación del sitemap XML para los motores de búsqueda. |
Crawl-delay |
Crawl-delay: 10 | Define el intervalo mínimo en segundos entre las solicitudes consecutivas del rastreador. |
Disallow |
Disallow: | Disallow vacío — permite el acceso a todo el sitio. |
Disallow |
Disallow: / | Bloquea el acceso a todo el sitio para un bot determinado. |
Ejemplo de archivo robots.txt
# todos los bots User-agent: * Disallow: /admin/ Disallow: /tmp/ Disallow: /search? Allow: /public/ # solo Googlebot User-agent: Googlebot Disallow: /no-google/ # bloquear Bingbot completamente User-agent: Bingbot Disallow: / Sitemap: https://example.com/sitemap.xml
Preguntas frecuentes
No del todo. Robots.txt dice a los rastreadores que no visiten ciertas direcciones, pero no garantiza que la página no aparezca en los resultados de búsqueda. Si otro sitio enlaza a la URL bloqueada, Google puede indexarla sin visitarla. Para bloquear la indexación por completo, usa la meta etiqueta noindex o el encabezado X-Robots-Tag.
Sí — el archivo robots.txt siempre está disponible públicamente en la dirección /robots.txt. No incluyas información sensible sobre la estructura del sitio que no quieras revelar, ya que cualquiera puede leerlo.
Disallow bloquea el acceso a la ruta, Allow lo permite. Allow tiene mayor prioridad que Disallow cuando ambas reglas coinciden con la misma URL. Ejemplo: Disallow: /folder/ y Allow: /folder/publico/ — el rastreador no entrará en /folder/ pero sí en /folder/publico/.
Usa nuestro probador de arriba — introduce el dominio o pega tu propio archivo y comprueba si una URL concreta está bloqueada para el bot seleccionado. También puedes usar Google Search Console → Herramienta de probador de robots.txt, que muestra cómo interpreta las reglas Googlebot.
El asterisco * es un comodín que representa a todos los bots. Las reglas bajo User-agent: * se aplican a cualquier rastreador que no tenga su propia sección dedicada. Si un bot tiene su propia sección (ej. User-agent: Googlebot), solo aplica las reglas de esa sección, ignorando las reglas para *.
No — la falta del archivo robots.txt significa que todos los bots pueden rastrear libremente todo el sitio. Este es el comportamiento por defecto. El problema surge cuando quieres bloquear ciertas secciones (ej. /admin/, /staging/) o indicar la ubicación del sitemap.