wtoolsy.com
Red, DNS, IP
Herramientas de desarrollo
SEO y análisis de páginas
Finanzas y calculadoras
Universal
Artículos

Probador de Robots.txt

Descargue y analice el archivo robots.txt, compruebe las reglas y verifique el acceso de los bots a las páginas.
Comprobar acceso a URL

Consulta nuestro artículo detallado sobre robots.txt

Abrir artículo

¿Qué es el archivo robots.txt?

El archivo robots.txt es un archivo de texto estándar ubicado en el directorio raíz del dominio en la dirección /robots.txt. Informa a los robots de los motores de búsqueda (crawlers) qué partes del sitio pueden ser indexadas y cuáles deben omitirse. Forma parte del protocolo REP (Robots Exclusion Protocol) y, aunque los rastreadores no están obligados a respetarlo, todos los principales motores de búsqueda como Google, Bing o Yandex cumplen estas reglas.

SEO

Evita la indexación de duplicados, páginas de staging, paneles de administración y otros recursos que no deberían aparecer en los resultados de búsqueda.

Presupuesto de rastreo (Crawl budget)

Limita la frecuencia de rastreo mediante Crawl-delay para no sobrecargar el servidor con los robots de búsqueda.

Mapa del sitio (Sitemap)

Indica la ubicación del sitemap XML — facilita a los motores de búsqueda descubrir todas las subpáginas del sitio.

Sintaxis del archivo robots.txt

Directiva Ejemplo Significado
User-agent User-agent: * Especifica a qué bot se aplican las reglas. * significa todos los bots.
Disallow Disallow: /admin/ Bloquea el acceso a la ruta indicada y a todos sus subdirectorios.
Allow Allow: /public/ Permite el acceso a la ruta, incluso si la superior está bloqueada.
Sitemap Sitemap: /sitemap.xml Indica la ubicación del sitemap XML para los motores de búsqueda.
Crawl-delay Crawl-delay: 10 Define el intervalo mínimo en segundos entre las solicitudes consecutivas del rastreador.
Disallow Disallow: Disallow vacío — permite el acceso a todo el sitio.
Disallow Disallow: / Bloquea el acceso a todo el sitio para un bot determinado.

Ejemplo de archivo robots.txt

# todos los bots
User-agent: *
Disallow: /admin/
Disallow: /tmp/
Disallow: /search?
Allow: /public/

# solo Googlebot
User-agent: Googlebot
Disallow: /no-google/

# bloquear Bingbot completamente
User-agent: Bingbot
Disallow: /

Sitemap: https://example.com/sitemap.xml

Preguntas frecuentes

¿Bloquea robots.txt la indexación de la página?

No del todo. Robots.txt dice a los rastreadores que no visiten ciertas direcciones, pero no garantiza que la página no aparezca en los resultados de búsqueda. Si otro sitio enlaza a la URL bloqueada, Google puede indexarla sin visitarla. Para bloquear la indexación por completo, usa la meta etiqueta noindex o el encabezado X-Robots-Tag.

¿Es robots.txt visible públicamente?

Sí — el archivo robots.txt siempre está disponible públicamente en la dirección /robots.txt. No incluyas información sensible sobre la estructura del sitio que no quieras revelar, ya que cualquiera puede leerlo.

¿Cuál es la diferencia entre Allow y Disallow?

Disallow bloquea el acceso a la ruta, Allow lo permite. Allow tiene mayor prioridad que Disallow cuando ambas reglas coinciden con la misma URL. Ejemplo: Disallow: /folder/ y Allow: /folder/publico/ — el rastreador no entrará en /folder/ pero sí en /folder/publico/.

¿Cómo comprobar si robots.txt funciona correctamente?

Usa nuestro probador de arriba — introduce el dominio o pega tu propio archivo y comprueba si una URL concreta está bloqueada para el bot seleccionado. También puedes usar Google Search Console → Herramienta de probador de robots.txt, que muestra cómo interpreta las reglas Googlebot.

¿Qué significa User-agent: *?

El asterisco * es un comodín que representa a todos los bots. Las reglas bajo User-agent: * se aplican a cualquier rastreador que no tenga su propia sección dedicada. Si un bot tiene su propia sección (ej. User-agent: Googlebot), solo aplica las reglas de esa sección, ignorando las reglas para *.

¿Es un problema la falta del archivo robots.txt?

No — la falta del archivo robots.txt significa que todos los bots pueden rastrear libremente todo el sitio. Este es el comportamiento por defecto. El problema surge cuando quieres bloquear ciertas secciones (ej. /admin/, /staging/) o indicar la ubicación del sitemap.