Robots.txt — guia completo do arquivo robots.txt
O arquivo robots.txt é um dos fundamentos da configuração do site para motores de busca. Apesar de sua sintaxe simples, uma configuração incorreta pode bloquear a indexação de todo o site ou revelar a estrutura sensível do serviço. Este guia levará você por tudo o que precisa saber — da sintaxe básica a técnicas avançadas e erros comuns.
Quer verificar o arquivo robots.txt do seu domínio?
Abrir testador de robots.txtO que é o arquivo robots.txt?
Robots.txt é um arquivo de texto colocado no diretório raiz do domínio no endereço example.com/robots.txt. Ele define regras para robôs da web (crawlers), especificando quais partes do site podem ser visitadas e indexadas. Este protocolo é conhecido como REP (Robots Exclusion Protocol) e é respeitado por todos os principais motores de busca: Google, Bing, Yandex, DuckDuckGo e outros.
Importante: robots.txt é apenas uma sugestão, não um comando. Bots maliciosos podem ignorar suas regras. Ele não deve ser usado como o único mecanismo de proteção para recursos sensíveis.
Onde colocar o arquivo robots.txt?
O arquivo deve estar no diretório raiz do domínio — não no subdomínio nem no subdiretório. Disponível no endereço:
https://example.com/robots.txt
✓ Correto
https://www.example.com/robots.txt
✓ Correto
https://example.com/folder/robots.txt
✗ Incorreto
https://sub.example.com/robots.txt
✓ Robots.txt separado para subdomínio
Sintaxe básica
O arquivo robots.txt consiste em grupos de regras. Cada grupo começa com uma ou mais diretivas User-agent, seguidas pelas diretivas Allow e Disallow. Os grupos são separados por linhas vazias.
Estrutura do arquivo
Diretivas — lista completa
User-agent
Todos
Especifica o bot. * significa todos.
Disallow
Todos
Bloqueia o acesso ao caminho e subdiretórios.
Allow
Google, Bing
Permite o acesso, mesmo que o caminho pai esteja bloqueado.
Sitemap
Todos
Indica a localização do sitemap XML.
Crawl-delay
Bing, Yandex
Pausa mínima entre as solicitações do rastreador em segundos. O Google ignora.
Host
Yandex
Indica o domínio preferencial. Usado pelo Yandex.
Clean-param
Yandex
Informa aos bots sobre parâmetros de URL sem importância para o conteúdo.
Wildcards e padrões de caminho
O Google e o Bing suportam dois caracteres curinga especiais em caminhos:
Disallow: /*.pdf$
Corresponde a qualquer sequência de caracteres (zero ou mais).
Disallow: /search$
Corresponde ao final da URL — o caminho deve terminar exatamente neste ponto.
Exemplos de padrões
Prioridade das regras — o que vence?
Quando várias regras coincidem com a mesma URL, o Google aplica a regra de correspondência mais longa — vence a regra com o padrão de correspondência mais longo. Em caso de comprimento igual, Allow tem prioridade sobre Disallow.
Exemplos de configuração
1. Configuração básica — WordPress
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /?s=
Disallow: /tag/
Disallow: /author/
Sitemap: https://example.com/sitemap.xml
2. Loja e-commerce
User-agent: *
Disallow: /carrinho/
Disallow: /pedido/
Disallow: /minha-conta/
Disallow: /painel/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?page=
Allow: /produtos/
Allow: /categorias/
Sitemap: https://sklep.pl/sitemap.xml
Sitemap: https://sklep.pl/sitemap-produkty.xml
3. Bloqueio de bots de IA selecionados
User-agent: GPTBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: *
Disallow: /admin/
Allow: /
Sitemap: https://example.com/sitemap.xml
4. Site em modo de manutenção
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
Crawlers conhecidos e seu User-Agent
Googlebot
Googlebot-Image
AdsBot-Google
Google-Extended
bingbot
YandexBot
DuckDuckBot
Baiduspider
GPTBot
anthropic-ai
CCBot
SemrushBot
AhrefsBot
Erros mais comuns no robots.txt
Robots.txt e SEO — o que você precisa saber
O robots.txt afeta diretamente o crawl budget — orçamento de rastreamento concedido pelo Google a cada site. O uso eficaz do robots.txt permite direcionar os rastreadores para subpáginas importantes e evitar o desperdício de orçamento em URLs irrelevantes.