wtoolsy.com
Rede, DNS, IP
Ferramentas de desenvolvedor
SEO e análise de sites
Finanças e calculadoras
Universal
Artigos
Todos os artigos

Robots.txt — guia completo do arquivo robots.txt

O arquivo robots.txt é um dos fundamentos da configuração do site para motores de busca. Apesar de sua sintaxe simples, uma configuração incorreta pode bloquear a indexação de todo o site ou revelar a estrutura sensível do serviço. Este guia levará você por tudo o que precisa saber — da sintaxe básica a técnicas avançadas e erros comuns.

Quer verificar o arquivo robots.txt do seu domínio?

Abrir testador de robots.txt

O que é o arquivo robots.txt?

Robots.txt é um arquivo de texto colocado no diretório raiz do domínio no endereço example.com/robots.txt. Ele define regras para robôs da web (crawlers), especificando quais partes do site podem ser visitadas e indexadas. Este protocolo é conhecido como REP (Robots Exclusion Protocol) e é respeitado por todos os principais motores de busca: Google, Bing, Yandex, DuckDuckGo e outros.

Importante: robots.txt é apenas uma sugestão, não um comando. Bots maliciosos podem ignorar suas regras. Ele não deve ser usado como o único mecanismo de proteção para recursos sensíveis.

Onde colocar o arquivo robots.txt?

O arquivo deve estar no diretório raiz do domínio — não no subdomínio nem no subdiretório. Disponível no endereço:

https://example.com/robots.txt ✓ Correto
https://www.example.com/robots.txt ✓ Correto
https://example.com/folder/robots.txt ✗ Incorreto
https://sub.example.com/robots.txt ✓ Robots.txt separado para subdomínio

Sintaxe básica

O arquivo robots.txt consiste em grupos de regras. Cada grupo começa com uma ou mais diretivas User-agent, seguidas pelas diretivas Allow e Disallow. Os grupos são separados por linhas vazias.

Estrutura do arquivo

# Comentário — a linha começa com #
User-agent: [nome-do-bot]
Disallow: [caminho]
Allow: [caminho]
Crawl-delay: [segundos]
User-agent: [outro-bot]
Disallow: [caminho]
Sitemap: [URL-do-sitemap]

Diretivas — lista completa

User-agent Todos
User-agent: *

Especifica o bot. * significa todos.

Disallow Todos
Disallow: /admin/

Bloqueia o acesso ao caminho e subdiretórios.

Allow Google, Bing
Allow: /public/

Permite o acesso, mesmo que o caminho pai esteja bloqueado.

Sitemap Todos
Sitemap: /sitemap.xml

Indica a localização do sitemap XML.

Crawl-delay Bing, Yandex
Crawl-delay: 10

Pausa mínima entre as solicitações do rastreador em segundos. O Google ignora.

Host Yandex
Host: example.com

Indica o domínio preferencial. Usado pelo Yandex.

Clean-param Yandex
Clean-param: sid

Informa aos bots sobre parâmetros de URL sem importância para o conteúdo.

Wildcards e padrões de caminho

O Google e o Bing suportam dois caracteres curinga especiais em caminhos:

*
Disallow: /*.pdf$

Corresponde a qualquer sequência de caracteres (zero ou mais).

$
Disallow: /search$

Corresponde ao final da URL — o caminho deve terminar exatamente neste ponto.

Exemplos de padrões

# bloqueia todo o site
Disallow: /
# bloqueia /admin/ e todos os subdiretórios
Disallow: /admin/
# bloqueia todas as URLs que terminam em .pdf
Disallow: /*.pdf$
# bloqueia todas as URLs com parâmetros de consulta
Disallow: /*?
# bloqueia apenas /search, não /search/results
Disallow: /search$
# permite subdiretório de um diretório bloqueado
Allow: /admin/public/

Prioridade das regras — o que vence?

Quando várias regras coincidem com a mesma URL, o Google aplica a regra de correspondência mais longa — vence a regra com o padrão de correspondência mais longo. Em caso de comprimento igual, Allow tem prioridade sobre Disallow.

# Regras de exemplo:
User-agent: *
Disallow: /pasta/
Allow: /pasta/público/
# Para URL /folder/privado/ → Disallow (correspondência mais longa)
# Para URL /folder/publico/ → Allow (correspondência mais longa)
# Para URL /folder/ → Disallow

Exemplos de configuração

1. Configuração básica — WordPress

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /?s=
Disallow: /tag/
Disallow: /author/

Sitemap: https://example.com/sitemap.xml

2. Loja e-commerce

User-agent: *
Disallow: /carrinho/
Disallow: /pedido/
Disallow: /minha-conta/
Disallow: /painel/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?page=
Allow: /produtos/
Allow: /categorias/

Sitemap: https://sklep.pl/sitemap.xml
Sitemap: https://sklep.pl/sitemap-produkty.xml

3. Bloqueio de bots de IA selecionados

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: *
Disallow: /admin/
Allow: /

Sitemap: https://example.com/sitemap.xml

4. Site em modo de manutenção

User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /

Crawlers conhecidos e seu User-Agent

Googlebot
Google
Googlebot
Google Images
Google
Googlebot-Image
Google AdsBot
Google
AdsBot-Google
Google Extended
Google AI
Google-Extended
Bingbot
Microsoft
bingbot
Yandex
Yandex
YandexBot
DuckDuckBot
DuckDuckGo
DuckDuckBot
Baidu
Baidu
Baiduspider
GPTBot
OpenAI
GPTBot
Claude
Anthropic
anthropic-ai
CCBot
Common Crawl
CCBot
SemrushBot
Semrush
SemrushBot
AhrefsBot
Ahrefs
AhrefsBot

Erros mais comuns no robots.txt

Bloqueio de todo o site
Disallow: / para todos os bots bloqueia todo o site — um dos erros de SEO mais caros. O Google informa regularmente sobre essas páginas no Search Console.
Bloqueio de páginas com noindex
Se a página tiver meta noindex, não a bloqueie no robots.txt. O rastreador precisa visitar a página para ver a diretiva noindex. Uma página bloqueada pode permanecer no índice se houver um link para ela.
Revelação da estrutura do serviço
O robots.txt é público. Ao digitar Disallow: /painel-secreto/ você informa a todos sobre a existência desse diretório. Use o robots.txt para controlar o rastreamento, não para ocultar recursos.
Falta de arquivos separados para subdomínios
O robots.txt em example.com não se aplica a blog.example.com. Cada subdomínio precisa de seu próprio arquivo robots.txt.
Bloqueio de recursos CSS e JS
O Google precisa de acesso ao CSS e JavaScript para renderizar a página e avaliar sua qualidade. Bloquear esses recursos pode prejudicar o ranking.
Confundir robots.txt com .htaccess
O robots.txt não bloqueia o acesso aos arquivos — apenas informa aos bots para não os visitarem. O usuário ainda pode acessar a URL bloqueada. Para proteção real, use .htaccess ou configuração do servidor.

Robots.txt e SEO — o que você precisa saber

O robots.txt afeta diretamente o crawl budget — orçamento de rastreamento concedido pelo Google a cada site. O uso eficaz do robots.txt permite direcionar os rastreadores para subpáginas importantes e evitar o desperdício de orçamento em URLs irrelevantes.

Bloquear URLs irrelevantes
Parâmetros de ordenação, filtragem, sessão — bloqueie-os para que os rastreadores foquem em subpáginas valiosas.
Sempre adicione Sitemap
A diretiva Sitemap no robots.txt é uma maneira rápida de informar a todos os motores de busca sobre a localização do sitemap.
Proteja painéis de administração
Bloqueie /admin/, /wp-admin/, /phpmyadmin/ — não por segurança, mas para não desperdiçar o crawl budget.
Verifique no Search Console
De forma complementar à nossa ferramenta, você pode usar o Google Search Console, que também possui uma ferramenta integrada para testar o robots.txt - ela mostra como o Google interpreta as regras diretamente.