Robots.txt — guia completo do arquivo robots.txt

O arquivo robots.txt é um dos fundamentos da configuração do site para motores de busca. Apesar de sua sintaxe simples, uma configuração incorreta pode bloquear a indexação de todo o site ou revelar a estrutura sensível do serviço. Este guia levará você por tudo o que precisa saber — da sintaxe básica a técnicas avançadas e erros comuns.

Quer verificar o arquivo robots.txt do seu domínio?

Abrir testador de robots.txt

O que é o arquivo robots.txt?

Robots.txt é um arquivo de texto colocado no diretório raiz do domínio no endereço example.com/robots.txt. Ele define regras para robôs da web (crawlers), especificando quais partes do site podem ser visitadas e indexadas. Este protocolo é conhecido como REP (Robots Exclusion Protocol) e é respeitado por todos os principais motores de busca: Google, Bing, Yandex, DuckDuckGo e outros.

Importante: robots.txt é apenas uma sugestão, não um comando. Bots maliciosos podem ignorar suas regras. Ele não deve ser usado como o único mecanismo de proteção para recursos sensíveis.

Onde colocar o arquivo robots.txt?

O arquivo deve estar no diretório raiz do domínio — não no subdomínio nem no subdiretório. Disponível no endereço:

https://example.com/robots.txt ✓ Correto

https://www.example.com/robots.txt ✓ Correto

https://example.com/folder/robots.txt ✗ Incorreto

https://sub.example.com/robots.txt ✓ Robots.txt separado para subdomínio

Sintaxe básica

O arquivo robots.txt consiste em grupos de regras. Cada grupo começa com uma ou mais diretivas User-agent, seguidas pelas diretivas Allow e Disallow. Os grupos são separados por linhas vazias.

Estrutura do arquivo

# Comentário — a linha começa com #

User-agent: [nome-do-bot]

Disallow: [caminho]

Allow: [caminho]

Crawl-delay: [segundos]

User-agent: [outro-bot]

Disallow: [caminho]

Sitemap: [URL-do-sitemap]

Diretivas — lista completa

User-agent Todos

User-agent: *

Especifica o bot. * significa todos.

Disallow Todos

Disallow: /admin/

Bloqueia o acesso ao caminho e subdiretórios.

Allow Google, Bing

Allow: /public/

Permite o acesso, mesmo que o caminho pai esteja bloqueado.

Sitemap Todos

Sitemap: /sitemap.xml

Indica a localização do sitemap XML.

Crawl-delay Bing, Yandex

Crawl-delay: 10

Pausa mínima entre as solicitações do rastreador em segundos. O Google ignora.

Host Yandex

Host: example.com

Indica o domínio preferencial. Usado pelo Yandex.

Clean-param Yandex

Clean-param: sid

Informa aos bots sobre parâmetros de URL sem importância para o conteúdo.

Wildcards e padrões de caminho

O Google e o Bing suportam dois caracteres curinga especiais em caminhos:

Disallow: /*.pdf$

Corresponde a qualquer sequência de caracteres (zero ou mais).

Disallow: /search$

Corresponde ao final da URL — o caminho deve terminar exatamente neste ponto.

Exemplos de padrões

# bloqueia todo o site

Disallow: /

# bloqueia /admin/ e todos os subdiretórios

Disallow: /admin/

# bloqueia todas as URLs que terminam em .pdf

Disallow: /*.pdf$

# bloqueia todas as URLs com parâmetros de consulta

Disallow: /*?

# bloqueia apenas /search, não /search/results

Disallow: /search$

# permite subdiretório de um diretório bloqueado

Allow: /admin/public/

Prioridade das regras — o que vence?

Quando várias regras coincidem com a mesma URL, o Google aplica a regra de correspondência mais longa — vence a regra com o padrão de correspondência mais longo. Em caso de comprimento igual, Allow tem prioridade sobre Disallow.

# Regras de exemplo:

User-agent: *

Disallow: /pasta/

Allow: /pasta/público/

# Para URL /folder/privado/ → Disallow (correspondência mais longa)

# Para URL /folder/publico/ → Allow (correspondência mais longa)

# Para URL /folder/ → Disallow

Exemplos de configuração

1. Configuração básica — WordPress

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /?s=
Disallow: /tag/
Disallow: /author/

Sitemap: https://example.com/sitemap.xml

2. Loja e-commerce

User-agent: *
Disallow: /carrinho/
Disallow: /pedido/
Disallow: /minha-conta/
Disallow: /painel/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?page=
Allow: /produtos/
Allow: /categorias/

Sitemap: https://sklep.pl/sitemap.xml
Sitemap: https://sklep.pl/sitemap-produkty.xml

3. Bloqueio de bots de IA selecionados

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: *
Disallow: /admin/
Allow: /

Sitemap: https://example.com/sitemap.xml

4. Site em modo de manutenção

User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /

Crawlers conhecidos e seu User-Agent

Googlebot

Google

Googlebot

Google Images

Google

Googlebot-Image

Google AdsBot

Google

AdsBot-Google

Google Extended

Google AI

Google-Extended

Bingbot

Microsoft

bingbot

Yandex

YandexBot

DuckDuckBot

DuckDuckGo

DuckDuckBot

Baidu

Baiduspider

GPTBot

OpenAI

GPTBot

Claude

Anthropic

anthropic-ai

CCBot

Common Crawl

CCBot

SemrushBot

Semrush

SemrushBot

AhrefsBot

Ahrefs

AhrefsBot

Erros mais comuns no robots.txt

Bloqueio de todo o site

Disallow: / para todos os bots bloqueia todo o site — um dos erros de SEO mais caros. O Google informa regularmente sobre essas páginas no Search Console.

Bloqueio de páginas com noindex

Se a página tiver meta noindex, não a bloqueie no robots.txt. O rastreador precisa visitar a página para ver a diretiva noindex. Uma página bloqueada pode permanecer no índice se houver um link para ela.

Revelação da estrutura do serviço

O robots.txt é público. Ao digitar Disallow: /painel-secreto/ você informa a todos sobre a existência desse diretório. Use o robots.txt para controlar o rastreamento, não para ocultar recursos.

Falta de arquivos separados para subdomínios

O robots.txt em example.com não se aplica a blog.example.com. Cada subdomínio precisa de seu próprio arquivo robots.txt.

Bloqueio de recursos CSS e JS

O Google precisa de acesso ao CSS e JavaScript para renderizar a página e avaliar sua qualidade. Bloquear esses recursos pode prejudicar o ranking.

Confundir robots.txt com .htaccess

O robots.txt não bloqueia o acesso aos arquivos — apenas informa aos bots para não os visitarem. O usuário ainda pode acessar a URL bloqueada. Para proteção real, use .htaccess ou configuração do servidor.

Robots.txt e SEO — o que você precisa saber

O robots.txt afeta diretamente o crawl budget — orçamento de rastreamento concedido pelo Google a cada site. O uso eficaz do robots.txt permite direcionar os rastreadores para subpáginas importantes e evitar o desperdício de orçamento em URLs irrelevantes.

Bloquear URLs irrelevantes

Parâmetros de ordenação, filtragem, sessão — bloqueie-os para que os rastreadores foquem em subpáginas valiosas.

Sempre adicione Sitemap

A diretiva Sitemap no robots.txt é uma maneira rápida de informar a todos os motores de busca sobre a localização do sitemap.

Proteja painéis de administração

Bloqueie /admin/, /wp-admin/, /phpmyadmin/ — não por segurança, mas para não desperdiçar o crawl budget.

Verifique no Search Console

De forma complementar à nossa ferramenta, você pode usar o Google Search Console, que também possui uma ferramenta integrada para testar o robots.txt - ela mostra como o Google interpreta as regras diretamente.

Testador de robots.txt

Verifique o arquivo robots.txt de qualquer domínio e teste as regras para URLs específicas.

Verificar registros DNS

Verifique a configuração de DNS do seu domínio — registros A, MX, TXT e outros.