Robots.txt — kompletny przewodnik po pliku robots.txt

Plik robots.txt to jeden z fundamentów konfiguracji witryny pod kątem wyszukiwarek. Pomimo prostej składni, jego nieprawidłowa konfiguracja może zablokować indeksowanie całej strony lub ujawnić wrażliwą strukturę serwisu. Ten przewodnik przeprowadzi Cię przez wszystko co musisz wiedzieć — od podstawowej składni po zaawansowane techniki i najczęstsze błędy.

Chcesz sprawdzić plik robots.txt swojej domeny?

Otwórz tester robots.txt

Czym jest plik robots.txt?

Robots.txt to plik tekstowy umieszczany w głównym katalogu domeny pod adresem example.com/robots.txt. Definiuje reguły dla robotów internetowych (crawlerów) określając które części witryny mogą być odwiedzane i indeksowane. Protokół ten znany jest jako REP (Robots Exclusion Protocol) i jest respektowany przez wszystkie główne wyszukiwarki: Google, Bing, Yandex, DuckDuckGo i inne.

Ważne: robots.txt to tylko sugestia, nie nakaz. Złośliwe boty mogą ignorować jego reguły. Nie należy używać go jako jedynego mechanizmu ochrony wrażliwych zasobów.

Gdzie umieścić plik robots.txt?

Plik musi znajdować się w katalogu głównym domeny — nie subdomeny ani podkatalogu. Dostępny pod adresem:

https://example.com/robots.txt ✓ Poprawnie

https://www.example.com/robots.txt ✓ Poprawnie

https://example.com/folder/robots.txt ✗ Niepoprawnie

https://sub.example.com/robots.txt ✓ Osobny robots.txt dla subdomeny

Podstawowa składnia

Plik robots.txt składa się z grup reguł. Każda grupa zaczyna się od jednej lub więcej dyrektyw User-agent, po których następują dyrektywy Allow i Disallow. Grupy oddzielone są pustymi liniami.

Struktura pliku

# Komentarz — linia zaczyna się od #

User-agent: [nazwa-bota]

Disallow: [ścieżka]

Allow: [ścieżka]

Crawl-delay: [sekundy]

User-agent: [inny-bot]

Disallow: [ścieżka]

Sitemap: [URL-sitemapy]

Dyrektywy — pełna lista

User-agent Wszyscy

User-agent: *

Określa bota. * oznacza wszystkie.

Disallow Wszyscy

Disallow: /admin/

Blokuje dostęp do ścieżki i podkatalogów.

Allow Google, Bing

Allow: /public/

Zezwala na dostęp, nawet jeśli nadrzędna ścieżka jest zablokowana.

Sitemap Wszyscy

Sitemap: /sitemap.xml

Wskazuje lokalizację sitemapy XML.

Crawl-delay Bing, Yandex

Crawl-delay: 10

Minimalna pauza między żądaniami crawlera w sekundach. Google ignoruje.

Host Yandex

Host: example.com

Wskazuje preferowaną domenę. Używany przez Yandex.

Clean-param Yandex

Clean-param: sid

Informuje boty o parametrach URL bez znaczenia dla treści.

Wildcardy i wzorce ścieżek

Google i Bing obsługują dwa wildcardowe znaki specjalne w ścieżkach:

Disallow: /*.pdf$

Dopasowuje dowolny ciąg znaków (zero lub więcej).

Disallow: /search$

Dopasowuje koniec URL — ścieżka musi dokładnie kończyć się w tym miejscu.

Przykłady wzorców

# blokuje całą witrynę

Disallow: /

# blokuje /admin/ i wszystkie podkatalogi

Disallow: /admin/

# blokuje wszystkie URL kończące się .pdf

Disallow: /*.pdf$

# blokuje wszystkie URL z parametrami query

Disallow: /*?

# blokuje tylko /search, nie /search/results

Disallow: /search$

# zezwala na podkatalog zablokowanego katalogu

Allow: /admin/public/

Priorytet reguł — co wygrywa?

Gdy kilka reguł pasuje do tego samego URL, Google stosuje zasadę najdłuższego dopasowania — wygrywa reguła z najdłuższym pasującym wzorcem. W przypadku jednakowej długości Allow ma pierwszeństwo nad Disallow.

# Przykładowe reguły:

User-agent: *

Disallow: /folder/

Allow: /folder/publiczny/

# Dla URL /folder/prywatny/ → Disallow (dłuższe dopasowanie)

# Dla URL /folder/publiczny/ → Allow (dłuższe dopasowanie)

# Dla URL /folder/ → Disallow

Przykłady konfiguracji

1. Podstawowa konfiguracja — WordPress

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /?s=
Disallow: /tag/
Disallow: /author/

Sitemap: https://example.com/sitemap.xml

2. Sklep e-commerce

User-agent: *
Disallow: /koszyk/
Disallow: /zamowienie/
Disallow: /moje-konto/
Disallow: /panel/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?page=
Allow: /produkty/
Allow: /kategorie/

Sitemap: https://sklep.pl/sitemap.xml
Sitemap: https://sklep.pl/sitemap-produkty.xml

3. Blokada wybranych botów AI

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: *
Disallow: /admin/
Allow: /

Sitemap: https://example.com/sitemap.xml

4. Strona w trybie maintenance

User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /

Znani crawlerzy i ich User-Agent

Googlebot

Google

Googlebot

Google Images

Google

Googlebot-Image

Google AdsBot

Google

AdsBot-Google

Google Extended

Google AI

Google-Extended

Bingbot

Microsoft

bingbot

Yandex

YandexBot

DuckDuckBot

DuckDuckGo

DuckDuckBot

Baidu

Baiduspider

GPTBot

OpenAI

GPTBot

Claude

Anthropic

anthropic-ai

CCBot

Common Crawl

CCBot

SemrushBot

Semrush

SemrushBot

AhrefsBot

Ahrefs

AhrefsBot

Najczęstsze błędy w robots.txt

Blokada całej witryny

Disallow: / dla wszystkich botów blokuje całą stronę — jeden z najkosztowniejszych błędów SEO. Google regularnie informuje o takich stronach w Search Console.

Blokada stron z noindex

Jeśli strona ma meta noindex, nie blokuj jej w robots.txt. Crawler musi odwiedzić stronę żeby zobaczyć dyrektywę noindex. Zablokowana strona może pozostać w indeksie jeśli był do niej link.

Ujawnianie struktury serwisu

Robots.txt jest publiczny. Wpisując Disallow: /tajny-panel/ informujesz wszystkich o istnieniu tego katalogu. Używaj robots.txt do sterowania crawlingiem, nie do ukrywania zasobów.

Brak osobnych plików dla subdomen

Robots.txt na example.com nie obowiązuje dla blog.example.com. Każda subdomena potrzebuje własnego pliku robots.txt.

Blokada zasobów CSS i JS

Google potrzebuje dostępu do CSS i JavaScript żeby renderować stronę i ocenić jej jakość. Blokowanie tych zasobów może zaszkodzić rankingowi.

Pomylenie robots.txt z .htaccess

Robots.txt nie blokuje dostępu do plików — tylko informuje boty żeby ich nie odwiedzały. Użytkownik nadal może wejść na zablokowany URL. Do prawdziwej ochrony użyj .htaccess lub konfiguracji serwera.

Robots.txt a SEO — co musisz wiedzieć

Robots.txt bezpośrednio wpływa na crawl budget — budżet crawlowania przyznawany przez Google każdej witrynie. Efektywne wykorzystanie robots.txt pozwala skierować crawlery na ważne podstrony i uniknąć marnowania budżetu na nieistotne URL-e.

Blokuj nieistotne URL-e

Parametry sortowania, filtrowania, sesji — blokuj je żeby crawlery skupiały się na wartościowych podstronach.

Zawsze dodaj Sitemap

Dyrektywa Sitemap w robots.txt to szybki sposób na poinformowanie wszystkich wyszukiwarek o lokalizacji sitemapy.

Chroń panele admina

Blokuj /admin/, /wp-admin/, /phpmyadmin/ — nie dla bezpieczeństwa, ale żeby nie marnować crawl budget.

Weryfikuj w Search Console

Komplementarnie do naszego narzędzia, możesz użyć Google Search Console, który również ma wbudowane narzędzie do testowania robots.txt - Pokazują one jak Google bezpośrednio interpretuje reguły.

Tester robots.txt

Sprawdź plik robots.txt dowolnej domeny i przetestuj reguły dla konkretnych URL-i.

Sprawdź rekordy DNS

Zweryfikuj konfigurację DNS swojej domeny — rekordy A, MX, TXT i inne.