wtoolsy.com
Sieć, DNS, IP
Narzędzia developerskie
SEO i analiza stron
Finanse i kalkulatory
Uniwersalne
Artykuły
Wszystkie artykuły

Robots.txt — kompletny przewodnik po pliku robots.txt

Plik robots.txt to jeden z fundamentów konfiguracji witryny pod kątem wyszukiwarek. Pomimo prostej składni, jego nieprawidłowa konfiguracja może zablokować indeksowanie całej strony lub ujawnić wrażliwą strukturę serwisu. Ten przewodnik przeprowadzi Cię przez wszystko co musisz wiedzieć — od podstawowej składni po zaawansowane techniki i najczęstsze błędy.

Chcesz sprawdzić plik robots.txt swojej domeny?

Otwórz tester robots.txt

Czym jest plik robots.txt?

Robots.txt to plik tekstowy umieszczany w głównym katalogu domeny pod adresem example.com/robots.txt. Definiuje reguły dla robotów internetowych (crawlerów) określając które części witryny mogą być odwiedzane i indeksowane. Protokół ten znany jest jako REP (Robots Exclusion Protocol) i jest respektowany przez wszystkie główne wyszukiwarki: Google, Bing, Yandex, DuckDuckGo i inne.

Ważne: robots.txt to tylko sugestia, nie nakaz. Złośliwe boty mogą ignorować jego reguły. Nie należy używać go jako jedynego mechanizmu ochrony wrażliwych zasobów.

Gdzie umieścić plik robots.txt?

Plik musi znajdować się w katalogu głównym domeny — nie subdomeny ani podkatalogu. Dostępny pod adresem:

https://example.com/robots.txt ✓ Poprawnie
https://www.example.com/robots.txt ✓ Poprawnie
https://example.com/folder/robots.txt ✗ Niepoprawnie
https://sub.example.com/robots.txt ✓ Osobny robots.txt dla subdomeny

Podstawowa składnia

Plik robots.txt składa się z grup reguł. Każda grupa zaczyna się od jednej lub więcej dyrektyw User-agent, po których następują dyrektywy Allow i Disallow. Grupy oddzielone są pustymi liniami.

Struktura pliku

# Komentarz — linia zaczyna się od #
User-agent: [nazwa-bota]
Disallow: [ścieżka]
Allow: [ścieżka]
Crawl-delay: [sekundy]
User-agent: [inny-bot]
Disallow: [ścieżka]
Sitemap: [URL-sitemapy]

Dyrektywy — pełna lista

User-agent Wszyscy
User-agent: *

Określa bota. * oznacza wszystkie.

Disallow Wszyscy
Disallow: /admin/

Blokuje dostęp do ścieżki i podkatalogów.

Allow Google, Bing
Allow: /public/

Zezwala na dostęp, nawet jeśli nadrzędna ścieżka jest zablokowana.

Sitemap Wszyscy
Sitemap: /sitemap.xml

Wskazuje lokalizację sitemapy XML.

Crawl-delay Bing, Yandex
Crawl-delay: 10

Minimalna pauza między żądaniami crawlera w sekundach. Google ignoruje.

Host Yandex
Host: example.com

Wskazuje preferowaną domenę. Używany przez Yandex.

Clean-param Yandex
Clean-param: sid

Informuje boty o parametrach URL bez znaczenia dla treści.

Wildcardy i wzorce ścieżek

Google i Bing obsługują dwa wildcardowe znaki specjalne w ścieżkach:

*
Disallow: /*.pdf$

Dopasowuje dowolny ciąg znaków (zero lub więcej).

$
Disallow: /search$

Dopasowuje koniec URL — ścieżka musi dokładnie kończyć się w tym miejscu.

Przykłady wzorców

# blokuje całą witrynę
Disallow: /
# blokuje /admin/ i wszystkie podkatalogi
Disallow: /admin/
# blokuje wszystkie URL kończące się .pdf
Disallow: /*.pdf$
# blokuje wszystkie URL z parametrami query
Disallow: /*?
# blokuje tylko /search, nie /search/results
Disallow: /search$
# zezwala na podkatalog zablokowanego katalogu
Allow: /admin/public/

Priorytet reguł — co wygrywa?

Gdy kilka reguł pasuje do tego samego URL, Google stosuje zasadę najdłuższego dopasowania — wygrywa reguła z najdłuższym pasującym wzorcem. W przypadku jednakowej długości Allow ma pierwszeństwo nad Disallow.

# Przykładowe reguły:
User-agent: *
Disallow: /folder/
Allow: /folder/publiczny/
# Dla URL /folder/prywatny/ → Disallow (dłuższe dopasowanie)
# Dla URL /folder/publiczny/ → Allow (dłuższe dopasowanie)
# Dla URL /folder/ → Disallow

Przykłady konfiguracji

1. Podstawowa konfiguracja — WordPress

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /?s=
Disallow: /tag/
Disallow: /author/

Sitemap: https://example.com/sitemap.xml

2. Sklep e-commerce

User-agent: *
Disallow: /koszyk/
Disallow: /zamowienie/
Disallow: /moje-konto/
Disallow: /panel/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?page=
Allow: /produkty/
Allow: /kategorie/

Sitemap: https://sklep.pl/sitemap.xml
Sitemap: https://sklep.pl/sitemap-produkty.xml

3. Blokada wybranych botów AI

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: *
Disallow: /admin/
Allow: /

Sitemap: https://example.com/sitemap.xml

4. Strona w trybie maintenance

User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /

Znani crawlerzy i ich User-Agent

Googlebot
Google
Googlebot
Google Images
Google
Googlebot-Image
Google AdsBot
Google
AdsBot-Google
Google Extended
Google AI
Google-Extended
Bingbot
Microsoft
bingbot
Yandex
Yandex
YandexBot
DuckDuckBot
DuckDuckGo
DuckDuckBot
Baidu
Baidu
Baiduspider
GPTBot
OpenAI
GPTBot
Claude
Anthropic
anthropic-ai
CCBot
Common Crawl
CCBot
SemrushBot
Semrush
SemrushBot
AhrefsBot
Ahrefs
AhrefsBot

Najczęstsze błędy w robots.txt

Blokada całej witryny
Disallow: / dla wszystkich botów blokuje całą stronę — jeden z najkosztowniejszych błędów SEO. Google regularnie informuje o takich stronach w Search Console.
Blokada stron z noindex
Jeśli strona ma meta noindex, nie blokuj jej w robots.txt. Crawler musi odwiedzić stronę żeby zobaczyć dyrektywę noindex. Zablokowana strona może pozostać w indeksie jeśli był do niej link.
Ujawnianie struktury serwisu
Robots.txt jest publiczny. Wpisując Disallow: /tajny-panel/ informujesz wszystkich o istnieniu tego katalogu. Używaj robots.txt do sterowania crawlingiem, nie do ukrywania zasobów.
Brak osobnych plików dla subdomen
Robots.txt na example.com nie obowiązuje dla blog.example.com. Każda subdomena potrzebuje własnego pliku robots.txt.
Blokada zasobów CSS i JS
Google potrzebuje dostępu do CSS i JavaScript żeby renderować stronę i ocenić jej jakość. Blokowanie tych zasobów może zaszkodzić rankingowi.
Pomylenie robots.txt z .htaccess
Robots.txt nie blokuje dostępu do plików — tylko informuje boty żeby ich nie odwiedzały. Użytkownik nadal może wejść na zablokowany URL. Do prawdziwej ochrony użyj .htaccess lub konfiguracji serwera.

Robots.txt a SEO — co musisz wiedzieć

Robots.txt bezpośrednio wpływa na crawl budget — budżet crawlowania przyznawany przez Google każdej witrynie. Efektywne wykorzystanie robots.txt pozwala skierować crawlery na ważne podstrony i uniknąć marnowania budżetu na nieistotne URL-e.

Blokuj nieistotne URL-e
Parametry sortowania, filtrowania, sesji — blokuj je żeby crawlery skupiały się na wartościowych podstronach.
Zawsze dodaj Sitemap
Dyrektywa Sitemap w robots.txt to szybki sposób na poinformowanie wszystkich wyszukiwarek o lokalizacji sitemapy.
Chroń panele admina
Blokuj /admin/, /wp-admin/, /phpmyadmin/ — nie dla bezpieczeństwa, ale żeby nie marnować crawl budget.
Weryfikuj w Search Console
Komplementarnie do naszego narzędzia, możesz użyć Google Search Console, który również ma wbudowane narzędzie do testowania robots.txt - Pokazują one jak Google bezpośrednio interpretuje reguły.