Robots.txt — kompletny przewodnik po pliku robots.txt
Plik robots.txt to jeden z fundamentów konfiguracji witryny pod kątem wyszukiwarek. Pomimo prostej składni, jego nieprawidłowa konfiguracja może zablokować indeksowanie całej strony lub ujawnić wrażliwą strukturę serwisu. Ten przewodnik przeprowadzi Cię przez wszystko co musisz wiedzieć — od podstawowej składni po zaawansowane techniki i najczęstsze błędy.
Chcesz sprawdzić plik robots.txt swojej domeny?
Otwórz tester robots.txtCzym jest plik robots.txt?
Robots.txt to plik tekstowy umieszczany w głównym katalogu domeny pod adresem example.com/robots.txt. Definiuje reguły dla robotów internetowych (crawlerów) określając które części witryny mogą być odwiedzane i indeksowane. Protokół ten znany jest jako REP (Robots Exclusion Protocol) i jest respektowany przez wszystkie główne wyszukiwarki: Google, Bing, Yandex, DuckDuckGo i inne.
Ważne: robots.txt to tylko sugestia, nie nakaz. Złośliwe boty mogą ignorować jego reguły. Nie należy używać go jako jedynego mechanizmu ochrony wrażliwych zasobów.
Gdzie umieścić plik robots.txt?
Plik musi znajdować się w katalogu głównym domeny — nie subdomeny ani podkatalogu. Dostępny pod adresem:
https://example.com/robots.txt
✓ Poprawnie
https://www.example.com/robots.txt
✓ Poprawnie
https://example.com/folder/robots.txt
✗ Niepoprawnie
https://sub.example.com/robots.txt
✓ Osobny robots.txt dla subdomeny
Podstawowa składnia
Plik robots.txt składa się z grup reguł. Każda grupa zaczyna się od jednej lub więcej dyrektyw User-agent, po których następują dyrektywy Allow i Disallow. Grupy oddzielone są pustymi liniami.
Struktura pliku
Dyrektywy — pełna lista
User-agent
Wszyscy
Określa bota. * oznacza wszystkie.
Disallow
Wszyscy
Blokuje dostęp do ścieżki i podkatalogów.
Allow
Google, Bing
Zezwala na dostęp, nawet jeśli nadrzędna ścieżka jest zablokowana.
Sitemap
Wszyscy
Wskazuje lokalizację sitemapy XML.
Crawl-delay
Bing, Yandex
Minimalna pauza między żądaniami crawlera w sekundach. Google ignoruje.
Host
Yandex
Wskazuje preferowaną domenę. Używany przez Yandex.
Clean-param
Yandex
Informuje boty o parametrach URL bez znaczenia dla treści.
Wildcardy i wzorce ścieżek
Google i Bing obsługują dwa wildcardowe znaki specjalne w ścieżkach:
Disallow: /*.pdf$
Dopasowuje dowolny ciąg znaków (zero lub więcej).
Disallow: /search$
Dopasowuje koniec URL — ścieżka musi dokładnie kończyć się w tym miejscu.
Przykłady wzorców
Priorytet reguł — co wygrywa?
Gdy kilka reguł pasuje do tego samego URL, Google stosuje zasadę najdłuższego dopasowania — wygrywa reguła z najdłuższym pasującym wzorcem. W przypadku jednakowej długości Allow ma pierwszeństwo nad Disallow.
Przykłady konfiguracji
1. Podstawowa konfiguracja — WordPress
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /?s=
Disallow: /tag/
Disallow: /author/
Sitemap: https://example.com/sitemap.xml
2. Sklep e-commerce
User-agent: *
Disallow: /koszyk/
Disallow: /zamowienie/
Disallow: /moje-konto/
Disallow: /panel/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?page=
Allow: /produkty/
Allow: /kategorie/
Sitemap: https://sklep.pl/sitemap.xml
Sitemap: https://sklep.pl/sitemap-produkty.xml
3. Blokada wybranych botów AI
User-agent: GPTBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: *
Disallow: /admin/
Allow: /
Sitemap: https://example.com/sitemap.xml
4. Strona w trybie maintenance
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
Znani crawlerzy i ich User-Agent
Googlebot
Googlebot-Image
AdsBot-Google
Google-Extended
bingbot
YandexBot
DuckDuckBot
Baiduspider
GPTBot
anthropic-ai
CCBot
SemrushBot
AhrefsBot
Najczęstsze błędy w robots.txt
Robots.txt a SEO — co musisz wiedzieć
Robots.txt bezpośrednio wpływa na crawl budget — budżet crawlowania przyznawany przez Google każdej witrynie. Efektywne wykorzystanie robots.txt pozwala skierować crawlery na ważne podstrony i uniknąć marnowania budżetu na nieistotne URL-e.