Robots.txt — Ein kompletter Leitfaden zur robots.txt-Datei
Die robots.txt-Datei ist eines der Fundamente der Website-Konfiguration für Suchmaschinen. Trotz ihrer einfachen Syntax kann eine falsche Konfiguration die Indexierung der gesamten Seite blockieren oder sensible Strukturen des Dienstes offenlegen. Dieser Leitfaden führt Sie durch alles, was Sie wissen müssen — von der Basissyntax bis hin zu fortgeschrittenen Techniken und häufigen Fehlern.
Möchten Sie die robots.txt-Datei Ihrer Domain überprüfen?
Robots.txt-Tester öffnenWas ist eine robots.txt-Datei?
Robots.txt ist eine Textdatei, die im Hauptverzeichnis der Domain unter example.com/robots.txt platziert wird. Sie definiert Regeln für Web-Roboter (Crawler) und legt fest, welche Teile der Website besucht und indexiert werden dürfen. Dieses Protokoll ist als REP (Robots Exclusion Protocol) bekannt und wird von allen großen Suchmaschinen wie Google, Bing, Yandex, DuckDuckGo und anderen respektiert.
Wichtig: Die robots.txt ist nur eine Empfehlung, keine Vorschrift. Bösartige Bots können ihre Regeln ignorieren. Sie sollte nicht als einziger Mechanismus zum Schutz sensibler Ressourcen verwendet werden.
Wo platziert man die robots.txt-Datei?
Die Datei muss sich im Hauptverzeichnis der Domain befinden — nicht in einer Subdomain oder einem Unterverzeichnis. Erreichbar unter:
https://example.com/robots.txt
✓ Richtig
https://www.example.com/robots.txt
✓ Richtig
https://example.com/folder/robots.txt
✗ Falsch
https://sub.example.com/robots.txt
✓ Separate robots.txt für Subdomain
Basissyntax
Die robots.txt-Datei besteht aus Regelgruppen. Jede Gruppe beginnt mit einer oder mehreren User-Agent-Direktiven, gefolgt von Allow- und Disallow-Direktiven. Gruppen sind durch Leerzeilen getrennt.
Dateistruktur
Direktiven — Vollständige Liste
User-agent
Alle
Bestimmt den Bot. * steht für alle.
Disallow
Alle
Blockiert den Zugriff auf den Pfad und Unterverzeichnisse.
Allow
Google, Bing
Erlaubt den Zugriff, selbst wenn der übergeordnete Pfad blockiert ist.
Sitemap
Alle
Gibt den Speicherort der XML-Sitemap an.
Crawl-delay
Bing, Yandex
Mindestpause zwischen Crawler-Anfragen in Sekunden. Google ignoriert dies.
Host
Yandex
Gibt die bevorzugte Domain an. Wird von Yandex verwendet.
Clean-param
Yandex
Informiert Bots über URL-Parameter ohne Bedeutung für den Inhalt.
Wildcards und Pfadmuster
Google und Bing unterstützen zwei spezielle Wildcard-Zeichen in Pfaden:
Disallow: /*.pdf$
Entspricht einer beliebigen Zeichenfolge (null oder mehr).
Disallow: /search$
Entspricht dem Ende der URL — der Pfad muss genau an dieser Stelle enden.
Musterbeispiele
Regelpriorität — was gewinnt?
Wenn mehrere Regeln auf dieselbe URL passen, wendet Google die Regel der längsten Übereinstimmung an — es gewinnt die Regel mit dem längsten passenden Muster. Bei gleicher Länge hat Allow Vorrang vor Disallow.
Konfigurationsbeispiele
1. Basiskonfiguration — WordPress
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /?s=
Disallow: /tag/
Disallow: /author/
Sitemap: https://example.com/sitemap.xml
2. E-Commerce-Shop
User-agent: *
Disallow: /warenkorb/
Disallow: /bestellung/
Disallow: /mein-konto/
Disallow: /dashboard/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?page=
Allow: /produkte/
Allow: /kategorien/
Sitemap: https://sklep.pl/sitemap.xml
Sitemap: https://sklep.pl/sitemap-produkty.xml
3. Blockierung ausgewählter KI-Bots
User-agent: GPTBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: *
Disallow: /admin/
Allow: /
Sitemap: https://example.com/sitemap.xml
4. Seite im Wartungsmodus
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
Bekannte Crawler und ihre User-Agents
Googlebot
Googlebot-Image
AdsBot-Google
Google-Extended
bingbot
YandexBot
DuckDuckBot
Baiduspider
GPTBot
anthropic-ai
CCBot
SemrushBot
AhrefsBot
Häufige Fehler in der robots.txt
Robots.txt und SEO — was Sie wissen müssen
Die robots.txt beeinflusst direkt das Crawl-Budget — das Crawling-Budget, das Google jeder Website zuweist. Eine effektive Nutzung der robots.txt ermöglicht es, Crawler auf wichtige Unterseiten zu lenken und die Verschwendung von Budget für unwichtige URLs zu vermeiden.