wtoolsy.com
Netzwerk, DNS, IP
Entwickler-Tools
SEO und Webseiten-Analyse
Finanzen und Rechner
Allgemein
Artikel
Alle Artikel

Robots.txt — Ein kompletter Leitfaden zur robots.txt-Datei

Die robots.txt-Datei ist eines der Fundamente der Website-Konfiguration für Suchmaschinen. Trotz ihrer einfachen Syntax kann eine falsche Konfiguration die Indexierung der gesamten Seite blockieren oder sensible Strukturen des Dienstes offenlegen. Dieser Leitfaden führt Sie durch alles, was Sie wissen müssen — von der Basissyntax bis hin zu fortgeschrittenen Techniken und häufigen Fehlern.

Möchten Sie die robots.txt-Datei Ihrer Domain überprüfen?

Robots.txt-Tester öffnen

Was ist eine robots.txt-Datei?

Robots.txt ist eine Textdatei, die im Hauptverzeichnis der Domain unter example.com/robots.txt platziert wird. Sie definiert Regeln für Web-Roboter (Crawler) und legt fest, welche Teile der Website besucht und indexiert werden dürfen. Dieses Protokoll ist als REP (Robots Exclusion Protocol) bekannt und wird von allen großen Suchmaschinen wie Google, Bing, Yandex, DuckDuckGo und anderen respektiert.

Wichtig: Die robots.txt ist nur eine Empfehlung, keine Vorschrift. Bösartige Bots können ihre Regeln ignorieren. Sie sollte nicht als einziger Mechanismus zum Schutz sensibler Ressourcen verwendet werden.

Wo platziert man die robots.txt-Datei?

Die Datei muss sich im Hauptverzeichnis der Domain befinden — nicht in einer Subdomain oder einem Unterverzeichnis. Erreichbar unter:

https://example.com/robots.txt ✓ Richtig
https://www.example.com/robots.txt ✓ Richtig
https://example.com/folder/robots.txt ✗ Falsch
https://sub.example.com/robots.txt ✓ Separate robots.txt für Subdomain

Basissyntax

Die robots.txt-Datei besteht aus Regelgruppen. Jede Gruppe beginnt mit einer oder mehreren User-Agent-Direktiven, gefolgt von Allow- und Disallow-Direktiven. Gruppen sind durch Leerzeilen getrennt.

Dateistruktur

# Kommentar — Zeile beginnt mit #
User-agent: [Bot-Name]
Disallow: [Pfad]
Allow: [Pfad]
Crawl-delay: [Sekunden]
User-agent: [anderer-Bot]
Disallow: [Pfad]
Sitemap: [Sitemap-URL]

Direktiven — Vollständige Liste

User-agent Alle
User-agent: *

Bestimmt den Bot. * steht für alle.

Disallow Alle
Disallow: /admin/

Blockiert den Zugriff auf den Pfad und Unterverzeichnisse.

Allow Google, Bing
Allow: /public/

Erlaubt den Zugriff, selbst wenn der übergeordnete Pfad blockiert ist.

Sitemap Alle
Sitemap: /sitemap.xml

Gibt den Speicherort der XML-Sitemap an.

Crawl-delay Bing, Yandex
Crawl-delay: 10

Mindestpause zwischen Crawler-Anfragen in Sekunden. Google ignoriert dies.

Host Yandex
Host: example.com

Gibt die bevorzugte Domain an. Wird von Yandex verwendet.

Clean-param Yandex
Clean-param: sid

Informiert Bots über URL-Parameter ohne Bedeutung für den Inhalt.

Wildcards und Pfadmuster

Google und Bing unterstützen zwei spezielle Wildcard-Zeichen in Pfaden:

*
Disallow: /*.pdf$

Entspricht einer beliebigen Zeichenfolge (null oder mehr).

$
Disallow: /search$

Entspricht dem Ende der URL — der Pfad muss genau an dieser Stelle enden.

Musterbeispiele

# blockiert die gesamte Website
Disallow: /
# blockiert /admin/ und alle Unterverzeichnisse
Disallow: /admin/
# blockiert alle URLs, die auf .pdf enden
Disallow: /*.pdf$
# blockiert alle URLs mit Query-Parametern
Disallow: /*?
# blockiert nur /search, nicht /search/results
Disallow: /search$
# erlaubt ein Unterverzeichnis eines blockierten Verzeichnisses
Allow: /admin/public/

Regelpriorität — was gewinnt?

Wenn mehrere Regeln auf dieselbe URL passen, wendet Google die Regel der längsten Übereinstimmung an — es gewinnt die Regel mit dem längsten passenden Muster. Bei gleicher Länge hat Allow Vorrang vor Disallow.

# Beispielregeln:
User-agent: *
Disallow: /Ordner/
Allow: /Ordner/öffentlich/
# Für URL /folder/privat/ → Disallow (längere Übereinstimmung)
# Für URL /folder/oeffentlich/ → Allow (längere Übereinstimmung)
# Für URL /folder/ → Disallow

Konfigurationsbeispiele

1. Basiskonfiguration — WordPress

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /?s=
Disallow: /tag/
Disallow: /author/

Sitemap: https://example.com/sitemap.xml

2. E-Commerce-Shop

User-agent: *
Disallow: /warenkorb/
Disallow: /bestellung/
Disallow: /mein-konto/
Disallow: /dashboard/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?page=
Allow: /produkte/
Allow: /kategorien/

Sitemap: https://sklep.pl/sitemap.xml
Sitemap: https://sklep.pl/sitemap-produkty.xml

3. Blockierung ausgewählter KI-Bots

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: *
Disallow: /admin/
Allow: /

Sitemap: https://example.com/sitemap.xml

4. Seite im Wartungsmodus

User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /

Bekannte Crawler und ihre User-Agents

Googlebot
Google
Googlebot
Google Images
Google
Googlebot-Image
Google AdsBot
Google
AdsBot-Google
Google Extended
Google AI
Google-Extended
Bingbot
Microsoft
bingbot
Yandex
Yandex
YandexBot
DuckDuckBot
DuckDuckGo
DuckDuckBot
Baidu
Baidu
Baiduspider
GPTBot
OpenAI
GPTBot
Claude
Anthropic
anthropic-ai
CCBot
Common Crawl
CCBot
SemrushBot
Semrush
SemrushBot
AhrefsBot
Ahrefs
AhrefsBot

Häufige Fehler in der robots.txt

Blockierung der gesamten Website
Disallow: / für alle Bots blockiert die gesamte Seite — einer der kostspieligsten SEO-Fehler. Google informiert regelmäßig in der Search Console über solche Seiten.
Blockierung von Seiten mit noindex
Wenn eine Seite ein Meta-Noindex-Tag hat, blockieren Sie diese nicht in der robots.txt. Der Crawler muss die Seite besuchen, um die Noindex-Direktive zu sehen. Eine blockierte Seite kann im Index bleiben, wenn ein Link auf sie verwies.
Offenlegung der Webseitenstruktur
Die robots.txt ist öffentlich. Durch den Eintrag Disallow: /geheimer-admin/ informieren Sie jeden über die Existenz dieses Verzeichnisses. Nutzen Sie die robots.txt zur Steuerung des Crawlings, nicht zum Verstecken von Ressourcen.
Fehlende separate Dateien für Subdomains
Die robots.txt auf example.com gilt nicht für blog.example.com. Jede Subdomain benötigt eine eigene robots.txt-Datei.
Blockierung von CSS- und JS-Ressourcen
Google benötigt Zugriff auf CSS und JavaScript, um die Seite zu rendern und ihre Qualität zu bewerten. Das Blockieren dieser Ressourcen kann dem Ranking schaden.
Verwechslung von robots.txt mit .htaccess
Die robots.txt blockiert nicht den Zugriff auf Dateien — sie weist Bots lediglich an, diese nicht zu besuchen. Ein Nutzer kann eine blockierte URL weiterhin aufrufen. Verwenden Sie für echten Schutz die .htaccess oder die Serverkonfiguration.

Robots.txt und SEO — was Sie wissen müssen

Die robots.txt beeinflusst direkt das Crawl-Budget — das Crawling-Budget, das Google jeder Website zuweist. Eine effektive Nutzung der robots.txt ermöglicht es, Crawler auf wichtige Unterseiten zu lenken und die Verschwendung von Budget für unwichtige URLs zu vermeiden.

Unwichtige URLs blockieren
Sortier-, Filter- und Sitzungsparameter — blockieren Sie diese, damit sich Crawler auf wertvolle Unterseiten konzentrieren.
Immer eine Sitemap hinzufügen
Die Sitemap-Direktive in der robots.txt ist ein schneller Weg, um alle Suchmaschinen über den Standort der Sitemap zu informieren.
Admin-Bereiche schützen
Blockieren Sie /admin/, /wp-admin/, /phpmyadmin/ — nicht aus Sicherheitsgründen, sondern um kein Crawl-Budget zu verschwenden.
In der Search Console verifizieren
Ergänzend zu unserem Tool können Sie die Google Search Console nutzen, die ebenfalls ein integriertes Tool zum Testen der robots.txt besitzt — dieses zeigt, wie Google die Regeln direkt interpretiert.