Robots.txt — Ein kompletter Leitfaden zur robots.txt-Datei

Die robots.txt-Datei ist eines der Fundamente der Website-Konfiguration für Suchmaschinen. Trotz ihrer einfachen Syntax kann eine falsche Konfiguration die Indexierung der gesamten Seite blockieren oder sensible Strukturen des Dienstes offenlegen. Dieser Leitfaden führt Sie durch alles, was Sie wissen müssen — von der Basissyntax bis hin zu fortgeschrittenen Techniken und häufigen Fehlern.

Möchten Sie die robots.txt-Datei Ihrer Domain überprüfen?

Robots.txt-Tester öffnen

Was ist eine robots.txt-Datei?

Robots.txt ist eine Textdatei, die im Hauptverzeichnis der Domain unter example.com/robots.txt platziert wird. Sie definiert Regeln für Web-Roboter (Crawler) und legt fest, welche Teile der Website besucht und indexiert werden dürfen. Dieses Protokoll ist als REP (Robots Exclusion Protocol) bekannt und wird von allen großen Suchmaschinen wie Google, Bing, Yandex, DuckDuckGo und anderen respektiert.

Wichtig: Die robots.txt ist nur eine Empfehlung, keine Vorschrift. Bösartige Bots können ihre Regeln ignorieren. Sie sollte nicht als einziger Mechanismus zum Schutz sensibler Ressourcen verwendet werden.

Wo platziert man die robots.txt-Datei?

Die Datei muss sich im Hauptverzeichnis der Domain befinden — nicht in einer Subdomain oder einem Unterverzeichnis. Erreichbar unter:

https://example.com/robots.txt ✓ Richtig

https://www.example.com/robots.txt ✓ Richtig

https://example.com/folder/robots.txt ✗ Falsch

https://sub.example.com/robots.txt ✓ Separate robots.txt für Subdomain

Basissyntax

Die robots.txt-Datei besteht aus Regelgruppen. Jede Gruppe beginnt mit einer oder mehreren User-Agent-Direktiven, gefolgt von Allow- und Disallow-Direktiven. Gruppen sind durch Leerzeilen getrennt.

Dateistruktur

# Kommentar — Zeile beginnt mit #

User-agent: [Bot-Name]

Disallow: [Pfad]

Allow: [Pfad]

Crawl-delay: [Sekunden]

User-agent: [anderer-Bot]

Disallow: [Pfad]

Sitemap: [Sitemap-URL]

Direktiven — Vollständige Liste

User-agent Alle

User-agent: *

Bestimmt den Bot. * steht für alle.

Disallow Alle

Disallow: /admin/

Blockiert den Zugriff auf den Pfad und Unterverzeichnisse.

Allow Google, Bing

Allow: /public/

Erlaubt den Zugriff, selbst wenn der übergeordnete Pfad blockiert ist.

Sitemap Alle

Sitemap: /sitemap.xml

Gibt den Speicherort der XML-Sitemap an.

Crawl-delay Bing, Yandex

Crawl-delay: 10

Mindestpause zwischen Crawler-Anfragen in Sekunden. Google ignoriert dies.

Host Yandex

Host: example.com

Gibt die bevorzugte Domain an. Wird von Yandex verwendet.

Clean-param Yandex

Clean-param: sid

Informiert Bots über URL-Parameter ohne Bedeutung für den Inhalt.

Wildcards und Pfadmuster

Google und Bing unterstützen zwei spezielle Wildcard-Zeichen in Pfaden:

Disallow: /*.pdf$

Entspricht einer beliebigen Zeichenfolge (null oder mehr).

Disallow: /search$

Entspricht dem Ende der URL — der Pfad muss genau an dieser Stelle enden.

Musterbeispiele

# blockiert die gesamte Website

Disallow: /

# blockiert /admin/ und alle Unterverzeichnisse

Disallow: /admin/

# blockiert alle URLs, die auf .pdf enden

Disallow: /*.pdf$

# blockiert alle URLs mit Query-Parametern

Disallow: /*?

# blockiert nur /search, nicht /search/results

Disallow: /search$

# erlaubt ein Unterverzeichnis eines blockierten Verzeichnisses

Allow: /admin/public/

Regelpriorität — was gewinnt?

Wenn mehrere Regeln auf dieselbe URL passen, wendet Google die Regel der längsten Übereinstimmung an — es gewinnt die Regel mit dem längsten passenden Muster. Bei gleicher Länge hat Allow Vorrang vor Disallow.

# Beispielregeln:

User-agent: *

Disallow: /Ordner/

Allow: /Ordner/öffentlich/

# Für URL /folder/privat/ → Disallow (längere Übereinstimmung)

# Für URL /folder/oeffentlich/ → Allow (längere Übereinstimmung)

# Für URL /folder/ → Disallow

Konfigurationsbeispiele

1. Basiskonfiguration — WordPress

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /?s=
Disallow: /tag/
Disallow: /author/

Sitemap: https://example.com/sitemap.xml

2. E-Commerce-Shop

User-agent: *
Disallow: /warenkorb/
Disallow: /bestellung/
Disallow: /mein-konto/
Disallow: /dashboard/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?page=
Allow: /produkte/
Allow: /kategorien/

Sitemap: https://sklep.pl/sitemap.xml
Sitemap: https://sklep.pl/sitemap-produkty.xml

3. Blockierung ausgewählter KI-Bots

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: *
Disallow: /admin/
Allow: /

Sitemap: https://example.com/sitemap.xml

4. Seite im Wartungsmodus

User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /

Bekannte Crawler und ihre User-Agents

Googlebot

Google

Googlebot

Google Images

Google

Googlebot-Image

Google AdsBot

Google

AdsBot-Google

Google Extended

Google AI

Google-Extended

Bingbot

Microsoft

bingbot

Yandex

YandexBot

DuckDuckBot

DuckDuckGo

DuckDuckBot

Baidu

Baiduspider

GPTBot

OpenAI

GPTBot

Claude

Anthropic

anthropic-ai

CCBot

Common Crawl

CCBot

SemrushBot

Semrush

SemrushBot

AhrefsBot

Ahrefs

AhrefsBot

Häufige Fehler in der robots.txt

Blockierung der gesamten Website

Disallow: / für alle Bots blockiert die gesamte Seite — einer der kostspieligsten SEO-Fehler. Google informiert regelmäßig in der Search Console über solche Seiten.

Blockierung von Seiten mit noindex

Wenn eine Seite ein Meta-Noindex-Tag hat, blockieren Sie diese nicht in der robots.txt. Der Crawler muss die Seite besuchen, um die Noindex-Direktive zu sehen. Eine blockierte Seite kann im Index bleiben, wenn ein Link auf sie verwies.

Offenlegung der Webseitenstruktur

Die robots.txt ist öffentlich. Durch den Eintrag Disallow: /geheimer-admin/ informieren Sie jeden über die Existenz dieses Verzeichnisses. Nutzen Sie die robots.txt zur Steuerung des Crawlings, nicht zum Verstecken von Ressourcen.

Fehlende separate Dateien für Subdomains

Die robots.txt auf example.com gilt nicht für blog.example.com. Jede Subdomain benötigt eine eigene robots.txt-Datei.

Blockierung von CSS- und JS-Ressourcen

Google benötigt Zugriff auf CSS und JavaScript, um die Seite zu rendern und ihre Qualität zu bewerten. Das Blockieren dieser Ressourcen kann dem Ranking schaden.

Verwechslung von robots.txt mit .htaccess

Die robots.txt blockiert nicht den Zugriff auf Dateien — sie weist Bots lediglich an, diese nicht zu besuchen. Ein Nutzer kann eine blockierte URL weiterhin aufrufen. Verwenden Sie für echten Schutz die .htaccess oder die Serverkonfiguration.

Robots.txt und SEO — was Sie wissen müssen

Die robots.txt beeinflusst direkt das Crawl-Budget — das Crawling-Budget, das Google jeder Website zuweist. Eine effektive Nutzung der robots.txt ermöglicht es, Crawler auf wichtige Unterseiten zu lenken und die Verschwendung von Budget für unwichtige URLs zu vermeiden.

Unwichtige URLs blockieren

Sortier-, Filter- und Sitzungsparameter — blockieren Sie diese, damit sich Crawler auf wertvolle Unterseiten konzentrieren.

Immer eine Sitemap hinzufügen

Die Sitemap-Direktive in der robots.txt ist ein schneller Weg, um alle Suchmaschinen über den Standort der Sitemap zu informieren.

Admin-Bereiche schützen

Blockieren Sie /admin/, /wp-admin/, /phpmyadmin/ — nicht aus Sicherheitsgründen, sondern um kein Crawl-Budget zu verschwenden.

In der Search Console verifizieren

Ergänzend zu unserem Tool können Sie die Google Search Console nutzen, die ebenfalls ein integriertes Tool zum Testen der robots.txt besitzt — dieses zeigt, wie Google die Regeln direkt interpretiert.

Robots.txt-Tester

Überprüfen Sie die robots.txt-Datei einer beliebigen Domain und testen Sie die Regeln für spezifische URLs.

DNS-Einträge prüfen

Überprüfen Sie die DNS-Konfiguration Ihrer Domain — A-, MX-, TXT-Records und andere.