Robots.txt-Tester
Lesen Sie unseren ausführlichen Artikel über robots.txt
Artikel öffnenWas ist eine robots.txt-Datei?
Die robots.txt-Datei ist eine Standard-Textdatei, die im Hauptverzeichnis der Domain unter /robots.txt abgelegt wird. Sie informiert Suchmaschinen-Roboter (Crawler), welche Teile der Website indiziert werden dürfen und welche ignoriert werden sollten. Sie ist Teil des REP (Robots Exclusion Protocol), und obwohl Crawler sie nicht respektieren müssen, halten sich alle großen Suchmaschinen wie Google, Bing oder Yandex an diese Regeln.
Verhindern Sie die Indizierung von Duplikaten, Staging-Seiten, Admin-Panels und anderen Ressourcen, die nicht in den Suchergebnissen erscheinen sollen.
Begrenzen Sie die Crawling-Häufigkeit mittels Crawl-delay, um den Server nicht durch Suchmaschinen-Roboter zu überlasten.
Geben Sie den Speicherort der XML-Sitemap an — dies erleichtert Suchmaschinen das Entdecken aller Unterseiten der Website.
Syntax der robots.txt-Datei
| Anweisung | Beispiel | Bedeutung |
|---|---|---|
User-agent |
User-agent: * | Bestimmt, für welchen Bot die Regeln gelten. * steht für alle Bots. |
Disallow |
Disallow: /admin/ | Blockiert den Zugriff auf den angegebenen Pfad und alle Unterverzeichnisse. |
Allow |
Allow: /public/ | Erlaubt den Zugriff auf den Pfad, selbst wenn der übergeordnete Pfad blockiert ist. |
Sitemap |
Sitemap: /sitemap.xml | Gibt den Speicherort der XML-Sitemap für Suchmaschinen an. |
Crawl-delay |
Crawl-delay: 10 | Bestimmt den Mindestabstand in Sekunden zwischen aufeinanderfolgenden Anfragen des Crawlers. |
Disallow |
Disallow: | Leeres Disallow — erlaubt den Zugriff auf die gesamte Website. |
Disallow |
Disallow: / | Blockiert den Zugriff auf die gesamte Website für einen bestimmten Bot. |
Beispiel für eine robots.txt-Datei
# alle Bots User-agent: * Disallow: /admin/ Disallow: /tmp/ Disallow: /search? Allow: /public/ # nur Googlebot User-agent: Googlebot Disallow: /no-google/ # Bingbot komplett blockieren User-agent: Bingbot Disallow: / Sitemap: https://example.com/sitemap.xml
Häufig gestellte Fragen (FAQ)
Nicht ganz. Die robots.txt weist Crawler an, bestimmte Adressen nicht zu besuchen, garantiert aber nicht, dass die Seite nicht in den Suchergebnissen erscheint. Wenn eine andere Seite auf die blockierte URL verlinkt, kann Google sie indizieren, ohne sie zu besuchen. Um die Indizierung vollständig zu verhindern, verwenden Sie den Meta-Tag noindex oder den Header X-Robots-Tag.
Ja — die robots.txt-Datei ist unter /robots.txt immer öffentlich zugänglich. Geben Sie darin keine sensiblen Informationen über die Website-Struktur an, die Sie nicht preisgeben möchten, da sie jeder lesen kann.
Disallow blockiert den Zugriff auf einen Pfad, Allow erlaubt ihn. Allow hat eine höhere Priorität als Disallow, wenn beide Regeln auf dieselbe URL zutreffen. Beispiel: Disallow: /folder/ und Allow: /folder/public/ — der Crawler wird /folder/ nicht betreten, aber /folder/public/ schon.
Nutzen Sie unseren Tester oben — geben Sie die Domain ein oder fügen Sie Ihre eigene Datei ein und prüfen Sie, ob eine bestimmte URL für den gewählten Bot blockiert ist. Sie können auch die Google Search Console → robots.txt-Tester verwenden, um zu sehen, wie der Googlebot die Regeln interpretiert.
Das Sternchen * ist ein Wildcard und steht für alle Bots. Die Regeln unter User-agent: * gelten für jeden Crawler, der keine eigene dedizierte Sektion hat. Wenn ein Bot eine eigene Sektion hat (z. B. User-agent: Googlebot), wendet er nur die Regeln aus dieser Sektion an und ignoriert die Regeln für *.
Nein — das Fehlen einer robots.txt-Datei bedeutet, dass alle Bots die gesamte Website frei crawlen dürfen. Dies ist das Standardverhalten. Ein Problem entsteht nur, wenn Sie bestimmte Bereiche blockieren (z. B. /admin/, /staging/) oder den Standort der Sitemap angeben möchten.