wtoolsy.com
Netzwerk, DNS, IP
Entwickler-Tools
SEO und Webseiten-Analyse
Finanzen und Rechner
Allgemein
Artikel

Robots.txt-Tester

robots.txt laden und analysieren, Regeln prüfen und Bot-Zugriff auf Seiten verifizieren.
Zugriff auf URL prüfen

Lesen Sie unseren ausführlichen Artikel über robots.txt

Artikel öffnen

Was ist eine robots.txt-Datei?

Die robots.txt-Datei ist eine Standard-Textdatei, die im Hauptverzeichnis der Domain unter /robots.txt abgelegt wird. Sie informiert Suchmaschinen-Roboter (Crawler), welche Teile der Website indiziert werden dürfen und welche ignoriert werden sollten. Sie ist Teil des REP (Robots Exclusion Protocol), und obwohl Crawler sie nicht respektieren müssen, halten sich alle großen Suchmaschinen wie Google, Bing oder Yandex an diese Regeln.

SEO

Verhindern Sie die Indizierung von Duplikaten, Staging-Seiten, Admin-Panels und anderen Ressourcen, die nicht in den Suchergebnissen erscheinen sollen.

Crawl-Budget

Begrenzen Sie die Crawling-Häufigkeit mittels Crawl-delay, um den Server nicht durch Suchmaschinen-Roboter zu überlasten.

Sitemap

Geben Sie den Speicherort der XML-Sitemap an — dies erleichtert Suchmaschinen das Entdecken aller Unterseiten der Website.

Syntax der robots.txt-Datei

Anweisung Beispiel Bedeutung
User-agent User-agent: * Bestimmt, für welchen Bot die Regeln gelten. * steht für alle Bots.
Disallow Disallow: /admin/ Blockiert den Zugriff auf den angegebenen Pfad und alle Unterverzeichnisse.
Allow Allow: /public/ Erlaubt den Zugriff auf den Pfad, selbst wenn der übergeordnete Pfad blockiert ist.
Sitemap Sitemap: /sitemap.xml Gibt den Speicherort der XML-Sitemap für Suchmaschinen an.
Crawl-delay Crawl-delay: 10 Bestimmt den Mindestabstand in Sekunden zwischen aufeinanderfolgenden Anfragen des Crawlers.
Disallow Disallow: Leeres Disallow — erlaubt den Zugriff auf die gesamte Website.
Disallow Disallow: / Blockiert den Zugriff auf die gesamte Website für einen bestimmten Bot.

Beispiel für eine robots.txt-Datei

# alle Bots
User-agent: *
Disallow: /admin/
Disallow: /tmp/
Disallow: /search?
Allow: /public/

# nur Googlebot
User-agent: Googlebot
Disallow: /no-google/

# Bingbot komplett blockieren
User-agent: Bingbot
Disallow: /

Sitemap: https://example.com/sitemap.xml

Häufig gestellte Fragen (FAQ)

Blockiert robots.txt die Indizierung einer Seite?

Nicht ganz. Die robots.txt weist Crawler an, bestimmte Adressen nicht zu besuchen, garantiert aber nicht, dass die Seite nicht in den Suchergebnissen erscheint. Wenn eine andere Seite auf die blockierte URL verlinkt, kann Google sie indizieren, ohne sie zu besuchen. Um die Indizierung vollständig zu verhindern, verwenden Sie den Meta-Tag noindex oder den Header X-Robots-Tag.

Ist die robots.txt öffentlich einsehbar?

Ja — die robots.txt-Datei ist unter /robots.txt immer öffentlich zugänglich. Geben Sie darin keine sensiblen Informationen über die Website-Struktur an, die Sie nicht preisgeben möchten, da sie jeder lesen kann.

Was ist der Unterschied zwischen Allow und Disallow?

Disallow blockiert den Zugriff auf einen Pfad, Allow erlaubt ihn. Allow hat eine höhere Priorität als Disallow, wenn beide Regeln auf dieselbe URL zutreffen. Beispiel: Disallow: /folder/ und Allow: /folder/public/ — der Crawler wird /folder/ nicht betreten, aber /folder/public/ schon.

Wie prüft man, ob die robots.txt korrekt funktioniert?

Nutzen Sie unseren Tester oben — geben Sie die Domain ein oder fügen Sie Ihre eigene Datei ein und prüfen Sie, ob eine bestimmte URL für den gewählten Bot blockiert ist. Sie können auch die Google Search Console → robots.txt-Tester verwenden, um zu sehen, wie der Googlebot die Regeln interpretiert.

Was bedeutet User-agent: *?

Das Sternchen * ist ein Wildcard und steht für alle Bots. Die Regeln unter User-agent: * gelten für jeden Crawler, der keine eigene dedizierte Sektion hat. Wenn ein Bot eine eigene Sektion hat (z. B. User-agent: Googlebot), wendet er nur die Regeln aus dieser Sektion an und ignoriert die Regeln für *.

Ist das Fehlen einer robots.txt-Datei ein Problem?

Nein — das Fehlen einer robots.txt-Datei bedeutet, dass alle Bots die gesamte Website frei crawlen dürfen. Dies ist das Standardverhalten. Ein Problem entsteht nur, wenn Sie bestimmte Bereiche blockieren (z. B. /admin/, /staging/) oder den Standort der Sitemap angeben möchten.