Robots.txt
Eine robots.txt ist eine Datei, die normalerweise im Stammverzeichnis einer Website platziert wird (zum Beispiel https://www.example.com/robots.txt).
Sie legt fest, ob Crawler Zugriff auf eine gesamte Website oder auf bestimmte Ressourcen haben dürfen.
Eine restriktive robots.txt-Datei kann verhindern, dass Crawler Bandbreite verbrauchen.
Ein Website-Besitzer kann Crawlern verbieten, einen bestimmten Pfad (und alle Dateien in diesem Pfad) oder eine bestimmte Datei zu erkennen. Dies wird oft getan, um zu verhindern, dass diese Ressourcen von Suchmaschinen indexiert oder bereitgestellt werden.
Wenn einem Crawler der Zugriff auf Ressourcen gestattet ist, können Sie Indexierungsregeln für diese Ressourcen mittels <meta name="robots">-Elementen (häufig als "robots-Tag" bezeichnet) und X-Robots-Tag HTTP-Headern festlegen.
Suchbezogene Crawler verwenden diese Regeln, um zu bestimmen, wie Ressourcen in Suchergebnissen indiziert und bereitgestellt werden oder um die Crawling-Rate für bestimmte Ressourcen im Laufe der Zeit anzupassen.
Siehe auch
- robots.txt-Konfiguration Sicherheitsleitfaden
- Suchmaschine Glossarbegriff
- RFC 9309: Robots Exclusion Protocol
- Wie Google die robots.txt-Spezifikation interpretiert auf developers.google.com
- https://www.robotstxt.org
- Robots.txt auf Wikipedia