Suchmaschinen sind neugierig! Ist Ihre Webseite erstmal online, bekommen sie regelmäßig Besuch von kleinen Programmen, die Ihre Webpräsenz nach neuen Inhalten durchforsten. Ob Sie selbst zuvor bei einer Suchmaschine um eine Eintragung gebeten haben, ist irrelevant. Vieles läuft heute automatisch ab, so auch die kleinen Suchhelfer. Da Webpräsenzen ohnehin frei zugänglich sind, bedarf es auch keiner Einladung. Diese sogenannten "Bots" (auch "Robots", kurz & salopp "Bots" oder "Spider", gelegentlich auch "Crawler" genannt) sind fester Bestandteil des Internets. Sie durchsuchen eigenständig Webinhalte und folgen angegebenen Hyperlinks zur nächsten Ressource. So reicht es aus, wenn Ihre Homepage auf einer anderen Internetpräsenz genannt ist, und diese von einem Bot durchsucht wurde.

Bei dem Protokoll Robots.txt handelt es sich um eine reine Textdatei, die dem Robots Exclusion Standart entspricht. Mit Ihr können bestimmte Bots, also kleine Programme eingesetzt zur Datenaufnahme, ein- oder ausgeschlossen werden. Die Datei wird im Root-Verzeichnis - dem Basisverzeichnis eines Webauftritts - abgelegt und von den entsprechenden Bots berücksichtig. Dies macht Sinn, wenn ein Webseitenbetreiber nicht möchte, dass bestimmte Inhalte in Suchmaschinen gelistet oder von ihnen ausgelesen werden. 

Generell: ohne Einsatz einer solchen Datei, ist es allen Bots gestattet auf Webinhalte zuzugreifen und Zeildaten an die jeweiligen Suchmaschinen weiter zu geben. Sowie In- und externen Verknüpfungen auf den jeweiligen Seiten zu folgen. Technisch reicht es aus, Verbotregeln in der robots.txt zu definieren. Dies ist allerdings nur als Ergänzung anzusehen. Sie sollten auf einzelnen Webseiten in dessen Meta-Bereich eine "noindex,nofollow" Kennzeichnung einsetzen, um Suchmaschinen mitzuteilen, dass das Indexieren und Weiterverfolgen von Links auf der Seite nicht erwünscht ist. Natürlich nur, wenn Sie dies nicht möchten.

Anlegen einer robots.txt Datei

Dies ist wohl die simpelste Aktion. Die Datei kann mit jedem beliebigen Schreibprogramm erstellt werden. Standartisiert ist der entgültige Dateiname "robots.txt"; unter diesem Namen speichern Sie diese Datei ab. Die Datei wird nach der Definition des Regelwerks in das Root-Verzeichnis des Webauftritts abgelegt. Zum Hochladen von Dateien wird in der Regel ein FTP-Programm verwendet.

Definieren von Regeln

Die festzulegenden Regeln können sich auf einzelne Verzeichnisse oder gar einzelne Dateien bzw. Webseiten beziehen. Einige Regeln können zu einem Datensatz zusammengefasst werden.

Der triviale Syntax (Ordnungssystem) der robots.txt sieht folgende Struktur vor: 

  1. User-agent: (gefolgt von einer Leerzeile und dem Namen des Bots, für den die Regel gilt. Ein Stern "*" bedeutet hier alle Bots)
  2. Allow (oder) Disallow: / (Übersetzt: "erlauben/verbieten". Bestimmt welchen Pfad oder Datei Sie für die Bots ein- oder ausschließen wollen.)

Bei der Gestaltung des Regelwerkes haben Sie freie Hand. Die Eintragungen innerhalb der robots.txt könnten so aussehen:

Für sämtliche Bots das Durchforsten der Datenstämme verbieten

User-agent: *
Disallow: /

Einem bestimmten Bot das Durchforsten verbieten, aber diese eine Ebene und Seite erlauben. Alle anderen dürfen durchsuchen, da die Regel sich namentlich nur auf einen bestimmten Bot bezieht

User-agent: Googlebot
Disallow: /
Allow: /index.html
Allow: /meineartikel/

Der Google/Bing -Yahoo Bot dürfen auf diese Dateien und Datenverzeichnisse nicht zugreifen, alle anderen schon. Gesperrt werden hier das Unterverzeichnisse und PDF Dokumente. Hier ist zu beachten, dass die Verbotsregel nur die genannten User-Agents betrifft. Alle anderen User-Agents dürfen durchsuchen.

User-agent: Googlebot
User-agent: Slurp
User-agent: Bingbot Disallow: /Verzeichnisname/Unterverzeichnis/
Disallow: /Verzeichnisname2/
Disallow: /steven.html Disallow: /*.pdf$
Disallow: /*.docx$

 

Weiter zu berücksichtigen

  • Bei Dateinamen ist die Groß- und Kleinschreibung zu beachten.
  • Das "*"-Symbol wird als sogenannte WildCard verwendet, wenn keine bestimmte Namen konkretisiert wurden. Nicht alle Bots berücksichtigen diese WildCard.
  • Das "$" Symbol ist in diesem Syntax ein Zeilenende-Anker. Es besagt, dass die vorstehenden Buchstaben hinter dem Punkt in dieser Kombination folgen müssen.
  • Hashtag-Symbol ("#") kennzeichnet im Syntax ein Kommentar. Diese gekennzeichneten Kommentare werden bei der Auslese der Regeln ignoriert. Fügen Sie dieses Zeichen am Anfang einer Textzeile ein, wenn Sie innerhalb der Datei eine persönliche Anmerkung machen wollen.
  • Problem: Es kann vorkommen, dass Webseiten durchsucht werden, obwohl dies explizit in der robots.txt ausgeschlossen wurde. Dies eine automatisierte Handlung, wenn in den Webseiten in den META-TAGS (den seitenabhängigen Angaben für Suchmaschinen) keine Ausschluss gegeben ist. Dieser Ausschluss dient zusätzlich zu den Angaben der robots.txt. Setzen Sie zusätzlich auf der betreffenden Webseite in den Meta-Bereich den Zusatz "noindex,nofollow" [<meta name="robots" content="noindex,nofollow">]
  • Bekannte Bots: Googlebot (Google), Googlebot-Image (Google Bildersuche), Bingbot (Bing), Slurp (Yahoo), ia_archiver (archive.org), ExaBot (Exalead), YandexBot (Yandex), Applebot (Apple), DuckDuckBot (DuckDuckGo), Baiduspider (Baidu), Swiftbot (Swiftype) ...

Des Weiteren spielt die Reihenfolge der User-Agent -Angaben keine Rolle. Die WildCard ("*") ist nur ein Zusatz und keine am Anfang zu setzende Allgemeinklausel. Wichtig ist die Tatsache, dass alles was nicht ausgeschlossen wird oder genannt wird, erlaubt ist.

Es sollen bis auf zwei Ausnahmen alle Bots gesperrt werden. Für die beiden genannten und willkommenen Bots soll lediglich wenig ausgeschlossen werden.

 

User-agent: Googlebot
User-agent: Bingbot Disallow: /Verzeichnisname/Unterverzeichnis/
Disallow: /Verzeichnisname2/
Disallow: /sven.html Disallow: /*.csv$
User-agent: * Disallow: /

 

Man kann generell Bots/Crawler auch mit anderen Methoden von der eigenen Internetpräsenz fernhalten. Webserver-spezifisch bieten dich dazu Konfigurationsdateien an, die im Wurzelverezichnis der eigenen Domain abgelegt werden. Apache-Webserver (Linux) gehören zu den meist eingesetzten Systemen. Diese verwendet für eine solche Konfiguration für das HTTP-Protokoll die Datei ".htaccess". IIS-Webserver (Windows) verwendet das Pendant "web.config". Lesen Sie im individuellen Handbuch, wie sie Bots mit Textzeilen innerhalb dieser Dateien ausschließen können.

Copyright © Business-Administration.Info 2025 |  Alle Rechte vorbehalten  Dekorations-Icon  Impressum | Datenschutz & Datenschutzerklärung