Robots.txt

Philippe grossmann profil

Philippe Großmann

Veröffentlicht in SEO · Aktualisiert am 29.03.2024

Eine robots.txt-Datei teilt Suchmaschinen mit, welche Seiten oder Dateien von Ihrer Website angefordert werden können und welche nicht. Wir zeigen Ihnen alles, was Sie über die Robots.txt wissen müssen.

robots. txt ist eine reine Text-Datei, die dem Robots Exclusion Standard entspricht. Sie besteht aus einer oder mehreren Regeln und entspricht dem Robots Exclusion Standard  und gibt unter anderem Crawlern und Bots (z.B. von Suchmaschinen) vor, welche Inhalte einer Seite gelesen werden sollen und welche nicht.

Nahezu jede Website im Internet enthält eine Robots.txt Datei, nicht alle Webseitenbetreiber befassen sich aber genau mit ihrer Funktion oder wissen überhaupt, dass sie existiert.

Im Folgenden werden wir Ihnen erklären, was die Robots.txt ist und zeigen Ihnen, wie Sie sie nutzen können, um Ihre Website suchmaschinenfreundlicher zu machen.

Inhaltsverzeichnis

Was ist eine Robots.txt Datei?

Bei der sogenannten Robots.txt Datei handelt es sich um ein Textdokument, das Suchmaschinen mitteilt, welche Inhalte der jeweiligen Website von Suchmaschinen gecrawlt werden dürfen und welche eventuell nicht.

Robots txt

Die Robots.txt wird von Suchmaschinen regelmäßig auf Anweisungen, sogenannte "directives", geprüft, die der Suchmaschine mitteilen was gelesen werden darf.
Ist keine Robots.txt vorhanden, untersucht die Suchmaschine alles an Inhalten, was über den Quelltext verlinkt wird. Darüber hinaus entscheiden aber Suchmaschinen noch immer selber, ob sie sich an die Anweisungen der Robots.txt hält oder diese teilweise oder vielleicht sogar vollständig ignorieren.

Die Robots.txt hat darüber hinaus die Funktion auch andere Crawler, wie z.B. SEO-Analyse Tools oder Bots vom ‘lesen’ der Website zu sperren, wenn man seine Inhalte vor diesen beispielsweise schützen möchte.

Wie funktioniert die Robots.txt?

Suchmaschinen wie Google und Bing durchforsten laufend Websites, um Inhalte zu entdecken und diese ihren Nutzer:innen zur Verfügung zu stellen. Um Websites zu durchsuchen, folgen Suchmaschinen internen und externen Verlinkungen. Dieses Verhalten wird gängig als “Crawling” (aus dem englischen "crawling", daher auch "Crawler") bezeichnet. Der Weg, den die Crawler wählen, ähnelt einem Spinnennetz. Crawler werden daher auch als Spider bezeichnet.

Crawler robots txt

Ist der Crawler einer Suchmaschine auf einer Website angekommen, sucht der Crawler nach einer robots.txt Datei. Findet er diese, liest der Crawler diese Datei zuerst, bevor er mit dem ‘Crawling’ der Website weitermacht.
Da die robots.txt Informationen eventuell Anweisungen enthält, wie die Suchmaschine crawlen soll, weisen die dort gefundenen Informationen weitere Crawler-Aktionen auf dieser speziellen Website an.
Wenn die robots.txt keine Anweisungen enthält, die die Aktivität eines Benutzeragenten verbietet (oder wenn die Website keine Datei robots.txt hat), wird der Crawler alle Informationen auf der Website durchsuchen.

Die Robots.txt Syntax

Die Syntax der Robots.txt Datei kann man sich als die "Sprache" der robots.txt-Dateien vorstellen.
Bei den folgenden Begriffen handelt es sich um die gängigsten Befehle einer Robots.txt:

User-Agent: 

Der spezifische Web-Crawler, dem Sie Crawl-Anweisungen geben (normalerweise eine Suchmaschine).

Disallow: 

Der Befehl, mit dem ein Benutzeragent aufgefordert wird, eine bestimmte URL nicht zu durchsuchen. Für jede URL ist nur eine Zeile "Disallow:" erlaubt.

Allow:

Dieser Befehl gilt nur für den Googlebot. Er teilt dem Googlebot mit, dass es auf eine Seite oder einen Unterordner zugreifen kann, obwohl die übergeordnete Seite oder der Unterordner möglicherweise nicht zulässig ist.

Crawl-delay:

Wie viele Sekunden sollte ein Crawler warten, bevor er Seiteninhalte lädt und durchsucht (Wird von Google meistens ignoriert).

 

Sitemap:

Wird verwendet, um den Speicherort aller XML-Sitemap(s) aufzurufen, die dieser URL zugeordnet sind.

Erstellung und Bearbeitung einer Robots.txt Datei

Sollten Sie noch keine Robots.txt besitzen, lässt sich diese ganz leicht erstellen.

Bei Wordpress kann eine Art Muster-Robots.txt über das Yoast-Plugin unter ‘Werkzeuge’ mit einem Klick erstellt werden. Dort lässt sich dann auch die Robots.txt bearbeiten.

Der klassische Weg führt uns auf den Server Ihrer Website.
Hier können Sie im Start- bzw. Stammverzeichnis über einen FTP-Client wie FileZilla ganz leicht ein Text-Dokument erstellen, über Notepad z.B., mit dem Namen ‘robots.txt’.

Über den Server lässt sich diese Datei dann auch ganz unkompliziert bearbeiten. Zur Sicherheit sollten Sie vor Änderungen natürlich immer eine Sicherheitskopie bzw. Backup Ihrer alten Robots.txt Datei anlegen.

Für die Erstellung einer Robots.txt Datei hat Google übrigens Webmastern eine Anleitung zur Verfügung gestellt.

Beispiele einer Robots.txt

Im Folgenden zeigen wir Ihnen Beispiele für Inhalte von Robots.txt Dateien:

Beispiel-Domain: www.beispiel.de URL der Robots.txt: www.beispiel.de/robots.txt

Klassisches Format einer Robots.txt:

User-agent: [user-agent name / Name der Suchmaschine, des Crawlers / * = Alle Crawler]

Disallow: [URL, Unterverzeichnis, Element, das vom Crawlen ausgeschlossen werden soll]

Blockieren aller Inhalte für alle Crawler:

User-agent: Disallow: /

Die Verwendung dieser Syntax in einer robots.txt-Datei würde allen Web-Crawlern sagen, keine Seiten auf www.beispiel.de zu crawlen, einschließlich der Homepage.

Erlauben aller Inhalte für alle Crawler:

User-agent: Disallow:

Die Verwendung dieser Syntax in einer robots.txt-Datei weist Web-Crawler an, alle Seiten auf www.beispiel.de zu durchsuchen, einschließlich der Homepage.

Blockieren eines gesamten Unterordners für einen bestimmten Crawler:

User-agent: Googlebot Disallow: /beispiel-ordner/

Diese Syntax besagt, dass nur der Crawler von Google (Name des Benutzeragenten Googlebot) keine Seiten crawlen darf, die die URL-Zeichenkette www.domain.de/beispiel-ordner/ enthalten.

Blockieren einer bestimmten Unterseite für einen bestimmten Crawler:

User-agent: Bingbot Disallow: /beispiel-ordner/blockierte-seite.html

Diese Syntax sagt nur dem Crawler von Bing (Name des Benutzeragenten Bing), um zu vermeiden, dass die spezifische Seite unter www.domain.de/beispiel-ordner/... durchsucht wird.

Blockieren von bestimmten URLs über Zeichen:

Disallow: /.php Disallow: /copyrighted-images/.jpg

Im obigen Beispiel wird * auf den entsprechenden Dateinamen oder Element erweitert, um diese auszusperren. Hier wird also alles mit ‘.php’ und alle ‘.jpg’ Bilder im Ordner ‘copyrighted-images’ blockiert.

Robots.txt testen

In der alten Version der Google Search Console besteht für Webmaster noch immer die Möglichkeit, die Funktionalität und Richtigkeit seiner Robots.txt Datei zu testen:

Robots txt test tool

Wählen Sie einfach die entsprechende Property Ihrer Website aus und geben Sie in das Textfeld unten die Inhalte bzw. URL-Endung ein, auf die die Funktion der Robots.txt geprüft werden soll.

Wenn der jeweilige Crawler die URL lesen kann, erscheint rechts neben der Leiste in grün "Zugelassen".
Kann die URL vom Crawler nicht gelesen werden, erscheint dort ein rotes "Blockiert" und im Fenster darüber wird die Zeile mit dem Befehl aus der Robots.txt markiert, der diese URL blockiert.

Wo liegt die Robots.txt Datei?

Die robots.txt Ihrer Website sollte immer im Stamm- bzw. Start- oder Rootverzeichnis Ihrer Domain liegen. Wenn Ihre Website also unter www.beispiel.de erreichbar ist, sollte die Robots.txt Datei unter https://www.beispiel.de/robots.txt zu finden sein. Darüber hinaus ist für die Funktionalität entscheidend, dass Ihre robots.txt Datei auch tatsächlich ‘robots.txt’ heißt. Der korrekte Name ist ausschlaggebend dafür, dass sie von Suchmaschinen gefunden und gelesen wird.

Brauche ich eine Robots.txt?

Für die Suchmaschinenoptimierung (SEO) spielt die Robots.txt je nach Website eine wichtige Rolle.

Viele SEOs haben aber übrigens das Credo, dass die Robots.txt Suchmaschinen keine Inhalte verbietet, um selber zu entscheiden, welche Inhalte relevant sind und welche nicht.

Bei Wordpress wird z.B. oft standardisiert über die Robots.txt Zugriff auf den Admin Bereich (wp-admin) verwehrt, auch weil hier sensible Daten zur Datenbank liegen.

Andere Webseiten-Arten, wie Online-Shops, sperren über die Robots.txt bestimmte Parameter oder IDs aus, um so Duplicate Content zu verhindern oder auch so die Menge an irrelevanten Seiten für Suchmaschinen einzugrenzen und den Fokus auf relevante Inhalte zu steuern.
Die Funktion der Robots.txt sollte immer mit Vorsicht betrachtet werden. Auf der einen Seite entscheiden Suchmaschinen selber, ob sie sich an die Anweisungen aus der Robots.txt Datei halten oder diese ignorieren. Auf der anderen Seite können durch fehlerhafte Angaben relevante Inhalte für Suchmaschinen unzugänglich gemacht werden.

XML-Sitemaps in der Robots.txt

Auch wenn der Hauptnutzen der robots.txt Datei darin liegt Suchmaschinen mitzuteilen, welche Seiten oder Inhalte nicht gecrawlt werden sollen, kann die robots.txt Datei auch dazu verwendet werden, um Suchmaschinen schneller auf die XML-Sitemap aufmerksam zu machen. Dieses Verfahren wird unter anderem von Google, Bing, Yahoo und Ask unterstützt.

Die XML-Sitemap kann, bzw. sollte am Ende der robots.txt als absolute URL (also z.B. https://www.beispiel.de/sitemap1.xml) hinterlegt werden. Das Verweisen auf die XML-Sitemap in der robots.txt Datei ist eine der besten Praktiken, um Suchmaschinen auf die XML-Sitemaps Ihrer Website aufmerksam zu machen, auch wenn Sie Ihre XML-Sitemap beispielsweise bereits in der Google Search Console und den Bing Webmaster-Tools eingereicht haben.

Denken Sie beim Pflegen der Robots.txt daran: Es gibt mehr Suchmaschinen als Google, auch wenn Google am meisten genutzt wird.

Es ist natürlich auch möglich, mehrere XML-Sitemaps in einer robots.txt-Datei zu zu hinterlegen.

Beispiel: User-agent: * Disallow: /wp-admin/ Sitemap: https://www.beispiel.de/sitemap1.xml Sitemap: https://www.beispiel.de/sitemap2.xml

meta-Robots vs. Robots.txt

Bevor Sie Ihre Robots.txt mit Inhalten füllen, sollte noch der "meta-robots"-Tag erwähnt werden.
Möchten Sie einzelne Unterseiten nicht indexieren, sollten diese über den "meta-robots"-Tag im Quelltext auf "noindex" gesetzt werden anstatt diese einzelne URL über die Robots.txt auszuschließen.
Das ist der sicherste Weg, auch weil sich, wie wir gelernt haben, Suchmaschinen frei halten den Anweisungen der Robots.txt zu folgen.

Fazit & weiterführende Informationen

Die Robots.txt bestimmt das Crawl-Verhalten für eine Website, während der Meta-Robots-Tag das Indexierungsverhalten auf der Ebene der einzelnen Seite (oder des Seitenelements) bestimmen kann.

Nach unserer Empfehlung sollte eine Robots.txt Datei Pflicht für jede Website sein. Die Benutzung ist dennoch nicht unbedingt ein leichtes Spiel. Für kleinere Websites muss eine Robots.txt keine zahlreichen Anweisungen beinhalten, bei größeren Seiten und Online-Shops kann die richtige Bedienung der Robots.txt aber eine wichtige Rolle für Crawlbarkeit und saubere Indexierung spielen.


Philippe Großmann

Philippe Großmann

Philippe entwickelt Online Marketing Kampagnen, ist Web-Analytics Enthusiast und ein großer Fan von PPC-Marketing.