Blogbeitrag

SEO

Nadine

Wolff

veröffentlicht am:

11.01.2019

Crawling – Die Spinne unterwegs auf Ihrer Webseite

Inhaltsverzeichnis

Kein Inhaltsverzeichnis vorhanden
Kein Inhaltsverzeichnis vorhanden
Kein Inhaltsverzeichnis vorhanden

In diesem Artikel erhalten Sie einen Überblick darüber, was dieses „Crawling“ überhaupt ist und was der Unterschied zur Indexierung bei Google ist. Zusätzlich lernen Sie eine kleine Auswahl von Webcrawlern kennen und erhalten einen kurzen Einblick über Ihre Schwerpunkte.

Auch die Arbeit und die Steuerung des Google Crawlers werden Sie in diesem Artikel lernen, denn das Crawling kann mit einigen einfachen kniffen gesteuert werden.

Der Begriff “crawlen” ist ein grundlegender Fachbegriff in der Suchmaschinenoptimierung.

Oft werden die beiden Begriffe „Crawling“ und „Indexierung“ verwechselt oder miteinander vermischt.

Im Grunde sind die beiden Begriffe so relevant, dass die gesamte Web-Welt davon abhängt.

Welche crawler gibt es?

Ein Web-Crawler (auch bekannt als Ameise, Bot, Web-Spider oder Web-Robot) ist ein automatisiertes Programm oder Skript, das Webseiten automatisch nach ganz bestimmten Informationen durchsucht. Dieser Vorgang wird als Webcrawling oder Spidering bezeichnet.

Es gibt verschiedene Verwendungsmöglichkeiten für Web-Crawler. Im Wesentlichen werden Web-Crawler jedoch zum Sammeln & Abrufen von Daten aus dem Internet verwendet. Die meisten Suchmaschinen verwenden es als Mittel, um aktuelle Daten bereitzustellen und die neuesten Informationen im Internet zu finden (z.B. die Indexierung bei Google auf den Suchergebnisseiten). Analyse-Unternehmen und Marktforscher verwenden Web-Crawler, um Kunden- und Markttrends zu ermitteln. Im Folgenden stellen wir Ihnen einige bekannte Web-Crawler speziell für den SEO Bereich vor:

  • ahref - ahrefs ist ein bekanntes SEO-Tool und liefert sehr konkrete Daten im Bereich Backlinks und Keywords.

  • semrush - eine All-in-One Marketing-Software ist ausschließlich für SEO, Social Media, Traffic und Content-Recherche gedacht.

  • Screaming Frog - ist ein SEO SpiderTool als herunterladbare Software für Mac OS, Windows und Ubuntu. Es ist als kostenlose und kostenpflichtige Version erhältlich

Crawling vs. Indexierung

Crawling und Indexierung sind zwei verschiedene Dinge, dies wird im SEO-Bereich häufig missverstanden. Crawling bedeutet, dass der Bot (z.B. der Googlebot) den gesamten Inhalt (das können Texte sein, Bilder oder CSS Dateien) auf der Seite betrachtet und analysiert. Indexierung bedeutet, dass die Seite in den Google-Suchergebnissen angezeigt werden kann. Das eine geht ohne das andere nicht.

Stellen Sie sich vor, dass Sie in einem großen Hotel Flur entlang gehen, links und rechts von Ihnen befinden sich geschlossene Türen. Bei Ihnen ist jemand z.B. ein Reisebegleiter, der in diesem Fall der Googlebot ist.

  • Wenn es Google erlaubt ist, eine Seite (einen Raum) zu durchsuchen, kann er die Tür öffnen und tatsächlich sehen, was sich darin befindet (crawlen).

  • An einer Tür befindet sich möglicherweise ein Hinweisschild, dass der Googlebot den Raum betreten darf und anderen Personen (Ihnen) den Raum zeigen darf (Indexierung möglich, die Seite wird in Suchergebnissen angezeigt)

  • Das Hinweisschild an der Tür könnte auch bedeuten, dass er den Personen das Zimmer nicht zeigen darf („noindex“). Die Seite wurde gecrawlt, da er hineinschauen konnte, aber nicht in den Suchergebnissen angezeigt, da er angewiesen ist, den Leuten den Raum nicht zu zeigen).

  • Wenn eine Seite für den Crawler blockiert ist (z. B. ein Schild an der Tür mit der Aufschrift "Google darf nicht hier rein"), wird er nicht hineingehen und sich umsehen. Also riskiert er keinen Blick in den Raum, aber er zeigt den Personen (Ihnen) den Raum (Index) und sagt ihnen, dass sie hineingehen dürfen, wenn sie wollen.

    • Selbst wenn es eine Anweisung im Inneren des Raums gibt, die ihn auffordert, die Leute nicht in den Raum gehen zu lassen („noindex“ Meta-Tag), wird er es niemals sehen, da er nicht in den Raum durfte.

Das Blockieren einer Seite über die robots.txt bedeutet also, dass sie für die Indexierung in Frage kommt, unabhängig davon, ob Sie ein Meta-Robots-Tag „index“ oder „noindex“ in der Seite selbst haben (da Google dies nicht sehen kann, weil er blockiert ist), so dass es standardmäßig als indexierbar behandelt wird. Dies bedeutet natürlich, dass das Ranking-Potenzial der Seite verringert ist (da der Inhalt der Seite nicht wirklich analysiert werden kann. Wenn Sie schon einmal ein Suchergebnis gesehen haben, in dem die Beschreibung etwa „Die Beschreibung dieser Seite ist aufgrund von robots.txt nicht verfügbar“ enthält, ist dies der Grund.

[caption id="attachment_23214" align="aligncenter" width="607"]

Suchergebnisseite bei Google mit einer gesperrten Beschreibung aufgrund der robots.txt

Suchergebnisseite bei Google mit einer gesperrten Beschreibung aufgrund der robots.txt[/caption]

Google Crawler – er kam, er sah und er indexierte

Der Googlebot ist der Such-Bot von Google, der das Web durchsucht und einen Index erstellt. Er ist auch als Spinne (Spider) bekannt. Der Bot durchsucht jede Seite, auf die er Zugriff hat und fügt sie dem Index hinzu, wo er von Suchanfragen der Nutzer abgerufen und zurückgegeben werden kann.

Im SEO Bereich wird zwischen der klassischen Suchmaschinenoptimierung und der Googlebot-Optimierung unterschieden. Der Googlebot verwendet mehr Zeit zum Durchsuchen von Webseiten mit erheblichem PageRank. Beim PageRank handelt es sich um einen Algorithmus von Google, der im Grunde die Verlinkungsstruktur einer Domain analysiert und gewichtet. Die Zeit, die der Googlebot Ihrer Website zur Verfügung stellt, wird als „Crawling Budget“ bezeichnet. Je größer die „Autorität“ einer Seite ist, desto mehr „Crawling Budget“ erhält die Webseite.

In einem Googlebot-Artikel von Google heißt es: „In den meisten Fällen greift der Googlebot im Durchschnitt nur einmal alle paar Sekunden auf Ihre Website zu. Aufgrund von Netzwerkverzögerungen kann die Frequenz über kurze Zeiträume gesehen jedoch höher erscheinen." Mit anderen Worten: Ihre Website wird immer gecrawlt, vorausgesetzt, Ihre Website akzeptiert Crawler. In der SEO-Welt gibt es viele Diskussionen über „Crawling-Rate“ und wie Google dazu gebracht wird, Ihre Webseite für ein optimales Ranking erneut zu durchsuchen. Der Googlebot durchsucht Ihre Webseite ständig. Je mehr Aktualität, Backlinks, Kommentare usw. vorhanden sind, desto wahrscheinlicher ist es, dass Ihre Webseite in den Suchergebnissen angezeigt wird. Beachten Sie, dass der Googlebot nicht ständig alle Seiten Ihrer Website durchsucht. In diesem Zusammenhang möchten wir Sie auf die Wichtigkeit von aktuellem und gutem Content hinweisen - frische, konsistente Inhalte gewinnen immer die Aufmerksamkeit des Crawlers und erhöhen die Wahrscheinlichkeit, dass Top-Seiten platziert werden.

Der Googlebot greift zuerst auf die Datei "robots.txt" einer Webseite zu, um die Regeln für das Crawlen der Webseite abzufragen. Nicht zugelassene Seiten werden in der Regel nicht gecrawlt oder von Google indexiert.

Der Crawler von Google verwendet die sitemap.xml, um alle Bereiche der Website zu ermitteln, die gecrawlt und von einer Google Indexierung belohnt werden sollen. Aufgrund der unterschiedlichen Art und Weise, wie Websites erstellt und organisiert werden, durchsucht der Crawler möglicherweise nicht automatisch jede Seite oder jeden Abschnitt. Dynamische Inhalte, niedrig eingestufte Seiten oder umfangreiche Inhalts Archive mit geringen internen Verlinkungen könnten von einer genau erstellten Sitemap profitieren. Sitemaps sind auch nützlich, um Google über die Metadaten zu informieren, die sich hinter Videos, Bildern oder beispielsweise PDF Dateien befinden. Sofern die Sitemaps diese teils optionalen Auszeichnungen benutzt. Wenn Sie mehr über den Aufbau einer Sitemap erfahren möchten, lesen Sie den Blogartikel zum Thema “die perfekte Sitemap”.

Die Steuerung des Google Bots, um Ihre Webseite indexieren zu lassen, ist kein Geheimnis. Mit einfachen Mitteln wie beispielsweise einer guten robtos.txt und einer internen Verlinkung kann schon sehr viel erreicht werden und das Crawling beeinflussen.

Sie haben wenig Seiten, die eine Google Indexierung zulassen? Melden Sie sich bei uns. Wir unterstützen Sie bei der der Strategie und bei der technischen Umsetzung.

Was können wir für Sie tun?

Sie möchten sicher gehen, dass Ihre Website richtig gecrawlt wird? Gerne beraten wir Sie zum Thema Suchmaschinenoptimierung!

Wir freuen uns auf Ihre Anfrage.

Nadine

Wolff

Als langjährige Expertin im Bereich SEO (und Webanalyse) arbeitet Nadine Wolff seit 2015 bei den internetwarriors. Sie ist Teamlead im Bereich SEO & Webanalyse und begeistert sich für alle (teils schrägen) Neuerungen von Google und den anderen großen Suchmaschinen. Im Bereich SEO hat Nadine Fachartikel in der Website Boosting veröffentlicht und freut sich auf fachliche Workshops und einen nachhaltigen organischen Austausch.

noch keine Kommentare

Anschrift

Bülowstraße 66

Aufgang D3

10783 Berlin

Newsletter

Anschrift

Bülowstraße 66

Aufgang D3

10783 Berlin

Newsletter

Anschrift

Bülowstraße 66

Aufgang D3

10783 Berlin

Newsletter