Workshop – SEO für Techniker

Das kann die IT zum SEO-Erfolg beitragen

09.11.2015 von Boris Bergmann

Mit einer guten Platzierung bei Suchmaschinen wie Google erreichen Unternehmen potenzielle Kunden und Partner. Neben den inhaltlichen Optimierungen einer Webseite kann auch die IT viel zur besseren Platzierung einer Firmen-Webseite beitragen. Auf welche technischen SEO-Faktoren es ankommt, erklärt diese Workshop-Reihe.

Der Hinweis von Matt Cutts ist klar und unmissverständlich. Eine der größten Fehlerquellen für eine schlechte Platzierung von Webseiten, so der "Head of Webspam", liegt nach wie vor darin, dass Webseiten nicht richtig gecrawlt – also von Suchrobotern durchsucht - werden können. Kann Googles Webcrawler „Googlebot“ nicht auf eine Webseite und deren Inhalte zugreifen, so wird die Seite von Google nicht richtig dargestellt oder im schlimmsten Fall bei Suchanfragen ignoriert. Die Folge: das eigene Unternehmen oder dessen Produkte und Dienstleistungen werden von Interessenten womöglich nicht gefunden.

Zu Beginn einer SEO-Ist-Analyse sollte daher immer geprüft werden, ob die eigene Webseite bereits im Index der Suchmaschine enthalten ist. Ein guter Weg dies zu prüfen, ist die Verwendung des site:-Parameters. Auf einfache Weise lässt sich so ein Überblick über die aktuelle Indexierung einer Webseite gewinnen. Dies gilt im Übrigen nicht nur für die eigene Webseite, sondern ebenfalls für die von Mitbewerbern und Konkurrenten.

Bei Bedarf kann das site:-Parameter auch für die Kontrolle einzelner Seitenbereiche herangezogen werden oder für eine Analyse der Bilder und Grafiken, die eine Suchmaschine auf einer Website gefunden und in den Index gespeichert hat. Hierfür muss einfach die komplette Adresse der Webseite kopiert und zusammen mit dem site:-Parameter in den Google-Suchschlitz eingegeben werden. Die site:-Abfrage funktioniert nach dem gleichen Prinzip auch bei den Suchmaschinen Bing und Yahoo!.

Beispiel Startseite:
site:www.tecchannel.de

Beispiel Google Bilder-Suche
site:tecchannel.de inurl:tecchannel.de

Der zusätzliche Operator inurl: bewirkt im oben genannten Beispiel, dass nur Bilder angezeigt werden, die auf tecchannel.de eingebunden sind und auch von tecchannel.de ausgeliefert werden. Ohne diesen Operator werden auch Bilder angezeigt, die auf einer Domain eingebunden sind, jedoch nicht von dieser Domain ausgeliefert werden.

Beispiel für einen Seitenbereich
site:www.tecchannel.de/software/

Führt diese kurze Ist-Analyse zum Ergebnis, dass Startseite oder Unterseiten nicht im Index enthalten sind, sollte im nächsten Schritt überprüft werden, ob es Hindernisse für ein schnelles und einfaches Crawlen der betroffenen Webseite gibt. Technische Hürden für Crawlability und Indexierung sind einer häufigsten Ursachen für eine schlechte Platzierung in Suchmaschinen.

Indexierung & Crawling

Es gibt grundsätzlich zwei Ansätze, die Indexierung und das Crawling einer Webseite von technischer Seite aus zu steuern. Die eine Möglichkeit ist die Verwendung einer robots.txt-Datei. Hierüber können bestimmte Verzeichnisse, Seiten oder Dateiformate vom Crawling ausgeschlossen werden. Dies hat den Effekt, dass der Inhalt der jeweiligen Seiten nicht durchsuchbar ist.

Es kann jedoch passieren, dass die URL trotzdem in den Index von Suchmaschinen aufgenommen wird. Wird in den Suchergebnissen eine Seite gelistet, die über die robots.txt gesperrt ist, wird in der Google-Suche der Hinweis „Aufgrund der robots.txt dieser Website ist keine Beschreibung für dieses Ergebnis verfügbar.“ angezeigt.

Beispiel einer robots.txt anhand der Website von Google.de

Ist die Webseite über die site:-Abfrage gar nicht oder nur partiell zu finden, sollte als erstes die robots.txt der Domain überprüft werden. Diese ist unter domain.de/robots.txt zu finden. Werden hier bestimmte Seiten, Verzeichnisse oder Dateien ausgeschlossen, die auch für die Darstellung in der Suchmaschine relevant sind, sollte die Anpassung der robots.txt-Datei in Betracht gezogen werden.

Ziel sollte es sein, dass der Crawler auf alle relevanten Seiten zugreifen kann. Andernfalls kann die Webseite mit diesen Inhalten nicht gefunden werden. Weitere Informationen über die Funktion der robots.txt-Datei liefern SELFHTML und robotstxt.org.

Ausschluss per NoIndex

Die zweite Möglichkeit, die Indexierung einer Webseite zu beeinflussen ist die Verwendung des Meta-Tags „noindex“. Die Angabe noindex führt dazu, dass die jeweilige Seite nicht in den Index einer Suchmaschine übernommen wird.

Wichtig: Ist die Seite über die robots.txt ausgeschlossen, kann das Meta-Tag nicht ausgelesen werden und die URL wird womöglich trotzdem in den Suchmaschinenindex aufgenommen. Die Anweisung noindex kann im HTML-Head der Webseite übergeben werden. Anders als die Anweisungen in der robots.txt wirkt sich die noindex-Angabe im HTML-Head immer nur auf die Seite aus, auf der die Angabe verwendet wird. So kann sehr feingranular festgelegt werden, welche Seiten in den Index aufgenommen werden sollen und welche nicht.

<meta name="robots" content="noindex" />

Alternativ kann die noindex Angabe auch über Hypertext Transfer Protocol (HTTP) übergeben werden. Diese Möglichkeit ist vorrangig für die Verwendung bei Dateien (z.B. PDF, DOC etc.) vorgesehen, kann aber auch für HTML-Seiten verwendet werden. Über diesen Ansatz lässt sich z.B. erreichen, dass bestimmte Dokumente nicht in den Index aufgenommen werden.

HTTP/1.1 200 OK (…) X-Robots-Tag: noindex (…)

Ist die eigene Webseite über die site:-Abfrage nicht zu finden und die robots.txt wurde bereits geprüft, sollte die Webseite hinsichtlich der Verwendung der noindex-Angabe untersucht werden.

Tipp: Das kostenlose Plugin Seerobots hilft bei der Auswertung der robots-Angaben. Das Plugin ist für die Browser Chrome und Firefox verfügbar und kann Hinweise liefern, warum eine bestimmte Seite nicht im Index enthalten ist.