Was ist ein Crawler? (Spider, Robots)

Ein Crawler ist ein kleines „Programm“, dass automatisch bestimmte Websites durchsucht und die gefundenen Inhalte auf eine bestimmte Art und Weise verarbeiten. Man nennt sie auch „Spider“ oder „Robots“, kurz „bots“. In aller Regel folgen die Crawler automatisch den Links auf Websites. In manchen Fällen werden Crawler aber auch nach anderen Kriterien zu URLs geleitet.

Viele Firmen nutzen Crawler, um die Inhalte des öffentlichen WWW zu durchforsten. Die seriösen Konzerne (wie Google, bing etc.) weisen sich dabei in den Logfiles aus, d.h. sie hinterlassen ihren Namen, so dass man sie bei einer Logfile-Analyse identifizieren kann. Viele unseriöse Anbieter nutzen jedoch Crawler, ohne sich auszuweisen. Das geschieht entweder aus Unkenntnis – oder weil die Aktivitäten unlauteren Zielen folgen (zum Beispiel dem automatischen Scrapen von Inhalten anderer Websites).

Google Crawler / Googlebots

In Zusammenhang mit der Suchmaschinenoptimierung kommt den Crawlern eine besondere Bedeutung zu. Das gilt insbesondere für die verschiedenen Google-Crawler. Dazu gehören:

Googlebot (Deskop und Tablett): Googlebot/2.1 oder Mozilla/5.0
Googlebot (Smartphone): Mozilla/5.0
Googlebot-Image/1.0
Googlebot-Video/1.0
Googlebot-News
AdsBot-Google (Zielseiten-Qualitätsprüfung für Adsense / Adwords)
Google-App-Crawler

Anweisungen mit Hilfe der robots.txt

Als Website-Betreiber kann man den verschiedenen Bots gezielte Anweisungen übergeben. Das funktioniert bei den seriösen Crawlern auch recht stabil und sicher – bei unseriösen Bots kann man sich nie sicher sein, ob sie sich daran halten.

Ressourcen

support.google.com: Google-Crawler

tagSeoBlog – Seo Blog

Bilder optimieren, Seo und Google Bildersuche

Was ist ein Crawler? (Spider, Robots)

Google Crawler / Googlebots

Anweisungen mit Hilfe der robots.txt

Ressourcen