Was ist ein Crawler? (Spider, Robots)

Was ist ein Crawler? (Spider, Robots)

Ein Crawler ist ein kleines „Programm“, dass automatisch bestimmte Websites durchsucht und die gefundenen Inhalte auf eine bestimmte Art und Weise verarbeiten. Man nennt sie auch „Spider“ oder „Robots“, kurz „bots“. In aller Regel folgen die Crawler automatisch den Links auf Websites. In manchen Fällen werden Crawler aber auch nach anderen Kriterien zu URLs geleitet.

Viele Firmen nutzen Crawler, um die Inhalte des öffentlichen WWW zu durchforsten. Die seriösen Konzerne (wie Google, bing etc.) weisen sich dabei in den Logfiles aus, d.h. sie hinterlassen ihren Namen, so dass man sie bei einer Logfile-Analyse identifizieren kann. Viele unseriöse Anbieter nutzen jedoch Crawler, ohne sich auszuweisen. Das geschieht entweder aus Unkenntnis – oder weil die Aktivitäten unlauteren Zielen folgen (zum Beispiel dem automatischen Scrapen von Inhalten anderer Websites).

Google Crawler / Googlebots

In Zusammenhang mit der Suchmaschinenoptimierung kommt den Crawlern eine besondere Bedeutung zu. Das gilt insbesondere für die verschiedenen Google-Crawler. Dazu gehören:

  • Googlebot (Deskop und Tablett): Googlebot/2.1 oder Mozilla/5.0
  • Googlebot (Smartphone): Mozilla/5.0
  • Googlebot-Image/1.0
  • Googlebot-Video/1.0
  • Googlebot-News
  • AdsBot-Google (Zielseiten-Qualitätsprüfung für Adsense / Adwords)
  • Google-App-Crawler

Anweisungen mit Hilfe der robots.txt

Als Website-Betreiber kann man den verschiedenen Bots gezielte Anweisungen übergeben. Das funktioniert bei den seriösen Crawlern auch recht stabil und sicher – bei unseriösen Bots kann man sich nie sicher sein, ob sie sich daran halten.

Ressourcen