Der Googlebot-Image/1.0 Crawler – kleine Logfiles Analyse

Der Googlebot-Image/1.0 Crawler – kleine Logfiles Analyse

Fremde im Paradies
Fremde im Paradies

Wie gestern angekündigt, möchte ich mal die Google-Bildersuche unter die Lupe nehmen. Fast 10% aller Suchabfragen werden über images.google entschieden. Aber während die SEO-Szene sich endlose Debatten über die Optimierung für die „textbasierte“ Suche liefert, sind interessante Artikel über die Bildersuche recht rar. Ich möchte mal einen Anfang machen.

In diesem ersten Artikel habe ich dafür meine logfiles ausgewertet, um einen Überblick zu erhalten, wie oft der Googlebot-Images Crawler eigentlich vorbeikommt, wie viele Bilder er pro Besuch abklappert, ob es eine erkennbare „Suchreihenfolge“ gibt und so. Ich bin doch ziemlich überrascht, denn vieles habe ich anders erwartet.

Vorweg: Ich habe für diese Analyse die Logfiles für meine domain https://www.martin-missfeldt.de ausgewertet. Der Auswertungszeitraum umfasst 8 Wochen, vom 15.09.2008 bis 11.11.2008. In diesem Zeitraum hat der googlebot-Image/1.0 insgesamt 3991 mal auf meine Bilder zugegriffen. Ob und in wie weit diese Daten verallgemeinerbar sind, wird sich hoffentlich noch zeigen. Als Einstieg sollte das zunächst reichen. Als großer Fan der sachlichen und mit Zahlenmaterial unterfütterten Analyse von Sistrix, versuche ich auch, meine Ergebnisse in Diagrammen und Tabellen zu visualisieren.

Wie oft kommt der Googlebot-Image/1.0 Crawler?

Meine Beobachtung ist, das es oft Wochen, manchmal Monate dauert, bis ein neues Bild auf meiner Website dann auch bei images.google zu finden ist. Bisher bin ich davon ausgegangen, das der Bilder-Crawler („Googlebot-Image 1.0„) nur recht selten, vielleicht alle zwei Wochen vorbeikommt. Um so überraschender das Ergebnis: Der googlebot-image kommt täglich vorbei:


Zu sehen ist, das der googlebot-image jeden Tag mindestens drei Mal auf die Bilder zugegriffen hat, im Durchschnitt fast 50 Zugriffe pro Tag. Der Anstieg im  Oktober könnte darauf zurück zu führen sein, das ich in der Zeit tatsächlich eine ganze Menge neuer Bilder auf meinen Seiten hinzugefügt habe.

Wie viele Bilder pro googlebot-Image Besuch?

Inden allermeisten Fällen greift googlebot-Image/1.0 pro Besuch nur auf ein bis drei Bilder zu.  Ich hatte erwartet, dass er nur selten kommt, und dann gleich einen ganzen Schwung Bilder abholt. Mitnichten. Aber wenn er auch nur wenige Bilder besucht, so kommt er doch recht oft vorbei (immerhin schafft er ja fast 50 Bilder pro Tag). In der folgenden Grafik kann man erkennen, wie oft der Googlebot-image Crawler herein schaut.

Ausgewertet wurde der „nächste Zugriff„, also die Zeitspanne, bis der googlebot-image wieder kommt. Der erste Ausschlag zeigt Zugriffe innerhalb eines Besuches. Dann kommt erst mal nichts (ca 2 Minuten). Aber schon nach 4 Minuten kommt der höchste Ausschlag. Das heißt: der Googlebot-image kommt irre oft, meist nach max 10 Minuten erneut. Nur in seltenen Fällen liegt die Zeitspanne seit dem letzten Besuch bei über 30 min. Der Maximalwert, der hier nicht dargestellt ist, betrug 23 Stunden.

Wann kommt der googlebot-Image?

Diese hohe Zugriffsfrequenz hat mich überrascht. Ich habe mich dann gefragt: Gibt es eine bevorzugte Zeit, zu der der googlebot-Image 1.0 vorbei schaut? Hier das Ergebnis:

Erneut anders als ich dachte. Ich ging davon aus, dass er Rücksicht auf die Besucherfrequenz nimmt. Google kennt ja eigentlich die Besucherströme meiner Seiten aufgrund von Analytics. Aber nichts dergleichen. Zu sehen ist, dass der Googlebot sich fast „menschlich“ verhält mit „Frühstück“ um sechs, „Mittag“ um eins und „Fernsehen von 20 – 22 Uhr“ ;-). Auf jden Fall interessant, dass der Googlebot keine „Rücksicht“ auf Länderkennung oder Analytics-Daten nimmt.

Welche Rückgabe Werte liefert der Googlebot-image/1.0?

Im letzten Teil möchte ich kurz auf eine Auswertung eingehen, die wohl einen Sonderfall meiner Seiten offenbart. Hintergrund ist, dass ich vor ca neun  Monaten einen großen Teil meiner Bildnamen von „Unterstrich_“ auf „Bindestrich-“ Schreibweise umgestellt habe. Das betraf sowohl die URLs als auch die Bilddateinamen. Ich hatte damals natürlich einen erheblichen Einbruch des Traffics zu verzeichnen, weil sich alle Seiten in den SEPRS neu finden mussten. Inzwischen bin ich aber wieder mit allen Seiten vertreten, und auch die meisten Bilder sind wieder auf ihren Plätzen gelandet. Interessant ist das Ganze, wenn man sich folgende Grafik ansieht, in der ich die Rückgabe Werte des Googlebot-image in den Logfiles zusammengefasst habe.

googlebot-image: Rückgabewerte

Zu erkennen ist, dass nur weniger als die Hälfte den Wert 200 für OK haben. Allerdings sind das nicht nur neue Bilder, sondern auch welche, die google eigentlich schon im Index hat. Fast ebensoviele Bilder, die der googlebot aufsucht, sind nicht geändert (304). Der image-bot prüft also sehr intensiv, ob gelistete Bilder noch da sind oder sich möglicherweise geändert haben. Der Wert für 301, also für Bilder, die „dauerhaft an anderer Stelle“ sind, ist nach meiner Einschätzung recht hoch. Ich führe das auf oben beschriebene Änderung im Dateinamen zurück. Interessant daran ist, dass das nun wirklich schon lange zurück liegt. Google prüft also noch Monate später Bilder, die mal im Index waren, aber schon lange raus sind.

Warum checkt der googlebot-image Crawler noch diese alten Bilder, die nirgendswo mehr verlinkt sind? Ich habe nur eine Erklärung: google hat irgendwo im Hintergrund eine Liste von Bildern, die meiner Site zugeordnet werden. Diese Liste wird von dem eigentlichen Bot gespeist. Aber sie verändert sich offenbar nur träge, so dass der googlebot-image immer noch nach uralten, längst vergessenen Bildern sucht.

Gibt es eine erkannbare „Suchstrategie“ vom googlebot-Image?

Anders gesagt: Ich hätte erwartet, dass google die Bilder in einer bestimmten Reihenfolge durchforstet. Nahe liegend wäre die Reihenfolge, die die Bilder auf der Website haben. Nichts dergleichen. Als zweites habe ich geprüft, ob es eine Suchstrategie gäbe, die mit der sitemap.xml zusammenhängt. Erneut keine Übereinstimmung. Auch der Zeitpunkt, wann die Bilder zum ersten Mal online waren, hat nichts damit zu tun. Tja, ich bin mir eigentlich sicher, dass google als Maschine nicht mit Zufall arbeitet, sondern einem Plan folgt. Aber welchem? Erneut vermute ich, dass google eine Art „Bilderliste“ hat, die abgearbeitet wird. Und die durch den normalen googlebot ergänzt wird.

Soweit eine erste Bestandsaufnahme. Im zweiten Teil ein einigen Tagen wird es um die Frage gehen, welche „Optimierungsmöglichkeiten“ so durch die Seo-Szene geistern und welche davon nach meiner Erfahrung Sinn machen und welche nicht.

Wie man die logfiles selber auswerten kann, wird hier beschrieben: Googlebot Crawler Aktivität – Logfiles selber auswerten

Googlebot Image Crawler
Googlebot Image Crawler - Webcrawler für Bilder

3 Gedanken zu „Der Googlebot-Image/1.0 Crawler – kleine Logfiles Analyse

  1. Hallo Martin,
    auch wenn dieser Artikel schon etwas älter ist, folgende Frage:
    Mir ist bei der Logfile-Analyse nach einer Umstellung auf https aufgefallen, dass der Googlebot-Image offenbar 301-Redirects nicht „folgt“. Will sagen: er ruft die Image-Ressource unter der alten http-Url auf, bekommt dafür einen redirect 301 als Antwort und folgt dieser neuen Url dann nicht. Ist Dir das schon mal begegnet? Und wenn ja: wo liegt der Fehler (bei mir).
    Danke und Gruß,
    WSchroeder

    1. Ja, danke für die Beobachtung. Ich habe noch nichts umgestellt, insofern kann ich es selber nicht bestätigen. Ich weiß aber von anderen, dass der Image-Crawler Probleme mit https hat. Ich glaube, David Radicke hat das mal John MÜller gefragt. Vielleicht kommst Du über einen der beiden voran …

Kommentare sind geschlossen.

Kommentare sind geschlossen.