Bilder-Indexierung und Google-Images-Crawler (Logfile-Analyse)
Was macht eigentlich der Googlebot-Image? Ingo hat vor einigen Tagen darauf hingewiesen, dass er bei der Crawler-Aktivität erneut einige Veränderungen beobachtet hat (siehe „Googlebot-Image aus dem Winterschlaf erwacht?„). Grund genug, dass mal in meinen Logfiles zu überprüfen. Grundlage der Folgenden Daten sind meine gesamten Logfiles, in denen neben den Aktivitäten bei martin-missfeldt.de auch zum Beispiel dieser Blog oder die neue Domain bildersuche.org protokolliert werden. Insgesamt sind es ca. 15 Bildergalerien, die dort eingebunden sind. Was sagen die Zahlen in Bezug auf die Bilder? Hat das irgend etwas mit der stockenden Indexierung neuer Bilder zu tun?
Bot-Aktivität: Änderungen ab Oktober 2010
Zur Erinnerung: Im Herbst 2010 hat Google die Indexierung von Bildern prinzipiell umgestellt. Während vorher der „normale“ Googlebot2.1 für die Indexierung von Webseiten zuständig war (zumindest im Wesentlichen), und der Googlebot-Image1.0 sich um die Indexierung der Bilder gekümmert hat, änderte sich dieses Verhalten so ab Oktober 2010 grundlegend. Der „normale Googlebot übernahm immer mehr die Arbeit des Imagebot und steuerte vermehrt Bilder an, mit der Folge, dass die Indexierung neuer Bilder seither rasant schnell ging. Innerhalb weniger Tage, manchmal sogar nur Stunden, konnte man neue Bilder in der Bildersuche wiederfinden.
Wie sieht es nun aus?
Ich habe im Folgenden die Googlebot-Aktivitäten der vergangenen sechs Wochen ausgewertet und die Zahlen in einer Tabelle anschaulich gemacht. Es geht, wie gesagt, nur um die Aktivitäten der Bots, was die Bilder betrifft. Ich habe nur diejenigen Zahlen aus den Logfiles ausgewertet, die die Bilder, in aller Regel Jpegs, betreffen.
Links erkennt man auf der x-Achse die Anzahl der täglichen Bot-Besuche. Unten auf der y-Achse ist der Zeitraum vom 14. Februar 2011 bis 28. März 2011 – also insgesamt 6 Wochen – zu erkennen. Die rote Kurve zeigt den Verlauf des „normalen“ Googlebot 2.1. Der Images-Bot (Googlebot-Images/2.1) wird durch die blaue Kurve dargestellt.
Es ist deutlich zu erkennen, dass es recht starke Schwankungen gibt. Das gilt insbesondere für den Images-Bot. Der „normale“ Googlebot ist in der Tendenz stabiler. Und er scheint auf die Aktivität des Imagesbot zu reagieren: je häufiger der Imagesbot, um so mehr zieht sich der normale Bot in Sachen Bilder-Crawling zurück.
Außerdem ist mir aufgefallen, dass der normale Googlebot offenbar nur vorhandene Bilder auf unveränderte Existenz überprüft. Der Images-Bot ist nach wie vor für die neu-Indexierung zuständig. Aber eben auch für die Kontrolle der indexierten Bilder, die nach meiner Schätzung ca. 90 – 95% der Arbeit des Images-Bot ausgemacht hat. Und wenn ihm der normale Bot diese Kontrollarbeit abnimmt, hat der Images-Bot entsprechend mehr Kapazitäten, um schneller neue Bilder zu indexieren.
Zurück zum „Google-Images-Update“???
Diese permanente Indexierung neuer Bilder ist erneut ins Stocken geraten. Gestern habe ich so eine Art „Google Images-Update“ beobachtet: Im Laufe des gestrigen Montags kamen bei fast allen Domains eine Reihe neuer Bilder in den Index. Ich prüfe das stets mit der „Site:-Abfrage“ in der Google-Bildersuche.
Die letzten Bilder, die in die Google-Bildersuche gelangt waren, sind über 8 Tage alt gewesen. Anders gesagt: ca. 7 Tage lang wurden keine neuen Bilder in die Google Bildersuche aufgenommen. Und gestern dann ein ganzer Schwung auf einmal. Das Ganze erinnert stark an alte Zeiten, in denen neue Bilder stets durch dieses Nadelöhr „Google Images-Update“ mussten.
Mal abwarten, wie sich das die nächsten Tage entwickelt. Mit Grausen erinnere ich mich, dass wir Anfang 2010 schon einmal eine ähnliche Situation hatten: zu Jahresbeginn wurden neue Bilder schnell und flüssig indexiert, doch dann geriet alles ins Stocken, und im Herbst 2010 dauerte es oft Wochen, bis neue Bilder in der Google Bildersuche auftauchten. Siehe dazu auch: „Neue Bilder in der Bildersuche – Return of Google Images Update !?“ (10. Mai 2010).
Leider kann ich nicht (obwohl ich die Hoffnung hatte), diese Veränderung der Indexierungsgeschwindigkeit aus dem Bot-Aktivitäten herauslesen. Aber vielleicht gelingt das ja anderen ;-)
Hübsches Logfile-Muster – Zufall?
Abschließend noch ein „Zufallsfund“ aus den Logfiles. Ich habe so etwas noch nie vorher gesehen. Es kann eigentlich nur Zufall sein, aber verblüffend ist es doch. Der Ausschnitt ist unbearbeitet und zeigt die Crawler-Aktivität vom 28.02.2011 von 00:43:23 bis 00:45:22 – also über einen Zeitraum von ca. 2 Minuten. (Klick zum Vergrößern)
Man sieht deutlich, wie die URL der Dateien stetig länger wird. Es scheint fast, als hätte der Bot sich vorab eine Liste gemacht, die nach Dateipfad-Länge sortiert und dann abgearbeitet. :-)
Weiterführende Artikel
- Google indexiert neue Bilder rasant schnell (Googlebot sei Dank)
- Neue Bilder in der Bildersuche – Return of Google Images Update !?
- Google bestätigt schnellere Indexierung von Bildern
21 Gedanken zu „Bilder-Indexierung und Google-Images-Crawler (Logfile-Analyse)“
Das Logfile-Muster ist übrigens auch bei Deep Crawls vom normalen Googlebot vorhanden.
Habe es schon sehr oft in den Logfiles von Schattendomains gesehen, die ja 1000 und mehr Seiten haben. Jeder Deep Crawl verläuft in der Regel dann nach diesem Muster.
Insofern dürfte das kein Zufall sein.
Ich frage mich öfters bei meinen unterschiedlichen seiten ob ich Google überhaupt zulassen soll meine Bilder zu crawlen. Bei manchen Seiten scheint es sinn zu machen, bei anderen wiederum nicht…
Mal wieder interessante Beobachtungen von dir, Martin.
Ist es möglich, dass Google Websites versucht in bild-lastig und text-lastig zu unterteilen, das heißt beim Crawlen sieht, ob es mehr Text oder mehr Bild-Updates gibt und diese Infos dann intern verwurschtlt und daraus dann … ja… irgendwas macht?
Über dem Bild Crawler-Statistik ist die Datumsangabe falsch, da muss 28.3. stehen :)
Es sieht fast so aus, als wolle der Bot bei Dir zeichnen;)
@dibro: Spannend. Hast Du da einen Link zu?
@Domi: interessante These. Du meinst, der Crawler passt sich jeweils an den zuletzt getätigten Änderungen. Möglich, müsste ich mal versuchen, daraufhin zu beobachten.
@Mariano: :D
Das mit der zunehmenden Länge der gecrawlten URLs habe ich auch schon öfter mal beim normalen Google-Bot gesehen. Also kein Zufall, aber irgendwie lustig. :-)
Bei mir geht die Bilderbot-Aktivität langsam wieder zurück. Dafür gab es aber vom 16. bis 26. März einige Bewegung in den Top-10 bei ein paar Bildern, die ich beobachte. Auch einige nicht unerhebliche Verbesserungen meiner Bilder konnte ich verzeichnen.
Na mal sehen, wie es weiter geht.
Jap, genau, so könnte z.B. festgestellt werden, ob eine Domain in der Bildersuche präsenter sein sollte als in den herkömmlichen SERPs. Wer weiß schon, was Google da im Hintergrund wurstelt :)
Dass kürzere Domains bevorzugt behandelt werden ist ja ebenfalls nichts neues, von daher ist diese Beobachtung schon fast vernachlässigbar. Aber so hat man dafür vlt. schon direkt bei der Indizierung einen Beweis :)
@tagSeoBlog: Habe leider keinen Link dazu. Mit konkreten Logdaten würde ja auch die Schattendomain enthüllt werden, was wir aus nachvollziehbaren Gründen nicht machen werden ;-)
@Schnurpsel: ja, wird wieder weniger, auch bei mir.
Und einen Anstieg vieler Bilder kann ich auch verzeichnen. Offenbar hat Google zu unseren Gunsten am Algo geschraubt ;-)
@DFomi: wir reden hier ja von Bildern. Das kurze URLs (und nicht domains) bevorzugt behandelt werden, wartet auf Verifizierung ;-) (Ich glaube das aber auch, unabhängig von diesem Logfile-Muster)
@dibro: schade ;-)
Naja, diese URL:
http://www.beispiel.tld/verz1/verz2/index.php?wert=1&variable=2
findet Tante Google bestimmt nicht so schick wie
http://www.beispiel.tld/seite
Da wird es sich bei Bildern ähnlich verhalten, da das Keyword, sprich der Bildername weiter vorne in der URL steckt und somit höher gewichtet wird.
Die Y! SiteExplorer Exports sind auch immer in weiten Teilen nach Länge sortiert. Und das macht beides IMHO auch irgendwie Sinn, da kürzere URLs häufig 1. stärker sind (und wenn nur durch interne Links), 2. weiter oben in der Seitenhirachie stehen, 3. eine geringere Chance auf Nutzlose Parameter aufweisen, 4. eher deskriptiv sind und darum per se einen Mehrwert für den Suchenden bieten, 5. seltener Spam beinhalten (letzteres ist jetzt eine Vermutung).
Warum also nicht auch die Queue sortieren um tollere Sachen schneller abzugrasen, wenn man vorher nicht weiss welche URL von denen jetzt am spannendsten ist.
Interessant ist die Beobachtung auf jeden Fall, lange nichts mehr in der Richtung gehört.
Also das kürzere URLs irgendwie besser, deskriptiver oder stärker sein sollen, ist für mich nicht nachvollziehbar.
Wieso soll z.B. das hier (schön kurz):
/afdsp11
besser sein, als das hier:
/anmeldung-fur-das-seo-poster-2011
?
Könnten die unterschiedlichen Aktivitäten der beiden GoogleBots vielleicht auch mit dem vorhandenen Content zusammen hängen? Ich kann mir gut vorstellen, wenn der Content hauptsächlich aus Bildern besteht, greift der Google –Image Bot. Findet einer der beiden Bots stattdessen anderen Content vor, also zum Beispiel Text, wird die Aufgabe vom Googlebot übernommen.
Dies könnte auch eine Ursache für die schnelle Indexierung von Bildern sein, die sich im textlichen Contentumfeld befinden. Gibt es da erste Erfahrungswerte?
Ich benutze die Google Bildersuche öfter mal um mir Bilder anzuschauen. Manchmal einfach nur zur Inspiration. Ich würde es schon gut finden, wenn die Suchergebnisse noch relevanter wären als bislang.
@Schnurpsel
Du kannst ja Keyworddomains pauschal nicht mit „Kauderwelsch“-Domains (vlt. sogar noch mit Variablen) vergleichen.
Wenn du zwei Keyworddomains vergleichst werde die einzelnen Keywords der kürzeren stärker gewertet als bei den längeren.
/anmeldung-fur-das-seo-poster-2011
vs.
/anmeldung-seo-poster
Wo bekommt die Phrase „SEO Poster“ die höhere Gewichtung? Ich bin mir sicher, dass das im zweiten Beispiel der Fall ist.
Ich hab dazu eine Frage. Früher war es möglich in den GWT in den Einstellungen zu definieren, ob Google die Bilder indizieren soll. Diese Option ist jedoch zum heutigen Zeitpunkt nicht mehr vorhanden. Weiß jemand mehr darüber? Soweit ich weiß, muss man aktuell nur mit Bilder-Sitemaps arbeiten. Ist das korrekt?
@Domi
Ich hatte mehr die Punkte 1, 2 und besonders 4 von Abro im Blick.
Man könnte das ja noch weiter reduzieren, nur noch auf
/seo-poster oder /seo oder /poster. :-)
Aber man sollte besser zwei völlig unterschiedliche URLs betrachten, mein Kauderwelsch-Beispiel war schlecht.
Also
/seo-poster
gegen
/bilder-optimieren-seo-basics
Was ist hier nun wichtiger, stärker oder spannender und wieso?
Und woher soll Google das wissen?
Es läuft wohl gerade wieder ein Neu-Bilder-Erfassungs-und-Indexierungs-Lauf. Schnurpsel-Bilder von vorgestern waren gestern in der Bildersuche, Putzlowitsch-Bilder von gestern abend sind jetzt bereits zu sehen.
Die Bildersuche bleibt weiterhin unberechenbar.
Ich hatte ja schon mal die Idee, auf einer Testseite automatisch einmal pro Stunde ein neues Bild zu veröffentlichen und gleichzeitig zu überwachen, wann welches Bild in den Index kommt. Vielleicht ist ja irgendwie ein Verhaltensmuster erkennbar. :-)
Boah, ist Google jetzt schnell. Bild von heute Vormittag ist jetzt bereits in der Bildersuche (site:) zu finden.
@Schnurpsel
/seo-poster
gegen
/bilder-optimieren-seo-basics
Link 1 besteht aus den folgen (Key)Words:
SEO + Poster
Link 2 aus diesen:
Bilder optimieren SEO Basics
Die Relevanz des ersten Links wird also erstmal auf 50% SEO und 50% Poster aufgeteilt. Beim zweiten Link beträgt die Relevanz pro Wort nur noch 25%. Es spielen da meiner Meinung nach auch noch andere Faktoren rein, eben Position des Keywords etc. Das „SEO“ an erster Stelle aus dem ersten Link hat unabhängig von der Anazhl der Wörter bestimmt eine höhere Relevanz als das Wort „SEO“ aus dem zweiten Link das nur an dritter Stelle steht.
Das sind meine Gedanken dazu :)
Kommentare sind geschlossen.