Google Bilder Experiment (Indexierung und Reihenfolge)

Google Bilder Experiment (Indexierung und Reihenfolge)

Der australische Seo Dan Petrovic hat ein interessantes Google Bildersuche Experiment gemacht. Er hat 100 Bilder mit Nummern von 1 bis 100 als Dateinamen auf einer Website platziert. Was macht Google damit? Wie lange dauert es, bis die Bilder indexiert werden? In welcher Reihenfolge werden die Bilder gecrawlt und indexiert? Und in welcher Reihenfolge tauchen sie in den Suchergebnissen auf? Dans Ergebnisse sind, naja, etwas verwirrend (siehe „SEO Experiment: Google Image Search„). Ich habe das Ganze daher noch einmal nachgebaut…

[Achtung: dieser Versuch hat mich aufs Glatteis geführt. Die Erkenntnisse sind ganz andere, als man zunächst erwartet. Wer keine Zeit hat, kann sich gleich das Fazit unten anschauen :-) ]

Zunächst der Versuchsaufbau. Ich habe aus dem folgenden Bild 100 Einzelbilder erstellt.

Google Imagesearch Test - Bilder von 1 bis 100 generiert

Die Einzelbilder wurden entsprechend der Nummern auf dem Bild von 01.png bis 100.png benannt. Dann habe ich daraus eine Seite gebaut, auf der die Bilder nummerisch geordnet liegen. Diese Seite habe ich auf Twitter, facebook und Google+ erwähnt, um den Googlebot dort hin zu locken. Alles was dann geschah, wird im Folgenden beschrieben (btw: es ist auch hier bei Google+ dokumentiert :-)

1. Die Seite im organischen Index

Wie zu erwarten war die neue Seite nach ca. 15 Minuten bei Google indexiert. Es hat zwar etwas länger gedauert als bei Blogartikeln, aber immerhin: Google ist mit dem Indexieren einfach rasant schnell. Logisch, wenn man so viel Wert auf Freshness legt.

2. Das erste Bild

Das erste Bild war 20 Minuten nach dem Hochladen in der Google Bildersuche zu finden. Interessanterweise war es Bild Nr. 01:

Bild 01 des Google Bilder Experiments
Bild 01 des Google Bilder Experiments

3. Mehr Bilder

Weniger Minuten später wuirden dann schon 35 Bilder mit der Site-Abfrage angezeigt. Merkwürdig nur, dass das Bild Nummer 01.png nun nicht mehr dabei war.

Google Bilder Experiment: die ersten 35 Bilder
Google Bilder Experiment: die ersten 35 Bilder

4. Plötzlich wieder alles weg…

Nun wird es ganz dubios. Denn erneut ein paar Minuten später waren alle Bilder wieder weg. Ich vermute, Google wollte die Bilder erst mal ganz schnell anzeigen, hat sie dann aber noch mal einem internen Auswertungsprozess unterzogen.

5. Wieder da, aber andere Reihenfolge

Es dauerte ca. 20 Minuten, dann wurden sie wieder angezeigt, allerdings zwei weniger als zuvor, nun 33. Interessanterweise aber in einer anderen Reihenfolge:

Google Bildersuche Experiment - nach ca. 20 Minuten waren die Bilder wieder da
Google Bildersuche Experiment – nach ca. 20 Minuten waren die Bilder wieder da

Warum sich die Reihenfolge nach der (vermuteten) internen Auswertung geändert hat, war mir zunächst ein Rätsel. Klar ist aber eines: die Reihenfolge der Bilder hat nichts mit den Bildnummern oder der Reihenfolge, mit der sie auf der Webseite auftauchen, zu tun. Es sieht vollkommen zufällig aus. Und das Bild Nummer 14, das zuvor noch auf Platz 1 lag, ist nun plötzlich nicht mehr da. Merkwürdig…

6. Suchen nach Farben

Man konnte allerdings schon nach einzelnen Farben suchen (Option in der linken Sidebar). Auch hier ist mir etwas interessantes aufgefallen: wenn man nach „blau“ sucht, werden viel mehr blaue Bilder angezeigt als bei der normalen Einstellung „Alle Farben“. Hier der Screenshot:

Blaue Bilder im Google Bildersuche Experiment
Blaue Bilder im Google Bildersuche Experiment

Die Nummer 27 zum Beispiel tauchte im zuvor gezeigten Screen gar nicht auf. Außerdem ist die Reihenfolge der Blauen Bilder eine ganz andere als die Reihenfolge der Blauen Bilder in der Gesamt-Darstellung.

6 Stunden später…

Ich habe dann erst mal abgewartet. Sechs Stunden später habe ich erneut den Stand der Dinge festgehalten. Aktuell ist die Anzahl der bei der Site-Abfrage angezeigten Bilder von 33 auf 42 angestiegen. Die Reihenfolge ist fast unverändert, allerdings haben sich die neun neuen Bilder komplett an die vorderen Positionen gelegt.

Google Bilder Experiment nach sechs Stunden
Google Bilder Experiment nach sechs Stunden

Ein paar Ausnahmen: Nummer 62 (oben) ist plötzlich verschwunden. Die Nummer 100, die ganz am Anfang schon einmal dabei war und dann rausgeflogen ist, ist nun wieder vorne eingestiegen.

Hier kann man sich ansehen, wie viele Bilder und in welche Reihenfolge Google aktuell anzeigt.

Alle Bilder längst indexiert…

Nun, ca. 7 Stunden nach dem Hochladen, habe ich folgendes probiert: mit einem angehängten Keyword (Erklärung) kann man die Site-Abfrage differenzieren:

site:tagseoblog.de/google-bilder-test 01

Zu meiner Überraschung musste ich feststellen, dass alle (!) Bilder bereits indexiert sind.  Sie werden nur nicht alle angezeigt. Und damit kommen wir dem Rätsel der zufälligen Reihenfolge auf die Spur: Die Reihenfolge der Ergebnisse einer Site-Abfrage ist einfach unsortiert bzw. zufällig. Vermutlich, weil in einer Site-Abfrage einfach kein Sortier-Kriterium drinsteckt. Mit einem angehängten keyword wird das im Prinzip nicht besser: dann zeigt Google zwar die passenden Bilder an, allerdings erneut ohne klare Reihenfolge.

Anders sieht es aus, wenn man nach einer konkreten Phrase sucht – so wie ganz am Anfang zum Beispiel nach dem ersten und einzigen Satz, der auf der Testseite auftaucht. und dann wird tatsächlich das erste Bild angezeigt.

Wie schnell und in welcher Reihenfolge wurden die Bilder indexiert?

Googlebot Image 1.0 - Testbilder-Crawling
Googlebot Image 1.0 – Testbilder-Crawling

Spätestens an diesem Punkt habe ich gemerkt, dass mich dieser Test bzw. die fehlerhafte Google-Site-Abfrage aufs Glatteis geführt hat. Wenn man etwas über die Indexierung erfahren möchte, muss man sich zunächst das Crawling-Verhalten des Googlebot-Images 1.0 in den Logfiles anschauen. Das etwas schwer lesbare Bild rehcts kann man durch Anklicken vergrößern, und dann stellt man folgendes fest:

  • Alle 100 Bilder wurden innerhalb von 2 Minuten gecrawlt (17:22 – 17:24)
  • Das war zehn Minuten nach dem Hochladen, und ca. 5 Minuten nach den Social-Links
  • Die Reihenfolge ist komplett zufällig: 46, 62, 38, 17, 14, 44, …
  • Warum der Bot nicht von oben nach unten arbeitet, und wie es zu der Crawl-Reihenfolge kommt, ist schleierhaft.

Fazit

Das Experiment zeigt vor allem eines: die Site-Abfrage von Google ist Mist.

  • Bilder werden von Google rasant schnell indexiert, wenn der Bot sie erst einmal gefunden hat.
  • Die zufällige Reihenfolge bei der Site-Abfrage resultiert aus einem fehlenden Ranking-Kriterium.
  • Die Site-Abfrage zeigt nicht alle Bilder an (offensichtlich ein Fehler).
  • -> Aus der Site-Abfrage kann man nicht auf den tatsächlichen Stand der Indexierung schließen!
  • Bei einer konkreten Suchanfrage wird das Bild genommen, das im Quelltext am nächsten an der gesuchten Phrase positioniert ist (in diesem Fall das erste, weil der Text vor dem ersten Bild steht).

Also im Grund alles so, wie man es erwarten konnte :-)

Weiterlesen…

27 Gedanken zu „Google Bilder Experiment (Indexierung und Reihenfolge)

  1. Schönes Experiment Martin und danke für die gute Dokumentation. Es ist echt beeindruckend wie schnell Google bei der Indexierung von neuen Bildern geworden ist.

    1. Die super-schnelle Indexierung hat vor allem mit der Crawlrate zu tun. Und die ist hier im Blog sehr hoch (weil hoher PageRank und dauerhaft hohe Posting-Frequenz). Bei kleineren Projekten von mir kann es durchaus etwas länger dauern (ich sag mal bis zu zwei Tagen), bis alle Bilder indexiert wären.
      Wichtig in dem Zusammenhang scheint mir auch, dass der Googlebot nach meiner Einschätzung verstärkt Social-Signals nachgeht. Wer also Inhalte schnell in den Index bekommen will, sollte Twitter, Facebook und vor allem Google+ nutzen. Je höher dort die Reputation, um so schneller geht’s mit der Indexierung – aber das ist ja eigentlich sowieso längst bekannt. Es gilt aber eben genauso auch für Bilder.

  2. Wow, hätte nicht gedacht das Google in den Suchergebnissen (site:example.org) so rumschlampt. Das zeigt mir aber auch, dass Google doch nicht so gut ist, wie immer gemeint wird. Danke für den Artikel.

  3. Für mich auch interessant, beim Farbfilter wird nicht nach Farbantteil sortiert. Ich hätte erwartet, das beim Filter „Blau“ die blauesten Bilder weiter vorne liegen, als z.B. die blaugrünen. Vielleicht hängt das aber auch mit der generellen „unsortierten“ Anzeige bei der site-Abfrage zusammen.

    1. Ja, dass kann Google offenbar auch (noch) nicht. Wäre aber sicherlich ne gute Idee, nach Farbintensität zu sortieren. Wobei die Meinungen, welcher Ton denn das „reinste“ Blau ist, auseinander gehen. Nur nach Hex- oder RGB Werten zu gehen, bringt ja nicht wirklich viel.

  4. Hm, mir werden bei der Site-Abfrage nun nur 11 Bilder angezeigt. Zwar richtig sortiert, aber mit Sprüngen… Sachen gibt’s… Danke für dein Experiment. Die Frage ist nur, was man dann alternativ nutzen kann, um verlässliche Werte zum Index zu bekommen.

    1. Und die Abfrage einzelner Farbräume (rot etwa) geht jetzt gar nicht mehr, da werden (zumindest bei mir) gar keine Ergebnisse mehr geliefert.

      1. Also bei mir geht es – eventuell gab es da einen Aussetzer. Oder es hat tatsächlich mit Datencentern zu tun, wie unten auch vermutet wurde.

  5. Merkwürdig finde ich Folgendes:

    Habe heute Morgen gegen 8:30 Uhr einen Post über den Brückenabriss an der A1 in Hittfeld online gestellt
    http://nachbarsgarten.blogspot.de/2012/05/requiem-fur-eine-brucke.html
    Die Fotos waren eine Stunde später über die Bildersuche zusammen mit Bildern vom November zu finden, prominent auf Seite 1. Jetzt sind die weg, dafür findet man auf der 3. oder 4. Seite Bilder von der Brücke aus dem Januar.

    PS.: Könnte man gut eine Schulungsunterlage draus bauen….

    1. Ja, die Beobachtung habe ich auch schon ein paar mal gemacht. Das passt ja zu dem, was ich oben geschrieben habe: eventuell schießt Google neue Bilder erst einmal „ungeprüft“ in die Bildersuche. Und erst dann beginnt eine Art „Auswertungsprozess“ – und anschließend reihen sich die Bilder da ein, wo sie laut Algo hingehören.
      Das widerspricht dann aber der „Datencenter-Theorie“ (siehe unten).

  6. Danke für das Experiment: Hast Du zufällig beobachten können, ob Dein Userverhalten in den SERPs (Klick auf die Bilder-Ergebnisse oder auch nur MouseOver-Verhalten für die Groß-Vorschau) Einfluß auf die Reihenfolge der Darstellung beim nächsten Mal hatte?

    1. Ich habe kein einziges Bild angeklickt. Jemand anderes wohl auch nicht. User-Signal als Ranking-Faktoren kann man in diesem Fall ausschließen.

  7. Hallo Martin, interessanter Test.
    Allerdings möchte ich auf Deine Aussage eingehen die Siteabfrage sei
    reiner Zufall und daher Mist. Das möchte ich so nicht unterschreiben.
    Vergiss nicht, dass egal wie zufällig die Ergebnisse aussehen wir es
    immer noch mit Maschinen zu tun haben, Maschinen folgen Programmen –
    also Algorithmen. Ich wage zu bezweifeln, dass die Googler für die
    Google-Bilder-Suche-Site-Abfrage extra einen Zufallswert berechnen, um
    die Bilder anzuzeigen.
    Vielleicht handelt es sich bei der „zufälligen“ Reihenfolge der Bilder
    tatsächlich nicht um eine Bewertung im SEO-Sinne wie wir das
    verstehen, aber irgendeine Art von Logik wird dahinter stecken.
    Ich gebe nur mal ein paar Anregungen, die alle nicht geprüft oder
    getestet sind und sicherlich zum größten Teil keinen SEO-Schluss
    zulassen, aber trotzdem für Google Grund sein könnten eine andere
    Reihenfolge zu präsentieren als die von Dir vorgegebene Folge von
    1-100:
    – Dateigröße der Bilder … durch verschiedene Farben und Ziffern
    innerhalb der Bilder wird sich die Dateigröße der Bilder (marginal)
    ändern
    – Ladezeit der Bilder … siehe Punkt 1 aber auch verschiedene äußere
    Faktoren (verschiedene Paket-Routen, die die einzelnen Bilder auf dem
    Weg zum Google-Server nehmen) bringen sicherlich (marginale und) für
    uns nicht nachvollziehbare Änderungen in der Ladezeit und somit ein
    Kriterium das Google heranziehen kann zur Sortierung, wir aber nicht
    nachprüfen können
    – interne Auswertungen über alle von Google indexierten Bilder hinweg,
    welche Farben (und Muster innerhalb von Bildern) am ehesten geklickt
    werden – übertragen auf Deine 100 Bilder
    – Nutze doch mal die Google-Imagesearch „anhand von Bildern“ und gib
    Google ein weißes Bild auf dem Du in roter Farbe das Wort Ferrari
    schreibst … dann mache dieselbe Suche und verschiebe das rote
    Ferrari um ein 50 Pixel nach links oder rechts oder … ich wage zu
    behauoten, dass die Ergebnisse anders aussehen, obowhl Du nach wie vor
    ein weißes Bild mit demselben roten Wort hast … Google erkennt hier
    andere Bildmuster und wählt anhand dessen aus
    – vielleicht schaut auch Google bei der Site-Abfrage nicht global,
    sondern lokal auf Deine Website welche Deiner Bilder in der Regel mehr
    gesucht und geklickt werden und versucht nach Farbe und „Muster“
    ähnliche Bilder aus Deiner 1-100 Liste zu bevorzugen
    – dass Du zwischenzeitlich mal keine Bilder gesehen hast …
    vielleicht ein Datacenter abgefragt auf dem die Bilder noch nicht
    geshart wurden?
    – immer wieder andere Reihenfolge … weil eben immer wieder neue
    Kriterien nachberechnet werden? Gib den Bildern ein paar Wochen bis
    alle Faktoren „drübergezogen“ wurden und vielleicht (ehrlich gesagt
    ich weiß es auch nicht … aber vielleicht) ändert sich dann nciht
    mehr so viel in der Reihenfolge.

    Versteh mich bitte nicht falsch – aber ich möchte einfach nur zur
    „Vorsicht“ aufrufen bevor gesagt wird Google handele zufällig nur weil
    wir nicht verstehen warum und wieso etwas anders angezeigt wird als
    wir das erwarten ;-)

    1. Wow, vielen Dank für die Anmerkungen und kritischen Nachfragen. Nur eins: in der Logfile-Liste stehen am Ende jeder Zeile die Dateigrößen. Die Reihenfolge bei der Site:Abfrage hat nichts mit den Dateigrößen zu tun. Ich habe das geprüft (aber vergessen im Artikel zu erwähnen).
      Auf die anderen Punkte werde ich nachher im Einzelnen noch eingehen…

      1. Die Google Suche läuft massiv parallel auf vielen einzelnen CLustern, die wieder jeweils aus mehreren servern bestehen. Auch das Indexing der Bilder macht nicht ein einzelner Computer (kamen denn alle Anfragen des GoogleBot-Image von derselben IP?) sondern eine ganze farm von Computern.
        Zuerst wird mal die html-seite gelesen. Der Brawler gibt die geladene datei dann an einen anderen Prozess weiter, der im html nach den Links sucht. dieser Proozess stellt die gefundenen links (bzw URLs) dann wiederum in eine Warteschlage ein, aus der sich üblicherweise eine ganze Anzahl Crawler-Prozesse bedienen, die diese Bilder dann abholen. Je nach Belastung, und was diese Crawler sonst noch alles machen (sie können ja nicht den ganzen google serverpark gleichzeitig auf deine arme website loslassen, die würe ja zusammenbrechen) dauert es unterschiedlich lange, bis die einzelnen Bilder von deiner seite geladen werden. Es wäre sehr ungewöhnlich, wenn die Biölder in der gegebenen Reihenfolge abgearbeitet würden…

        Dann bei deiner Suche dann nicht immer dieselben Ergebnisse kommen, ist auch nicht ungewöhnlich. Mach mal ne DNS-Abfrage nach http://www.google.com (z.B. hier: http://www.heise.de/netze/tools/dns/ ) und du wirst sehen, dass du eine ganze reihe verschiedener adressen als Antwort bekommst (und wenn du mehrmahls abfragst, wirst du unter Umständern unterschiedliche Antworten bekommen). Irgendeine dieser Adressen wird dein Browser ansteuern. Hinter diesen Adressen stehen unabhängige Cluster, die zwar synchronisiert werden, jedoch nicht alle auf genau demselben Stand sind. Daher ist es ganz natürlich, dass du z.T. bei zwei aufeinanderfolgenden Suchen unterschiedliche Ergebnisse erhältst. Dazu kommt, dass bei einer Suchanfrage immer mehrere Rechner im Hintergrund aktiv sind und die Suchergebenisse aus verschiedenen Quellen zusammengestellt werden. Je nachdem, welcher Rechner nun schneller antwortet, kann ein Ergebnis schon mal nach vorne oder nach hinten rutschen.

        Google ist keine Datenbank, die unbedingt vorhersehbare Ergebnisse liefern muss. Google wir dir möglichst schnell, möglichst relevante suchtreffer liefern. Und dafür ist das System stark optimiert. Google verwendet keine relationale Datenbank, die die richtige antwort für „gibt mir alle treffer für sortiert nach änderungsdatum“ liefert. Solche datenbanken machen MySQL und Oracle. Die Google-Datenbank arbeitet anders.. Und das ist gut so, sonst könnten wir ja alle immer noch Altavista von 1995 verwenden. ;-)

  8. Die zufällige Crawlreihenfolge und der Zeitliche Versatz bei der Indexierung ist eigentlich leicht zu erklären:

    Crawler sind in der Regel hoch parallelisiert und dadurch ergeben sich solche Effekte. Beim Crawlen ergibt sich zunächst zwar eine vollkommen geordnete Liste aller Referenzen. Beim Speichern wird die Referenzliste dann aber in der Regel schon in kleine Blöcke zerhackt und mit mehreren Threads gespeichert. Je nachdem wie lange das Speichern dauert ergibt sich dadurch schon eine leicht andere Reihenfolge. In einem weiteren Schritt müssen die einzelnen Inhalte dann gecrawlt werden. Auch hier wird wieder parallelisiert und auch schon priorisiert und dadurch ergeben sich noch größere Verschiebungen. Trennt man dann noch den Indexierungsprozess ab so hat man eine dritte Verschiebung und damit quasi einen nicht mehr vorhersehbaren zeitlichen Ablauf.

    Ebenfalls leicht zu erklären ist warum Suchergebnisse eigentlich immer unvollständig sind:

    Bei einer Suche muss auf die Daten vieler Rechner zugegriffen werden. Die eigentliche Anfrage wird an die einzelnen Rechner weitergeleitet, diese suchen in ihrem Datenbestand, gewichten die Ergebnisse und liefern nur die relevantesten Ergebnisse nach oben in der Kette weiter. Dort wird weiter zusammengefasst und gewichtet und am Schluss ergibt sich ein Suchergebnis mit in der Regel weniger als 1000 Treffern welches dem Nutzer präsentiert wird.

    Ps.: Das ist nun aber alles nicht neu… ;-)

    1. Danke für die Ausführungen zum Crawler. Das macht Sinn.
      Ja, neu ist das alles nicht (bzw. zum größten Teil nicht). Aber somit mal wieder bestätigt ;-)

  9. LOL :D Super geiles Experiment. Verstehe die Logik von Google hinsichtlich der Ergebnisse auch nicht wirklich. Aber ich würde dennoch nicht behaupten, dass die site-Suche Mist ist :D Hast du mal auf nem anderen Rechner dieselbe Suche gestartet is verlglichen? Vllt war deine ja personalisiert?! Aber dennoch: Geiles Experiment :D

  10. Danke für den Test. Interessant ist auch, was er bei „Foto“ (nur 6 Bilder ) bzw. „Clipart“ (nur 38 Bilder) liefert.

    Hast Du eig. irgendeine Zahl im Bild zentriert? Die HEX-Zahlen wären auch noch informativ gewesen.

    Welche Farbe (bzw. Ziffer) würdest Du am ehesten als „Himmelsblau“ bezeichnen?
    Ich finde die 82 sieht schon sehr nach Himmel aus… Ist bei mir aufm 1.

    Grüßle

    1. p.s. der australische kollege… böse portscans :X

      67.201.31.170 SCAN (10494, 10750, 11006, 11262, 12542, 12798, 13054)

      67.201.31.170 SCAN (3821, 4077, 4333, 4589, 5101, 5357, 5613)

      67.201.31.170 SCAN (18155, 18411, 18923, 18667, 19179, 19435, 19691)

Kommentare sind geschlossen.

Kommentare sind geschlossen.