Wie Googles Suche funktioniert – zzgl. interessanter Einblicke
Unter dem Label „Inside-Search“ bietet Google in gewohnt kurzweiliger Manier eine Info-Seite an, die erläutert, wie die Google-Suche eigentlich funktioniert. Eine interaktive Infografik ist das jüngste Produkt aus einer ganzen Serie, die die Funktionsweise der Google Suche thematisiert. Interessant scheint mir an der neuen Übersichtsseite, die sich während des Scrollens interaktiv erweitert, vor allem das, was sich hinter einigen Icons versteckt: bemerkenswerte Detailinformationen, die vor allem auch für die Seo-Szene relevant sind.
Das erste von drei Themenkomplexen ist „Crawling und Indexierung“. So weit so logisch. Jede Websuche basiert auf Websites und deren Inhalten. Das sind inzwischen ca. 30 Billionen Websites – und die Anzahl wächst permanent und rasant. Google crawlt das Web, indem es den Links folgt. Jede Seite wird analysiert und thematisch vorsortiert. Und alles wird im Google-Index gespeichert (laut Google über 100 Mio. Gigabyte).
Im zweiten Teil geht es dann um den Algorithmus. Denn aus der gigantischen Datenmenge müssen zu jedem Keyword die jeweils besten Ergebnisse heraus gefiltert und in eine Reihenfolge (Ranking) gebracht werden. Im ersten Schritt versucht Google die Anfrage zu konkretisieren bzw. zu verbessern: Autocomplete, Rechtschreibprüfung, verwandte Suchanfragen, Suchmethode und Instand-Search dienen dazu, die Suche zu beschleunigen und die Suchanfrage zu präzisieren.
Dann kommt der eigentlich wichtige Teil: Google erstellt aus den zig potentiellen Ergebnissen ein Ranking (die Ergebnis-Reihenfolge). Dafür werden über 200 Faktoren benutzt (bemerkenswert, dass Google nach wie vor von „200“ spricht. Ich hätte erwartet, dass man die Anzahl mal langsam nach oben schraubt.) Google stellt das Ganze als mehrstufigen Prozess dar, der sich aber ständig verändert, weil er weiterentwickelt wird. Zunächst wird die „Content-Qualität“ geprüft: Trust, Reputation, Authority. Der pageRank wird in diesem Kontext expliziert als Relikt dargestellt, der die „Qualität der Verlinkung“ wiederspiegelt. Als zweites prüft Google die „Freshness“, was in der Regel nur dann relevant wird, wenn man die Suche auf einen bestimmten Zeitraum einschränkt. Es folgt der safeSearch-Filter, der alles herausfiltert, was nur für Erwachsene geeignet ist. Nun wird es interessant: im Schritt „User Context“ teilt Google die Ergebnisse in solche ein, die wohl für den speziellen User relevant sind (z.B. aufgrund der Lokalisierung, der „webhistory (!!!), oder anderer Faktoren). Im Grunde vermutlich all das, was wir unter „personalisierte Ergebnisse“ verstehen. Erst dann – zumindest in der animierten Grafik – werden die Ergebnisse nach Sprachen und Ländern geteilt. Und am Ende der Verarbeitungskette wird noch geprüft, ob andere Ergebnistypen wie Bilder, Videos, News oder sonstige Google-Verticals im Rahmen des „universal-Search-Konzeptes“ in die Surchergebnisse integriert werden.
Na, und am Ende kommt dann die Google-Ergebnisseite heraus – der ganze Prozess dauert nur ca. 1/8 Sekunde. Schon beeindruckend…
Fighting Spam
Im dritten Teil geht es dann um „den Kampf gegen den Spam“. Und in diesem Teil sind einige interessante Informationen versteckt, die ich hier festhalten möchte. Natürlich wird die Mehrzahl unerwünschter Ergebnisse automatisch herausgefiltert. Aber Google filtert auch manuell allerhand heraus. Unter dieser URL sind nun die Richtlinien für die „Quality-Rater“ öffentlich einzusehen, Stand 11-2012 (das ist ein anderes Thema).
Mit der folgenden Grafik veranschaulicht Google, was bei der manuellen Prüfung besonders im Fokus steht bzw stand:
Man erkennt, dass teilweise pro Monat bis zu 500.000 Seiten manuell abgestraft werden. Sehr originell ist, dass seit einiger Zeit der „pure Spam“ das Hauptziel ist ;-)
Hübsch übersichtlich werden dann all die Dinge aufgelistet, die Google gar nicht mag:
- Hidden Text und Keyword-Stuffing
- User-generated Spam (erstaunlich, dass Google das hier auflistet.)
- Geparkte Domains mit Platzhalter-Content
- Thin-Content mit ohne Mehrwert-Inhalten
- Unnatürliches Linkprofil der eingehenden Links
- Spammy Freehosts und dynamic DNS-Provider
- Cloaking bzw. unnatürliche Redirects
- Gehackte Sites
- Unnatürliche ausgehende Links
Wenn Google eines oder mehrere dieser Signale erkennt, wird ein blauer Brief an den Webmaster versandt. Auf der folgenden Grafik wird das bestätigt, was viele sowieso schon wissen: seit Anfang 2012 verschickt Google diese Blauen Briefe in großem Stil, im Juni wurden laut der Statistik über 655.000 Blaue Briefe verschickt.
Google will den Webmastern vordergründig die Gelegenheit geben, ihre Seiten aufzuräumen und zu verbessern. Aber natürlich werden hier Exemple statuiert: Google will spammige Vorgehensweise öffentlichkeits-wirksam brandmarken und allen klar machen: wer sich nicht an die Richtlinien hält, schmorrt in der Hölle. Aber wer dem Bösen dann abschwört und alles sauber und richtig macht, dem gibt Google die Chance, wieder in die Serps zurückzukehren. Dafür muss man einen Reconsideration Request stellen, einen Antrag auf Wiederaufnahme. Das Ganze hat schon fast religiöse Züge … Die folgende Grafik zeigt, wie viele geläuterte Seelen äh Websites sich jede Woche (!) im Wiedereingliederung ins Leben bemühen. Im Schnitt sind es so circa 5.000 bis 6.000:
Fazit: Es bleibt festzuhalten, dass Google die Funktionsweise seiner Suche weiterhin sehr demonstrativ mit erhobenem Zeigefinder in Richtung Webmaster vorstellt – aber gönnerhaft jedem den Antrag auf Resozialisierung in Aussicht stellt. Zuckerbrot und Peitsche nennt man das Vorgehen wohl … Hier ist übrigens eine Seite, wo Google live Spam-Beispielseiten vorführt, die aktuell abgestraft werden – sehr unterhaltsam :-)
Ansonsten ist das wieder ein schöne Erklärseite, die Google da zur Verfügung stellt :-)
Quellen / Weiterlesen
- Die offizielle Google Seite: „How Search Works„
- Bei Seopt hat Helen bereits darüber gebloggt
12 Gedanken zu „Wie Googles Suche funktioniert – zzgl. interessanter Einblicke“
Es überrascht mich, dass Du, Martin, nichts dazu schreibst, dass man bei dieser schönen Infografik das Wesentlichste einfach unter den Tisch fallen lies:
Oder kannst Du irgendwo auch nur ein Wort über die AdWords finden, die inzwischen derart ausufern, dass man diese schönen wichtigen Suchergebnisse oft gar nicht mehr above the fold findet?
Im einlullen sind sie offenbar wirklich gut in Mountain View.
Hallo martin, schöne Zusammenfassung, danke dafür!
Mich würde das Thema hidden texts interessieren, ab wann gilt ein Text als versteckt?
Hallo Martin, das sind sehr interessante Einblicke in die Funktionsweise von Google. Allerdings sollten die wirklich verstärkt daran arbeiten gute Inhalte zu erkennen. Es ist manchmal sehr frustrierend tolle Inhalte zu erstellen und dann zu sehen, dass irgendwelche Schrottseiten vor einem ranken. Das kommt ja auch immer auf das Thema an, nicht überall wird geliked und verlinkt. Und als Webmaster möchte ich mich eigentlich nur damit beschäftigen gute Inhalte zu erstellen und nicht mich um Verlinkung usw. zu kümmern. Früher war das alles anders, da zählten wirklich die Inhalte. Ich erinnere mich an Zeiten, in denen ich mich nur um meine Website kümmern konnte. Das waren noch Zeiten…
Hi Martin :)
schöner Artikel :) Vorab unter der 2. Grafik ist ein kleiner Rechtschreibfehler.
Das war alles sehr informativ. Nur was ich immer wieder beobachte ist, das Google bei neuen Seiten ziemlich „schlampig“ reagiert. Es geht drunter und drüber und plötzlich dauert das indexieren mal 1 Woche anstatt 1-2 Tag.
Weißt du etwas über das Thema, das Google solche „neuen“ Seiten anders behandelt?
Danke,
yan
Richtig Spam würden die Pharisäer von Google rausfiltern, wenn die einfach mal die csv.-Dateien der Affiliate-Netzwerke mit ihren Blogspot-Seiten abgleichen würden. Habe gestern sehr exakt nach einem Fußballschuh in Größe 36 für den Junior gesucht. Die Ergebnislisten waren grotesk!
ZUm Thema „neue Seiten“ ist mir das Ganze auch schon aufgefallen. Ist aber eher ein Thema für „Verzögerung im Google-Ranking“ ;-)
Was die Abstrafung angeht kann ich nur aus eigener Erfahrung sagen, dass ich das mal miterleben durfte und Google dabei leider sehr willkürlich vorgeht. Die Seite wurde aufgrund von anorganischem Linkwachstum aus dem Index geworfen da eine Schwestergesellschaft die Seite auf hunderttausenden ihrer Portfolioseiten verlinkt hatte (ohne unser Wissen..) Das Ganze zu klären hat 5 Monate gedauert…
Kommentare sind geschlossen.