Duplicate Content Penalty nur ein Seo-Gespenst?!
Ich möchte hier im Blog eine interessante Google+Diskussion aufgreifen bzw. in eine konkrete Frage umformulieren. Es geht um „Duplicate Content“. Dieser im Seo-Zusammenhang häufig benutzte Begriff sorgt immer wieder für Verwirrung. Unter Duplicate Content versteht man wortgenaue Textpassagen. Meist wird es im Zusammenhang mit Webseiten-Kopien benutzt, manchmal aber auch, wenn es um Absätze oder Textpassagen geht, die auf sehr vielen Seiten vorkommen. Führt Duplicate Content zu einer Penalty, also zu einer Abstrafung? Und wenn ja, wann? Ist es problematisch, wenn man vergisst anzugeben, ob eine Domain mit oder ohne „www.“ gezeigt wird?
Zur Klärung sollte man sich bewusst machen, dass es prinzipiell zwei Bereiche gibt:
- Duplicate Content auf der eigenen Domain
- Duplicate Content auf verschiedenen Domains
Mit oder ohne www?
Ich habe schon oft gelesen, dass ahnungslose Newbies in Foren damit erschreckt wurden, dass ihre Domain ein „massives Problem mit DC“ hätte, weil es keine Weiterleitung für mit oder ohne www gibt. Aber: ich habe schon viele Projekte realisiert, und schon bei einigen diese Umleitung vergessen. Das hat nie geschadet. Diese Form von Duplicate Content führt nicht zu einer Abstrafung. Das hat John Müller von Google auch schon mehrfach bestätigt. In dem Fall schaut Google einfach, welche Adresse relevanter ist, und ignoriert die andere Version.
In dem Folgenden Video wird ein interessanter Sonderfall beschrieben, der auch für deutschsprachige Inhalte relvant ist (D – A- Ch):
Auch hier sagt Matt: solange es keine Spam-Hinweise gibt, ist diese Form des länderspezifischen Duplicate Contents kein Problem.
Auch in diesem Zusammenhang spannend: ist eine mobile Version einer Domain Duplicate Content? Natürlich nicht, siehe:
Duplicate Content auf der eigenen Domain
Weitere Beispiele für versehentlich produzierten, massenhaft Duplicate Content findet man häufig in Blogs und Shops. Wenn man einen Blog so einstellt, dass die Artikel in voller Länge auf der Homepage angezeigt werden, liegt sie doppelt vor. In dem oben erwähnten Google+Thread ging es um einen Datenfeed, der die Artikel ebenfalls duplizierte. Denkbar ist auch, dass man über „tags“ (Keywords) zahlreiche Unterseiten erzeugt, die ebenfalls identische Inhalte aufweisen. Was ist mit all diesen Fällen von internem Duplicate Content? Muss man eine Verschlechterung im Ranking befürchten?
Auch hier stimmt das, was John dazu gesagt hat, mit meiner Erfahrung überein: es ist kein Problem. Google erkennt, dass es sich um Kopien handelt, und versucht jeweils eine Seite zu finden, die am relevantesten ist. Es soll nicht 17 mal der gleiche Inhalt in den Suchergebnissen angezeigt werden, sondern nur einmal.
Schwierig wird es nur bei sehr großen Sites. Wenn die doppelten Inhalte in die Millionen gehen, verbraucht das natürlich unnötige Crawler-Ressourcen. Daher sagt Google, dass man darauf achten solle, keinen Duplicate Content zu produzieren. Möglicherweise versucht Google dann von sich aus, doppelte Seiten aus dem Index zu entfernen – und das kann dann zu unerwünschten Folgen führen.
Um diese Dopplung auf der eigenen Domain auszuschließen, sollte man sich mit den Thema „canonical“, „noindex“ und „nofollow“ bzw. robots.txt beschäftigen. Das würde hier zu weit führen.
Viele sich wiederholende Textpassagen
Das gilt auch für Passagen, die sich auf vielen Seiten wiederholen. In dem Fall werden diese Passagen wohl einfach ignoriert. Beispiel: In einer Bildergalerie steht unter jedem Bild ein Absatz über die Urheberrechte und die Nutzungsbedingungen. Das führt nicht zu einer Abstrafung. Aber – unabhängig vom Thema DC: nach meiner Erfahrung muss man bei solchen Passagen aufpassen, dass man sich nicht den Seiteninhalt verwässert. Dadurch kann es zu einer Verschlechterung im Ranking kommen, was aber nichts mit dem DC, sondern der Keyword-Relevanz zu tun hat.
Duplicate Content auf verschiedenen Domains
Neben seiten-internem Duplicate Content gibt es auch Textkopien auf anderen Websites. Die Ursache kann entweder ein dreistes Klauen sein, aber auch eine normale Verbreitung. Pressemitteilungen zum Beispiel verbreiten sich häufig als 1 zu 1 Kopien im Netz. Aber wir alle wissen: der Nutzen einer Pressemitteilung ist stets positiv. Auch in diesem Fall gilt: der DC schadet nicht. Aber: Google versucht immer zu ermitteln, von wem eine Pressemitteilung ursprünglich stammt, um diese Seite dann aus dem Suchergebnissen zu verlinken. Daher, wer immer eine Pressemitteilung herausgibt: immer zuerst auf der eigen Domain posten und solange warten, bis der Crawler sie indexiert hat, ehe man sie öffentlich zur Verbreitung bereitstellt. Und in der Pressemitteilung stest die eigene URL als Quelle angeben. Unglaublich, wie oft das vergessen wird.
Produktbeschreibungen aus Feeds
Wer einen Shop betreibt, braucht Produktbeschreibungen. Bei tausenden von Produkten kommt da einiges an Aufwand zusammen. Die Produktanbieter bieten häufig diese Beschreibungen als Feed an. Was liegt also näher, als diese Texte zu nutzen? Genau hier entsteht aber tatsächlich ein Duplicate Content Problem: denn der gleiche Texte wird so schnell auf hunderten oder tausenden Seiten benutzt. Hier ein Video dazu von Matt Cutts:
Auch hier gilt: das Problem ist die Masse des eigenen Inhalts.
Was aber, wenn Texte geklaut werden?
Auch in diesem Fall führt es zu keiner Penalty. Auch hier versucht Google herauszufinden, welches die ursprüngliche Quelle ist. Gearde für neue Domains kann das ein Problem sein, denn dabei spielen wahrscheinlich Dinge wie Trust und Sichtbarkeit eine Rolle. Und wenn eine etwas etabliertere Seite Inhalte klaut, dann bekommt sie wahrscheinlich den Link von Google. Und mit so einem geklauten Text würde die Diebesdomain mittelfristig sogar ihre eigene Reputation stärken. Es ist daher dringend zu empfehlen, gegen solche Content-Diebe vorzugehen. Nicht nur aus moralischen und rechtlichen Gründen, sondern auch, weil aus Seo-Sicht eine andere Seite von der eigenen Leistung profitieren würde.
Zitate
In dem Zusammenhang stellt sich die Frage: was ist mit Zitaten? Denn das ist aus Google Sicht natürlich auch DC. Ein Zitat kann natürlich nie eine kompletter Text sein, sondern darf sowieso nur eine Passage in einem größeren Kontext sein, in dem ein eigenständiger Gedanke Thema ist, der nur durch das Zitat unterstützt wird. Hier ein relativ aktuelles Video von Matt Cutts zum Thema:
Datenfeeds / Aggregatoren
Ein „Zitat-Sonderfall“ ist ein Datenfeed: hier werden automatisch Inhalte aus anderen Quellen zusammengeklaubt. Wenn eine Seite aus nichts anderem besteht als aus einer Liste von zusammengesuchten Inhalten, kann das zu einer Penalty führen, allerdings nicht wegen DC, sondern aufgrun dvon „thin Content“, weil nämlich einfach kein eigener Inhalt vorhanden ist. Hier noch ein Video zum Thema:
Fazit: Es gibt keine Duplicate Content Penalty!
John Müller hat es klipp und klar gesagt: es gibt keine Duplicate-Content-Penalty. Man braucht sich wegen des Themas nicht zu stressen. Wer Zeit hat, den DC auf den eigenen Seiten aufzuräumen: gut. Aber wichtiger ist das Erstellen neuer und guter Inhalte. Es gibt nur zwei Dinge, die bei Duplictae Content problematisch werden können:
- Bei großen Sites kann man dadurch Crawler-Kapazitäten verschenken.
- Wenn man die doppelten Inhalte herausfiltert, bleibt bei vielen Sites einfach nur wenig eigener Inhalt. Dan hat man ein Thin-Content. also ein Panda-Problem.
So, jetzt bin ich gespannt, welche Beobachtungen ihr zum Thema DC gemacht habt.
Weiterlesen
54 Gedanken zu „Duplicate Content Penalty nur ein Seo-Gespenst?!“
Eine sehr interessante und erstklassige Zusammenfassung zum Thema duplicate content. Ich bin selbst jemand, der dieses Thema sehr ernst nimmt und gerade beim Linkaufbau keinen doppelten Content produzieren möchte. Sogar bei Pressemitteilungen bin ich sehr vorsichtig und möchte nicht einen Text in 100+ Presseverteiler eintragen, insbesondere bei neuen Webseiten halte ich dies für sehr problematisch. Dennoch zeigt dieser Artikel mit den interessanten Quellen und Videos einmal mehr, dass auch duplicate content in Maßen erlaubt, ja sogar normal ist und es vor allem um Content geht. Dabei muss man duplicate content unbedingt vermeiden, das ist zumindest meine eigene Erfahrung.
…es gilt aber eben besonders darauf achten, weil sonst der „unique content“ verwässert wird und das die Rankings behindert – dies muss man im Kontext bewerten können.
Dem Fazit möchte ich ganz klar widerlegen! Wenn Du in den „HTML Verbesserung“ DC wegen URL Parametern findest und behebst, kann sich das ganz klar auf den Traffic auswirken!
http://mizine.de/suchmaschinenoptimierung-internet/was-duplicate-content-onpage-anrichtet-trotz-canonocal-links/
Danke, Viktor, für den Hinweis. Die Diskussion ist eröffnet, und es gibt sicherlich viele Beispiele, von denen man annehmen könnte, dass eine Abstrafung aufgrund von DC vorliegt. :-)
ich tät es nicht als Abstrafung bezeichnen, aber sehr wohl als Potenzialverlust durch Duplicate Content. Sprich, dass ohne „mehr drin“ ist!
…ja, aber eben aufgrund der Verwässerung der eigenen Inhalte. Deine Seite ist mit DC einfach weniger aussagekräftig und damit weniger wert, also bleiben die Top-Rankings aus und das minimiert auch den Traffic.
Ein wirklich guter Artikel Martin. Ich kann deine Erfahrungen bisher auch nur bestätigen. Solange man die Inhalte nicht komplett scraped, kann eigentlich nichts passieren. Da Inhalte sich irgendwann sehr zu einem ähneln Thema und das ist auch Google bekannt. Es können also immer Textpassagen identisch sein. Würde man für jeden Satz direkt einen Penalty bekommen, wäre das mehr als unlogisch.
Selbst bei großen Projekten macht es Google auch nichts aus ob mit oder ohne www. Ich denke das Google inzwischen schon sehr weit ist, wenn es darum geht kopierten Content zu erkennen. Auch hier ist der Content ja wieder nur einer von vielen Faktoren.
Dass es keine direkte Duplicate-Content-Penalty gibt, bedeutet nicht zwangsläufig, dass Duplicate Content (und vielleicht noch schlimmer Near Duplicate Content) keine negativen Auswirkungen hat, die indirekt wirken. Man denke nur mal an domainweite Kennzahlen und Signale. Wie vertrauenswürdig ist eine Domain, bei der Google 80 % der gecrawlten Seiten wieder aussortieren muss gegenüber einer Domain, bei der das nicht notwendig ist? Google informiert nicht vollkommen grundlos über Canonical Tags und warnt vor 302-Weiterleitungen.
Da gebe ich Dir recht. Aber die Ursache ist dann nicht Duplicate-, sondern thin Content, also Panda (sag ich jetzt mal so überspitzt).
Das Canonical sehe ich eher als Hilfe für Google, die richtige Seite herauszufiltern. Eine sinnvolle, aber nicht zwingend notwendige Option.
Das ist jetzt die spannende Frage, was Google eindeutig als Duplicate identifizieren kann. Wenn man z.B. in einem Shop die Artikel nach verschiedenen Kriterien sortieren und filtern kann oder wie bei Julian nur die Kommentare zu den Blogposts noch einmal unter einer eigenen URL anbietet, dürfte es schwierig sein, die Grenzen zu ziehen. Eine Rolle spielen dann sicherlich auch die „verwässerten Werte“ der Nutzersignale der Domain. Wenn solche Sachen massiv auftreten, konnte man allerdings auch schon weit vor Panda Problem bei den entsprechenden Domains beobachten.
…daher sollte man auch die robots.txt entsprechend nutzen ggf. mit „noindex“ & „nofollow“ arbeiten.
Da stimme ich gern zu 100% zu. Nur weil John muht, dass es kein Problem ist, darf nicht übersehen werden, dass niemand gern seine Ressourcen verschwendet. Schon gar nicht immer und immer wieder.
Darum sollte man sich auch genau so um einheitliche und einmalige URLs bemühen, wie es IMHO zu kurz gedacht ist, bei 400.000 404-Fehlern in den Webmaster Tools darauf zu vertrauen, dass auch das wie versprochen „kein Problem“ darstellt, wenn man so weder die Übersicht behalten noch vermeiden kann, das Crawler-Ressourcen bei der Kontrolle dieser Fehler verbraten werden. Wer seine Aufgabe so versteht, dass man auch jenseits der Lesbarkeit von URLs „freundlich“ zu Suchmaschinen sein will, dem kann das nicht einfach Wurscht sein.
Ob die Ursache nun Duplicate Content selbst oder dadurch verursachter Thin Content spielt ja keine Rolle: Wenn DC nicht vorhanden ist, entsteht auch kein Thin Content (auf diesen Fall bezogen). Somit spielt DC doch eine Rolle.
In jedem Fall würde ich zustimmen, dass es bei großen Mengen von DC zu einem Problem werden kann. Aber: die verbreitete „Panikmache“ halte ich für unangebracht. Ob nun einen Datenfeed, oder Blogkategorien, das „mit oder ohne www“-Problem und ähnliches wird nach meiner Einschätzung übertrieben beachtet. Zum Beispiel entsteht bei der Nutzung von Onpage-Tools manchmal das Problem, eine Seite sei „verseucht“, weil es ein paar DC-Seiten gibt. Das kann man ausmerzen, aber in den meisten Fällen gilt: wenn nicht, auch kein Problem. So zumindest meine Erfahrung, wenn man ausreichend eigene Inhalte hat.
Ja, ich habe diese DC-Panik auch nie verstanden.
Kürzlich wollte mir jemand im WordPress-Forum erklären, daß ich ein großes Duplicate-Content Problem habe und Google eine Domain abgestraft hätte, weil sie nicht im Index zu finden ist.
Der Witz war aber, daß Google diese Domain gar nicht kannte und sie auch noch nie gecrawlt hatte. Klar das sie dann nicht im Index ist. :-)?
Hey Martin,
cooler Artikel. Wie du schon richtig sagst, gibt es vielleicht keine DC Penalty, aber eben eine Art Filter, die dann zum Nachteil für den Webmaster werden kann. Denn wie du ja richtig schreibst, wird entweder dein Crawling-Budget angezapft (welches anderweitig vielleicht bessere Verwendung finden könnte) oder man rutscht aufgrund des Thin-Contents in ein Panda-Problem. Also wenn man vielleicht sagen kann, dass es keine wirkliche DC-Penalty gibt, gibt es sie meiner Meinung zu einem gewissen Teil doch, da sich alles eben irgendwie bedingt. Ohne DC – was ja zumeist heißt, dass orignaler und bestenfalls auch noch sinnvoller Content entstanden ist – wird es nur schwer zu einer Art von Filter oder Penalty kommen. Wären da nicht die unzähligen anderen Faktoren, die eine Abstrafung bewirken könnten…
Auf diesen Artikel habe ich lange gewartet. Die ganze Diskussion mit www und ohne www oder auch andere Duplicant Contant Sachen von Amateur-Seos ging mir wirklich auf den Sack. Und der Hinweis mit dem Thin-Content ist auch super. Danke. Vielen Dank.?
Als wichtigen Punkt sollte man auch die interne Verteilung des Linkjuice berücksichtigen. Je nachdem wie viel DC vorhanden ist und wie der Linkjuice weiter-/durchgeleitet wird, kann da ein ziemlicher Aderlass stattfinden.
stimmt, sehr spannende Frage, finde ich. Interner Linkjuice ist unbedingt auch mal wieder ein Blogpost wert :-)
Interne Links von DC-Seiten sollte eigentlich nicht schaden, aber wenn man auf jeder Seiten einen Link auf einen DC hat (z.B. den Feed), könnte es ein, dass man damit etwas verliert. Nur: nach meiner Erfahrung zählt die Reihenfolge der internen Links eine große Rolle (im Quelltext). Wenn man im Footer einen Link auf einen DC-Feed hat, sollte das nach meiner Einschätzung kaum Auswirkungen haben. Etwas anderes ist es, wenn man solche Links zu DC-Seiten im Quelltext vorne hat, (z.B. in einer Top-Navigation).
doppelte Inhalt schaden der Domain,
ob sie es tun, weil Google viel rausfilter und nur dünner Inhalt übrig bleibt oder ob ich es dann „duplicate content Abstrafung“ nenne ist doch Wortklauberei.
Zumindest ich kenne keine Domain bei der nach dem Rausfiltern von doppelten Inhalten „hochwertige Texte“ übrig bleiben. Hätt man die, tät man ja nicht tausend mal dasselbe durchkauen müssen ;)
Spannend ist für mich da die Frage:wie filtert Google den Inhalt, der kaum oder gar nicht gecrawlt wird?
Mit „www oder ohne“ ist eine Sache, die in den Köpfen gelandet ist, dass dies bereits wieder veraltet ist , ist dann eine andere Sache.
Ich kenne einige Laien, die dir einfach die SEO Kompetenz absprechen, wenn diese www nicht geklärt ist :-)
lg Monika
Danke für die Info, ich finde das sehr beruhigend.
Du hast zwar angesprochen, dass man gegen Duplicate Content vorgehen soll, wenn jemand seine Texte klaut, aber man kann doch nicht non stop seine Artikel manuell bei Copyscape durchlaufen lassen. Gibt es eine Alternative, die das automatisch prüft?
Hallo Martin,
Schöner Artikel und soweit aus meiner Sicht auch alles richtig. Aber bei dem Problem „Duplicate Content“ ist eigentlich nicht „Duplicate Content“ das Problem. :) (Das hab ich jetzt aber schön gesagt :D).
Das Problem entsteht weil Linkjuice unnötig auf DC Seiten verstreut wird. Statt den ganzen Linkjuice auf eine Seite zu leiten und dann eine starke Seite zu haben die auch rankt, hat man schwächere 5 Versionen dieser Seite und für keine reicht es dann für eine gute Position.
Sobald Google Duplicate Seiten bei einer Domain findet, heisst es das diese „DC Seite“ auch einen internen oder externen Link drauf hat. Sonst hätte es der Crawler nicht gefunden und es gäbe kein DC Problem. An dieser Stelle verliert die (ich nenn sie mal) Originalseite den Linkjuice der an die DC Seite fliesst.
Diese DC Probleme sind meisten Technischer-Natur und entstehen bei nicht sauber umgesetztem URL-Handling. Das klassische Beispiel: Eine Seite hat eine SEO Freundliche URL, ist aber gleichzeitig unter der dynamischen URL erreichbar.
Mit meiner Agentur betreue ich vor allem Grosskunden und Duplicate Content zu eliminieren ist etwas was wir bei allen Kunden machen. Mit zum Teil enormen Erfolg.
Also nochmals kurz zusammengefasst:
Es ist absolut richtig, dass man wegen Duplicate Content nicht abgestraft wird. Meiner Meinung nach, sollte sich aber jeder drum kümmern, da sonst viel Linkjuice auf die verschiedenen URL Varianten unnötig verstreut wird.
Super Artikel Herr Mißfeldt. Wirklich an alles und sogar noch um die Ecke gedacht ;-)
@Marko – meiner Meinung nach bester Kommentar, da er die negativen Auswirkungen von DC super beschreibt. Daumen hoch. Danke.
Hmm, aus meiner Sicht sagt Google „ganz klipp und klar“, dass es unter Umständen doch Abstrafungen geben kann:
„Duplizierter Content auf einer Website ist kein Grund für Maßnahmen gegen diese Website, außer es scheint, dass mit diesem duplizierten Content Nutzer getäuscht bzw. Suchmaschinenergebnisse manipuliert werden sollen.“
Quelle: http://support.google.com/webmasters/bin/answer.py?hl=de&answer=66359
So, damit ist man doch nicht schlauer, woher weiß ich wann Google DC auf meiner Seite als Täuschungsversuch wertet?
Das ist in meinen Augen eine typische Google-Formulierung („… außer es scheint, …“. ;-) Ich sehe da keinen Widerspruch zu dem, was ich oben geschrieben habe.
Danke für den Interessanten Artikel, Martin. Ich habe bisher auch nicht wirklich Erfahrungen machen können. Ab und zu wurde ich auf so ein Thema gestoßen, nach dem Motto „Guck mal da, da ist Duplicate Content, das würde ich mal schnell beheben“, aber wirklich bewirkt hat das nichts.
Zu dem Artikel von Viktor Dite kann ich sagen: Ich habe laut Google Webmastertools 201 Indexierte URLs. Bei der Parameterbehandlung habe ich festgestellt, dass weitere 500 (!!!) Seiten erstellt wurden, durch einen Bug bei der Kommentarfunktion. Nachdem ich das Problem behoben hatte, habe ich eigentlich mit einem Ranking Boost gerechnet (immerhin 201 Seiten zu 500 Seiten Duplicate Content). Passiert ist: Gar nix!
Ich denke einfach man kann es auf folgendes runterbrechen: Wenn man ein Internetprojekt wie bild.de oder FokusOnline führt mit millionen von indexierten Seiten und davon sind dann weitere millionen Duplicate Content, dann gibt es von Google einen auf die Mütze, weil das einfach Verschwendung von Ressourcen wäre.
Bei kleineren Seiten hat Google kein Ressourcen Problem und sie können inzwischen auch gut erkennen, was eine Kopie von welcher Seite ist, schließlich haben sie damit jahrelange Erfahrung. Dementsprechend wirkt sich dieses DC auch nicht so dramatisch aus.
Grüße
Micha
Hallo Martin,
danke für die Zusammenfassung. Nach meiner Erfahrung ist DC noch eines der größten Probleme bei der Onpage-Optimierung. Ich habe in der Anfangszeit mit meinem eigenen Projekt entsprechende Erfahrungen gesammelt, die einem die Haare raufen ließen. Meist stammte der DC von irgendwelchen Modulen für mein CMS. Zum Beispiel ein Modul für ein Glossar, dass sinnvollerweise jeden Eintrag gleich unter mehreren URLs lieferte – mit dem Ergebnis, dass auch jeder Eintrag doppelt bei Google indexiert war.
Von Abstrafungen würden ich dabei aber nicht sprechen – man straft sich höchstens selbst, indem die eigenen Inhalte entsprechend niedriger ranken, weil sie sich die Relevanz mit ihrem Zwilling teilen müssen.
Grüße,
Christian
Da ich mich lange mit dieser Thematik rumgeplagt habe, muss ich dem hier formulierten Fazit ganz klar widersprechen. Ein DC Penalty existiert sehr wohl und zwar genau dann, wenn zwei verschiedene Domains sich sowohl im Aufbau, als auch im Content sehr ähnlich sind. Dies resultiert in einem 950er Penalty verbunden mit Yo-Yo Effekt: http://www.webmasterworld.com/google/3711755.htm
Erkennbar ist das Ganze daran, dass die betroffenen Domains – jeweils abwechselnd über einen bestimmten Zeitraum – auf der letzten Ergebis-Seite wiederzufinden sind.
Google ist offenbar nicht dazu in der Lage, festzustellen, bei welcher der beiden Domains es sich um das Original handelt…
Hallo Martin,
Zunächst vielen Dank für deinen Artikel. Du hast einen sehr guten Überblick zu diesem Problem geschaffen.
Allerdings stimme ich mit Deinem Fazit nicht ganz überein: Wie wir alle wissen, können sich Inhalte, die einen geringen Mehrwert für den Nutzer haben und somit aus Sicht von Google minderwertigen Content darstellen, sich negativ auf die Gesamt-Performance des Hosts auswirken.
Ich übertreibe jetzt einmal: Eine Website hat 1000 Pages in Google Index. Von diesen 1000 Pages stellen 50 Prozent DC dar. Auch wenn ich mich jetzt etwas weit aus dem Fenster lehne, wage ich zu behaupten, dass dieser Zustand sich negativ auf die Gesamt-Performance im Sinne der Rankings des Hosts auswirken kann. Und damit habe ich noch nicht einmal von Domain übergreifenden DC gesprochen. Vielleicht wäre dieses Szenario mal eine Test Wert?
Ich sage mal aus eigener Erfahrung, daß es wohl ein SEO-Gespenst ist. Ich hatte in meinem Shop am Anfang bei allen Fernbedienungen die gleiche Beschreibung. Jede FB rankte in der Regel in der Top 20. Die Gebrauchtgeräte, die ich im Shop habe, hatte ich fast alle auch auf ebay. Gleiche Beschreibung und gleiche Fotos. Die ranken in der Regel auch in der Top 20. Für Shops ist DC wohl kein Problem.
Hi, danke für die gute Zusammenfassung!
Ich denke auch es kommt ganz klar auf die Menge an. Solange sich das im Rahmen hält ist es hier viel wichtiger an die User zu denken als an den Suchmaschienen Bot. – Unangenehmer ist sicherlich wenn die Besucher der Webseite dich abstrafen weil der Inhalt nur „zusammengeklaut“ (nicht interessant / individuell) ist…
Für mich interessant war der Hinweis bzgl. Pressemitteilungen – Danke!
Zu dem mit „www oder ohne“ Mantra:
Ich sehe es keiner Weise so, dass mit diesem Punkt in irgendeiner Art „Panikmache“ betrieben wird. Wir reden hier schließlich von einem winzigen Eintrag in einer .htaccess oder ähnlich einfachen Umsetzungen…
Ich denke trotz allem, dass dies zu den elementaren Hausarbeiten in Bezug auf OnPage-SEO gehört.
Die technischen Maßnahmen die durchgeführt werden müssen um diese Frage für die Domain zu klären sind „lächerlich“ und liegen im Minutenbereich!
Unabhängig davon ob es sich dabei um DC (oder wie man es immer nennen will) handelt, oder nicht. Oder ein Projekt auch ohne eindeutige Regeln diesbezüglich gut rankt oder nicht:
Wenn Google diese Entscheidung selbst treffen soll/muss, kostet dies Google Zeit / Ressourcen.
Wenn ich nur eine Seite weniger gecrawlt bekomme, weil Google diese Ressourcen aufwenden muss, haben ich im Gegensatz zu dem Minimalaufwand einer technischen Lösung bereits einen „Verlust“ (wenn ich auch gutes SEO betreibe).
Von daher habe ich auch kein Verständnis für die Frage „muss das denn sein, Google bekommt das doch auch so hin“.
Aus eigener aktuell stattfindenen leidvollen Erfahrung, kann ich leider behaupten, dass sehr wohl eine Abstrafung erfolgen kann. Ich sag jetzt nicht, dass es ausschließlich wegen DC war, aber einen anderen Grund kann ich mir nicht wirklich vorstellen. Folgender Sachverhalt… Meine Seite ist mit dem Main Key (SV27000) seit Monaten auf 1… Longtails sind am steigen.
Dann geht jemand bei, klaut sich meinen Startseitentext, kürzt ihn etwas, stellt lediglich Absätze um und verändert ihn minimal (Copyscape sagt 70% identisch, was aber mit an den weg gelassenen Absätzen liegt) und packt ihn auf die eigene Seite als News. Wäre, denke ich mal, noch nicht wirklich schlimm gewesen, da meine Seite soweit gut da stand. Dann allerdings wird dieser Newstext nocheinmal genommen, erneut minimal verändert und als PR in mindestens 85 PR Portalen veröffentlicht.
Ergebnis.. gut 2 Monate nach der Veröffentlichung als PR hat es meine Seite von einem auf den anderen Tag von 1 mit 95% aller Keys ins Nirvana geschossen. 3 Wochen später war sie zwar mit einigen Keys wieder da, aber nicht mit den ursprünglichen Rankings. Traffic liegt bei etwa 10-20% des Februar Traffics.
Zahlreiche Menschen behaupten ja auch, dass sie wegen DC abgestraft wurden, was ich kaum verstehen kann. Ich habe auch DC mit Pressemitteilungen sowie mit doppelt vorkommenden Texten auf meiner Domain gehabt und es hat nie jemanden gestört. Ist wohl ein Ammenmärchen, das man sich in SEO Kreisen erzählt.
Ich bin mir ganz sicher das Google & Co sehr gut in der Lage sind zu erkennen ob der Double Content vorliegt weil die .htaccess Datei fehlerhaft ist was sowohl bei der Eingabe mit als auch www die selben Inhalte liefert oder ob es gleiche Inhalte auf verschiedenen Seiten sind. Auch in Onlineshops kommt es häufiger vor das gleiche Artikel in verschiedenen Kategorien, jedoch mit einer identischen Beschreibung zu finden sind.
Sicherlich wird Google bei Double Content auch Unterschiede machen wie sehr etwas Double Content ist und auch wie dieser zustande gekommen ist. Ähnlich wie beim Sprichwort „Link ist nicht gleich Link“ wird man wohl auch sagen können „Double Content ist nicht gleich Double Content“. Es kommt sicherlich auf die Menge und die Häufigkeit der Wiederholungen gleicher Inhalte an.
Wow! Eine menge Informationen. Da habe ich ja noch das ein oder andere zu bearbeiten.
Ich glaube je klügere Google wird, desto weniger Wert die technische Sachen wie diese haben werden. Vielleicht heute ist Duplicate Content schon nicht so wichtig. Meiner Meinung nach, man soll meistens an der Interessen von der Leser denken. Wenn eine Seite in zwei Websites nutzvoll ist, dann soll man sie kopieren.
Bei DC kann der Googlebot durcheinander kommen. Ich denke das man es dem Googlebot so einfach wie möglich machen sollte und deshalb ist es besser DC so stark wie möglich zu minimieren. Ob es eine richtige Duplicate Content Penalty gibt oder nicht ist irrelevant.
grüße
Ein sehr gelungener Artikel!
Etwas möchte ich noch ergänzen. DC schadet auch nicht den Presseportalen, da unique Content nicht das Wesen von Pressemitteilungen sind – haben Presseportale bei Google eine Sonderstellung.
Gruß Mario
Ein Beispiel dafür, wie viel Mist im Internet zum Thema SEO steht. Du hast es richtig getroffen: Es geht um Thin Content. Leute die viel von anderen Seiten kopieren, haben eben zu wenig eigenen Content auf der Seite zu dem Sie Rankings erhalten können ( z.B. Long Tail ). Google kann es sehr gut erkennen und merkt, dass z.B. 40% vom Content DC ist. Wieso sollte diese Seite zum Keyword X dann eine gute Position bekommen, wenn 40% vom Inhalt auf anderen Seiten stehen ?! DC ist für mich ein Zitat und zeigt ( wie z.B. bei akademischen Arbeiten ), dass man seine Daten auf der Seite belegen kann. Es kann sich um Zitate oder Links handeln und es wird einem nie schaden, solange man nicht nur auf DC setzt, sondern viel eigenen Inhalt einfließen lässt. Das Panda Update war keine Abstraffung vom DC, sondern von Seiten die sehr stark auf diese Bereich gesetzt haben und keine eigenen Inhalte hatten, welche man nicht schon X-Fach im Internet findet und dies zu recht. Man möchte nicht zum Keyword XYZ auf Platz 1 das Original finden und dann auf 9 weiteren Plätzen Seiten, welche die Seite 1(zum Teil) inhaltlich kopieren und nix neues bieten.
Ich möchte darauf hinweisen, das es sehr Sinn machen kann, seine Seite extra für Google.ch und Google.at Rankings auf AT/CH Hosting zu spiegeln, eine AT/CH Domain ist nicht notwendig (aber sicherlich auch förderlich), um mit seinen „Duplicate Content“ dank des Alternate TAgs, ohne Strafe hervorragend zu ranken. Angeblich ist ja der Serverstandort nicht so wichtig, aber für AT/CH merkt man doch überdeutlich, was der richtige Serverstandort bringt.
Heute bei einer SEO Kooperation gemacht, die neue Domain war gestern nicht einmal indexiert und rankt heute bereits mit einigen Keywords in den TOP5, besser als die Original Domain bei Google.de.
Aus eigener Erfahrung kann ich zu 100% sagen, dass sowohl interner DC als auch externer DC zu einer Abstrafung bei Panda-Updates führen kann.
Ich betreibe Online Shops, die über 1000 Seiten unique geschriebene Produktbeschreibungen in erstklassiger Qualität haben. Da wir allerdings auch Textbausteine verwenden (was bei uns absolut Sinn für den Kunden macht), wurden wir bisher bei allen Panda Updates massiv abgestraft.
Und dies liegt nicht daran, dass wir Produkt- oder Kategorietexte kopiert hätten. Nein! Wir haben wirklich jeden Artikel einzeln beschrieben, in den Kategorien echte Mehrwerte geboten und eine hohe 5-stellige Summe in die Contenterstellung investiert.
Google würde gerne die im Artikel genannten Kriterien erreichen, die Realität sieht aber leider ganz anders aus.
Toller SEO Artikel. Das DC Gespenst wird schon übertrieben. Aber ich kann Jan auch zustimmen. Ein befreundeter Chef einer Immobilien Firma gab gegen die Ratschläge seines SEO Beraters wöchentlich sehr viele Pressemitteilungen heraus. Anfänglich schoss die Homepage sogar enormen nach oben. Nach etwa 2 Wochen sank die Homepage um 2 Seiten. Weiß nun Googel wirklich wer den Content ursprünglich erstellte, die Homepage oder die Presseportale?
Echt Klasse Artikel. Ich bin im Moment dabei einen magento Shop aufzubauen. Dort bieten wir durch ein eigens erstelltes Lexikon für wichtige Keywords, von 200-400 Seiten viel einmaligen Content. Zudem wird sonst alles selbst erstellt und nicht kopiert. Doch das Projekt hat evtl. ein DC Problem bei den Produkten. Wir bieten 30 Produkte an, die jeweils 200 verschieden Design Versionen haben. Also unterscheiden Sie sich nur im Design, nicht von den Eigenschaften.
Nun würden wir die Artikelbeschreibung je Hauptprodukt einmalig erstellen und dann bei allen 200 Versionen wiederverwenden. Das heißt viel DC. Wie kann ich denn eurer Erfahrung nach am besten gegen vorgehen? Da es noch im Aufbau ist wäre es bestimmt sinnvoller es direkt von Anfang an richtig zu machen. Für einen guten Ratschlag wäre ich sehr dankbar.
Hi Martin,
da hast du dir aber mühe gegeben. Klasse Artikel.
Vielen Dank.
Ich hätte da mal eine DC-Frage.
Wir nutzen OnOffice für die Verwaltung unserer Immobilien. OnOffice exportiert die Immobilien-Daten jetzt in alle großen Immobilien Portale und auf unsere Homepage in eine eigene Datenbank.
Dadurch entsteht aber doppelter Content und google merkt das. Klar..
Wie kann man dieses Problem lösen?
Wir wollen das unsere Seite in den SERPS angezeigt werden und nicht die Immobilien-Portale.
Und das unsere Seite nicht abgestraft wird und Sichtbarkeit verliert.
rel=“canonical“ geht ja nicht, da der auf den Immobilien-Portalen eingerichtet werden müsst.
Das Projekt umfaßt insgesamt 70 Seiten, davon sind 25 Seiten Objekte mit DC.
Für eine gute Idee wäre ich dankbar.
Oder kann ich den DC vernachlässigen?
Gruß Peter
Und dann wäre da noch der Duplicate Content mit 2 verscheidenen Domains – also der komplett gleiche Inhalt auf 2 verscheidenen Seiten. Domain 1 gibt es schon ein paar Jahre, Domain 2 kam dann irgendwann hinzu mit genau demselben Inhalt und auch gleicher url Struktur. Der doppelte Inhalt und die url Strukturen wurden nach ca. 6 Monaten komplett geändert. Nur noch einzigartiger Inhalt vorhanden seit über 3 Monaten und wöchentlich kommt neuer Inhalt hinzu – dennoch über Seite 3 kommen die Rankings nicht hinaus… Da scheint eine Abstrafung vorzuliegen würde ich sagen… ich beobachte das weiter ;-)
Hallo,
sehr interessanter Artikel, ich kann nur hoffen, dass der DC wirklich nicht so eng gesehen wird, ich produziere ihn nämlich aktuell unfreiwillig mit meiner Autoren Box, muss mir da wohl was einfallen lassen.
Gruß
Marco
Interessant und beruhigend zu lesen ;-)
Ich habe auch Seiten, die ich nach allen Regeln optimiere und DC vermeide, die laufen aber auch nie besser als Seiten, die ich Pflege, aber nie auf DC achte. Also scheint es uninteressant zu sein, sich darum zu kümmern.
Kommentare sind geschlossen.