Rel Tag canonical

Die drei großen Suchmaschinenanbieter Google, Yahoo und Microsoft haben sich wieder einmal an einen Tisch gesetzt um eine Problematik zu lösen. Damals wurde zur Spambekämpfung das Linkattribut rel="nofollow" eingeführt. Wenig später gab es dann ein einheitliches XML Sitemap Protokol um den Suchmaschinenen alle Unterseiten einer Seite bekannt zu machen. Nun haben die drei "Großen" sich zusammengeschlossen um gegen das Problem des Duplicated Content vorzugehen. Die Ergebnis dieser Zusammenarbeit ist die Einführung des HTML Tags <link>, dass den Suchmaschinen mitteilen soll, welche URL die „canonical“ Url ist. Diese Canonical URL ist also die Adresse der Seite ohne Rücksicht auf z.B. die Session ID, Sortierungs- oder Linkparameter. So kann man damit Seiten wie z.B.

http://www.example.de/product_info.php?tracking=123
http://www.example.de/product_info.php?sessionid=sadfJfdsakl
http://www.example.de/product_info.php?sort=1

aus der Indexierung ausschließen und so Duplicated Content vermeiden. Das HTML Tag wird ähnlich wie das <base> Tag im <head> Bereich der Webseite definiert.

Die Syntax lautet wie folgt:

<link rel=”canonical” href=”http://www.example.de/product_info.php” />

 

Hier wird also einfach die Seite ohne Parameter angegeben, die für Google als eindeutige URL gelten soll. Für Wordpress, Drupal und Magento gibt es bereits schon Plugins die dieses Tag berücksichtigen.

Dies sollte vorallem bei dem leidingen Thema der SessionIDs helfen. Gerade Shopsysteme haben da so ihre Schwierigkeiten mit den Sessions. Viele Seiten haben die Session über Cookies transportiert und falls keine Cookies möglich waren, diese SessionID an die URL angehängt. Da Google ja keine Cookies akzeptiert wurden so immer die SessionIDs für Google ausgeliefert. Diesen Fehler hab ich nun schon bei zig Kunden feststellen können.

Mein Vorschlag wie man das auch ohne dem <link> Tag schaffen kann führt über die .htaccess. Hier wird z.B. Google per 301 auf eine URL ohne SessionID weitergeleitet.

 

RewriteEngine on
# Session IDs entfernen
RewriteCond %{QUERY_STRING} jsessionid
RewriteCond %{HTTP_USER_AGENT} Googlebot
RewriteRule .* http://%{HTTP_HOST}/? [R=301]

 

Ich finde die Einführung des Tags sehr sinnvoll. Problem dabei wird aber sein, dass trotzdem viele Seiten Duplicated Content erzeugen, da viele Webseitenbetreiber garnicht wissen wo DC anfängt und wie man ihn erkennen kann.

Comments

Hmm, sorry aber ich verstehe das nicht ganz. Auf meiner Startseite erscheint neben der URL im Browser ein kleines blaues "C". (Go to the canonical page...).
Heißt das jetzt, dass meine Startseite "nofollow" ist?
Also ich würde mich echt riesig über eine kurze Bemerkung freuen. Verstehe das nämlich nicht.

Grüße
Roman

nein, das ist nur eine Browserfunktion. Nofollow hat mit der Thematik eigentlich nichts zu tun. 

[...] Weitere Berichte zum Thema bei JoJo und Thomas [...]

[...] Das Tag ist zu aufwändig, als dass es wirklich sinnvoll eingesetzt werden könnte. Dass es da unterschiedliche Meinungen gibt, brauche ich aber wohl nicht sagen. Testen ist angesagt. Vor [...]

[...] Thomas Zeithaml beschäftigt sich mit dem neu eingeführten Rel-Tag-Attribut canonical. Welche Gründe gibt es für die Einführung, welche Funktion hat es und wie es richtig genutzt wird. [...]

[...] einigen CMS und vielen Shop-Systemen zu einem Problem geworden, das hierdurch gelöst wird. Bei Thomas wird gezeigt, wie man zumindest den SessionIDs beikommen kann, ohne den neuen Tag zu benutzen, er verwendet [...]

[...] das ganze genau funktionieren soll, könnt Ihr auf Toms Blog nachlesen. Dieser hat das ganze schon vor ein paar Tage wirklich gut und verständlich [...]

[...] viel wichtiger und scheinbar noch nicht in der deutschen SEO-Szene angekommen ist, dass durch dieses Tag Linkpopularität an die [...]

Uhm... ist die mod_rewrite-Geschichte kein Cloaking?

nein das ist der einzigste Fall von Cloaking der von Google auch toleriert wird - wurde so auch von Matt Cutts bestätigt.

 

[...] ein neues Tag zur Bekämpfung von Duplicate Content eingeführt. Nähere Informationen gibt es bei Thomas Zeithaml und auf [...]

ich habe doch nichts von einem Hype geschrieben. Ich denke aber schon dass es ein wichtiger Aspekt ist - gerade in Bezug auf Session IDs. Und auch das Aussperren über die robots.txt hat nicht zu Folge dass die Seiten zusammengeführt werden. Und so hab ich den Sinn des Tags verstanden.

Wichtig ist dabei aber auch wie es die Webmaster einsetzen. Wenn man das nicht richtig macht und angenommen nur die Hauptdomain wie eben bei Base href einbaut kann man sich die Seite schön zerschiessen.

 

[...] jetzt nicht alles wieder zu kauen kann ich euch Tom Zeithamls Post “Rel Tag Canonical” empfehlen. Er hat es auf den Punkt [...]