Еще один полезный материал попадает в рубрику "Учебник по SEO". Еженедельные пополнения интересными материалами обеспечены :) Сегодня мы поговорим о дублированном контенте, а также о способах избежать проблем с дублями страниц.

Долгое время существовало сильное убеждение что поисковые машины – в частности Google – применяют санкции к сайтам которые содержат не оригинальный контент, или имеют контент который очень распространенный (популярный) в сети.

Дубликаты контента - мифы и решение проблемы

И вот сейчас я хочу заявить вам, санкции за дублированный (т.е. не уникальный) контент - это миф.

MyOST: По поводу "мифа", что за дублированный контент санкций нет, как пишет автор - вот тут я в корне не согласен, на сегодняшний день - дублированный контент это бич современного SEO и главная причина многих проблем. Причем применительно это не только к Гуглу, но и к Яндексу в частности.

Давайте посмотрим на эту проблему шире. Если какая-то страница с контентом имеет 5 входящих ссылок и эта страница размещена только под одним URL'ом, тогда весь ссылочный вес передается только одному URL.

There Is No Duplicate Content Penalty

А теперь представьте что эта страница с контентом и входящими на нее ссылками висит на 5 разных URL'ах, то теперь каждый из этих продублированных URL'ов получит только 1/5 ссылочного веса.

Все эти страницы только вместе имеют такой же ссылочный вес как только одна оригинальная.

Миф о санкциях поисковиков за не оригинальный контент произошел от неправильного понимания самий причины этого явления- распределения ссылочного веса.

Идеальная ситуация для продвижения - это когда один URL для одной страницы с контентом и одним набором ключевых слов. Я бы посоветовал интернет маркетологам сконцентрировать их усилия на оптимизации контента больше чем на попытках избежать его не уникальности.

Причины появления дублированного контента

Много различных обстоятельств могут в результате привести к появлению двойного контента, но всех их объединяет одно: Двойного контента не существует до тех пор пока нет на него ссылки.

Если для сайта возникает проблема не оригинального контента, это означает что где-то появился этот контент но уже под другим URL'oм и на него есть хотя бы одна входящая ссылка.

Ccылки на URLы страниц с продублированным контентом могут появляться, если добавляются трекинг параметры в адрес страницы, если сайт с субдоменом не перелинкован правильно, когда в URL добавляются фильтрационные и сортировочные параметры, когда версия страницы "для печати" создает новый URL, и еще много других вариантов.

Еще хуже, что каждый из них может генерировать другие источники двойного контента, плодить сотни вариаций URL-адресов для одной и той же страницы с оригинальным контентом.

Главная страницы (морда) может быть одним из примеров. Иногда случается и такое - домен по умолчанию есть ссылкой на главную страницу, но кликая по навигационным ссылкам которые должны были бы привести на главную страницу, вы попадаете на нее но уже с другим URL, т.е. в результате получаете страницу с продублированным контентом.

Сайт "Banana Republic" имеет в индексе Google 18 версий домашней страницы, и еще несколько которые не попали в индекс, вот смотрите сами:
http://www.bananarepublic.com/
http://bananarepublic.gap.com/
http://bananarepublic.gap.com/?ssiteID=plft
http://bananarepublic.gap.com/?kwid=1&redirect=true
http://bananarepublic.gap.com/browse/home.do?ssiteID=ON

И каждый из этих URL адресов имеет как минимум одну входящую ссылку.

Подумайте насколько больше было бы веса в морды этого сайта, если бы все входящие ссылки вели на одну настоящую главную страницу, вместо десятка ее клонов.

Типы двойного контента

Плохая канонизация

Недостаток канонизации самая распространенная причина двойного контента. Канонизация означает устранение копий страниц, а в SEO, это еще и концентрация всех входящих ссылок на одном URL адресе, для каждой страницы с контентом. Ниже показаны 10 примеров URL-адресов на одну и ту же страницу:

Хотя в примере и не реальные адреса, но в своей практике я встречал достаточно сайтов которые имели внутри огромное количество вот таких клонированных URL адресов. Даже бывали случаи когда ссылочный вес распределялся между одинаковых 1000 URL'ами. Оригинальная (первоначальная) страница была бы намного сильнее если весь ссылочный вес был направлен только на один URL.

Самый эффективный способ канонизации двойного контента это, сконцентрировать все входящие ссылки на оригинальную страницу через 301 редирект ее клонов.

Каннибализация

Каннибализация - это когда две или больше страниц сайта оптимизированы под один и тот же набор ключевых слов.

Онлайн магазины попадают в эту петлю очень часто когда из соображений улучшения юзабилити сайта: фильтрация товара , сортировка товара , количество единиц показываемых на странице, рекомендовать другу по e-mail и т.д. генерируются страницы дубликаты, полностью или частично похожие на оригинальную страницу.

Технически они не 100 %-е дубликаты. Без этих страниц нельзя обойтись, они нужны для юзабилити сайта, поэтому делаем им 301 редирект на оригинальную страницу.

В этом случае владельцы сайтов имеют только два выбора:

  • Делать разнообразный контент с разными наборами ключевых слов.
  • Воспользоваться каноническим тегом (<link rel="canonical" href="http://seom.info/seo-book/" />) чтобы собрать ссылочный вес без перенаправления посетителей.

Решение проблемы

Запомните, что 301 редирект это лучший друг СЕОшника когда речь идет о двойном контенте или канонизации.

Если вы не можете использовать редирект потому что эта страница нужна для людей, тогда ваш второй друг это канонический тег, что бы аккумулировать ссылочную массу.

Есть и другие способы для удерживания контента — meta тег noindex, файл robots.txt тег disallow, и 404 ошибки — но они только закроют контент от индексации, но не предохранят его от утечки ссылочного веса.

MyOST: Я думаю тут будет полезно прочесть предыдущую статью в блоге: "Укажите Google какие параметры URL адресов игнорировать".

Источник: There Is No Duplicate Content Penalty.

Перевод: SEOM.info