Еще один полезный материал попадает в рубрику "Учебник по SEO". Еженедельные пополнения интересными материалами обеспечены
Сегодня мы поговорим о дублированном контенте, а также о способах избежать проблем с дублями страниц.
Долгое время существовало сильное убеждение что поисковые машины – в частности Google – применяют санкции к сайтам которые содержат не оригинальный контент, или имеют контент который очень распространенный (популярный) в сети.

И вот сейчас я хочу заявить вам, санкции за дублированный (т.е. не уникальный) контент - это миф.
MyOST: По поводу "мифа", что за дублированный контент санкций нет, как пишет автор - вот тут я в корне не согласен, на сегодняшний день - дублированный контент это бич современного SEO и главная причина многих проблем. Причем применительно это не только к Гуглу, но и к Яндексу в частности.
Давайте посмотрим на эту проблему шире. Если какая-то страница с контентом имеет 5 входящих ссылок и эта страница размещена только под одним URL'ом, тогда весь ссылочный вес передается только одному URL.

А теперь представьте что эта страница с контентом и входящими на нее ссылками висит на 5 разных URL'ах, то теперь каждый из этих продублированных URL'ов получит только 1/5 ссылочного веса.
Все эти страницы только вместе имеют такой же ссылочный вес как только одна оригинальная.
Миф о санкциях поисковиков за не оригинальный контент произошел от неправильного понимания самий причины этого явления- распределения ссылочного веса.
Идеальная ситуация для продвижения - это когда один URL для одной страницы с контентом и одним набором ключевых слов. Я бы посоветовал интернет маркетологам сконцентрировать их усилия на оптимизации контента больше чем на попытках избежать его не уникальности.
Причины появления дублированного контента
Много различных обстоятельств могут в результате привести к появлению двойного контента, но всех их объединяет одно: Двойного контента не существует до тех пор пока нет на него ссылки.
Если для сайта возникает проблема не оригинального контента, это означает что где-то появился этот контент но уже под другим URL'oм и на него есть хотя бы одна входящая ссылка.
Ccылки на URLы страниц с продублированным контентом могут появляться, если добавляются трекинг параметры в адрес страницы, если сайт с субдоменом не перелинкован правильно, когда в URL добавляются фильтрационные и сортировочные параметры, когда версия страницы "для печати" создает новый URL, и еще много других вариантов.
Еще хуже, что каждый из них может генерировать другие источники двойного контента, плодить сотни вариаций URL-адресов для одной и той же страницы с оригинальным контентом.
Главная страницы (морда) может быть одним из примеров. Иногда случается и такое - домен по умолчанию есть ссылкой на главную страницу, но кликая по навигационным ссылкам которые должны были бы привести на главную страницу, вы попадаете на нее но уже с другим URL, т.е. в результате получаете страницу с продублированным контентом.
Сайт "Banana Republic" имеет в индексе Google 18 версий домашней страницы, и еще несколько которые не попали в индекс, вот смотрите сами:
http://www.bananarepublic.com/
http://bananarepublic.gap.com/
http://bananarepublic.gap.com/?ssiteID=plft
http://bananarepublic.gap.com/?kwid=1&redirect=true
http://bananarepublic.gap.com/browse/home.do?ssiteID=ON
И каждый из этих URL адресов имеет как минимум одну входящую ссылку.
Подумайте насколько больше было бы веса в морды этого сайта, если бы все входящие ссылки вели на одну настоящую главную страницу, вместо десятка ее клонов.
Типы двойного контента
Плохая канонизация
Недостаток канонизации самая распространенная причина двойного контента. Канонизация означает устранение копий страниц, а в SEO, это еще и концентрация всех входящих ссылок на одном URL адресе, для каждой страницы с контентом. Ниже показаны 10 примеров URL-адресов на одну и ту же страницу:
- Каноничный URL: http://www.example.com/directory4/index.html
- Протокол клон: https://www.example.com/directory4/index.html
- IP клон: http://62.184.141.58/directory4/index.html
- Субдомен клон: http://example.com/directory4/index.html
- Путь к файлу клон: http://www.example.com/site/directory4/index.html
- Файл клон: http://www.example.com/directory4/
- Регистр клон: http://www.example.com/Directory4/Index.html
- Спец символы клон: http://www.example.com/directory%204/index.html
- Трекинг клон: http://www.example.com/directory4/index.html?tracking=true
- Наследственный URL клон: http://www.example.com/site/directory.aspx?directory=4&stuff=more
Хотя в примере и не реальные адреса, но в своей практике я встречал достаточно сайтов которые имели внутри огромное количество вот таких клонированных URL адресов. Даже бывали случаи когда ссылочный вес распределялся между одинаковых 1000 URL'ами. Оригинальная (первоначальная) страница была бы намного сильнее если весь ссылочный вес был направлен только на один URL.
Самый эффективный способ канонизации двойного контента это, сконцентрировать все входящие ссылки на оригинальную страницу через 301 редирект ее клонов.
Каннибализация
Каннибализация - это когда две или больше страниц сайта оптимизированы под один и тот же набор ключевых слов.
Онлайн магазины попадают в эту петлю очень часто когда из соображений улучшения юзабилити сайта: фильтрация товара , сортировка товара , количество единиц показываемых на странице, рекомендовать другу по e-mail и т.д. генерируются страницы дубликаты, полностью или частично похожие на оригинальную страницу.
Технически они не 100 %-е дубликаты. Без этих страниц нельзя обойтись, они нужны для юзабилити сайта, поэтому делаем им 301 редирект на оригинальную страницу.
В этом случае владельцы сайтов имеют только два выбора:
- Делать разнообразный контент с разными наборами ключевых слов.
- Воспользоваться каноническим тегом (<link rel="canonical" href="http://seom.info/seo-book/" />) чтобы собрать ссылочный вес без перенаправления посетителей.
Решение проблемы
Запомните, что 301 редирект это лучший друг СЕОшника когда речь идет о двойном контенте или канонизации.
Если вы не можете использовать редирект потому что эта страница нужна для людей, тогда ваш второй друг это канонический тег, что бы аккумулировать ссылочную массу.
Есть и другие способы для удерживания контента — meta тег noindex, файл robots.txt тег disallow, и 404 ошибки — но они только закроют контент от индексации, но не предохранят его от утечки ссылочного веса.
MyOST: Я думаю тут будет полезно прочесть предыдущую статью в блоге: "Укажите Google какие параметры URL адресов игнорировать".
Источник: There Is No Duplicate Content Penalty.
Перевод: SEOM.info



#1 by hawot on October 30th, 2009
| Quote
Но ведь яндекс не понимает rel="canonical", а google не понимает тег noindex, и редедрект не всегда применим. Однозначного решения для рунета, как мне кажется, нет.
В первом абзаце описка: "с доблями".
#2 by MyOST on October 30th, 2009
| Quote
Спасибо за опечатку
поправил.
Однозначного решения никогда нет, хотя для гугла http://seom.info/2009/10/27/google-url-ignore/ решение здесь описано, в вариациях.
Редирект, ИМХО, предпочтительней.
#3 by kukushka on October 30th, 2009
| Quote
Спасибо !
#4 by maya on October 30th, 2009
| Quote
Отличная информация!
Теперь хоть буду знать зачем у меня на блоге rel="canonical"
#5 by Дмитрий on November 2nd, 2009
| Quote
Это все работает в стерильных условиях Гугла - там можно и канонический урл указать, и ненужные страницы из индекса убрать, и параметры урла (сессии) отрезать, и способ отображения (с\без www) выбрать.
В Я., к сожалению, это не работает.
Хотя у меня создалось впечатление, что Я. не пессимизирует за дубль контента - у меня в топе по СЧ внутренняя страница, имеющая два клона (контент-плагин от известных немецких братьев генерит разные ссылки на страницу в главном меню, категории и RSS). Загружены по Я.вэбмастеру все три, а в индексе только одна – та, которая представлена в главном меню.
#6 by MyOST on November 2nd, 2009
| Quote
Единичный случай НЕ пессимизации за дубль контента - не показатель, есть масса других, более печальных примеров, к сожалению.
По поводу того, что к Яндексу не применимо то что здесь опубликовано, не зря выделил я пункт "Решение проблемы".