Дубликаты контента внутри сайта: разбираем на конкретном примере

Сегодня разбирал один из сайтов клиентов, свежих, дак просто руки опускались сколько там проблем. Дубли контента внутри сайта - их было ровно 67% от общего объема сайта. Но разбирать мы будем на основе популярного ресурса ROEM.RU, тем более здесь тоже хватает проблем.

Раньше у нас уже была статья по дублям: "Дубликаты контента – мифы и решение проблемы", но сегодня мы коснемся Рунета и Яндекса в частностях.

Одинаковых сайтов не бывает. Поисковики тоже относятся достаточно по разному к разным сайтам. Что одному - как слону дробина, то другому - последний гвоздь в крышку гроба. ROEM.RU - достаточно авторитетный ресурс, но не исключено что и он может попасть однажды в проблемную ситуацию.

Давайте попытаемся посчитать, сколько на самом деле на сайте контента, чистого, без всякого шлака.

Проиндексированные страницы в Яндексе

Итак (на 24 марта 2010 года), Яндекс знает 33 тысячи страниц, Гугл знает 37 тысяч страниц, Рамблер знает 41 тысячу страниц. Что же это за страницы?

Давайте по порядку начнем отсекать.

Убираем профили пользователей из проиндексированных страниц - это 2 тысячи.

Профили пользователей в индексе

Дальше отсекаем страницу авторизации - это 500 страниц.

Страница авторизации

Теперь перейдем непосредственно к дублирующему контенту по содержанию страниц.

Дубли страницы

Как мы видим на каждую информационную страницу приходится 5 копий, а именно:

  • roem.ru/2010/02/13/rif_mogut_sdelat_platnim/
  • roem.ru/2010/02/13/rif_mogut_sdelat_platnim?c
  • roem.ru/2010/02/13/rif_mogut_sdelat_platnim
  • roem.ru/2010/02/13/rif_mogut_sdelat_platnim/print/
  • roem.ru/links/13660/
  • roem.ru/links/13660/?c

А хотите еще добавить? Да пожалуйста:

  • roem.ru/2010/02/13/rif_mogut_sdelat_platnim?c/print/
  • roem.ru/links/13660/?c/print/

Т.Е. если разобраться, у нас 5 четких копий, которые знает Яндекс, а также можно сделать еще минимум +2 копии, а при желании я уверен можно и еще больше. Но давайте будем разбираться только с тем что видит Яндекс, а не то что можно с ресурсом сделать еще :)

Как мы видим - "для печати" это довольно большой сегмент на сайте - почти 10 тысяч страниц.

Страница - для печати

Итак, подведем итог, сколько же реального содержания на сайте и сколько знает Яндекс.

В индексе поисковой системы 33 тысячи документов, из них 2 тысячи - профили, 9500 - страницы для печати, 500 страниц - авторизация. Теперь давайте вычтем ВСЕ дубли контента и системные страницы. В итоге мы получим 5-6 тысяч страниц.

Из 33 тысяч страниц - всего 5-6 тысяч с реальным контентом, 3 тысячи страниц - можно назвать системными в индексе, а 24 тысячи страниц - это дубликаты статей (уточнение - это ТОЛЬКО четкие дубликаты)!

Вот на сайте клиента у меня почти такая же ситуация :) придется убирать. На любом сайте есть проблемы - основная задача, от них избавиться, чтобы не иметь проблем в будущем.

Конечно если это не сателлит для продажи ссылок ;) хотя, как раз на сайте для продажи ссылок в большей степени эта проблема проявляется, они просто тупо вылетают (дубли) и сайт попадает в ГБЛ. Если для сателлита - это просто потеря прибыли, то для нормального сайта, бизнеса, вылет большой части страниц может оказаться губительным (для интернет направления).

Анализируйте свои сайты, устраняйте проблемы, не зарабатывайте себе геморрой.