Сегодня я хочу рассказать о страницах с ошибкой 404, которые находятся в индексе Google и о том, почему иметь такие страницы в индексе не очень хорошо.
И в конце, я хочу рассмотреть софт, который поможет вам выявить и устранить проблемы.
Что не так с этим результатом выдачи?
Давайте начнем с нескольких запросов в Google. Мы ищем страницы с ошибкой 404.
Запросы: allintitle:this page cannot be found и allintitle:this page cannot be found 404 привели нас к тому, что мы и искали:
Почему такие страницы выводятся в выдаче Google?
Не обращайте внимания на сообщения о том, что на странице ошибки и предупреждение о 404 ошибке. Содержание страницы может показать, что страница имеет ошибки, но на самом деле, такие страницы индексируются поисковиками как обычные.
А в этом виноват код 200, содержащийся в хедере отклика сервера, который генерируется сервером хостера.
Код 200 (статус "ок" и "запрос выполнен") обманывает поисковую машину, заставляя включить страницу в индекс.
Проблема и методы ее выявления
Давайте взглянем на несколько примеров и используем несколько инструментов, чтобы посмотреть что происходит.
Кью Гарден проделали огромную работу по изучению ошибки и их стандартная страница с ошибкой не такая, как бы вы ее представляли, так же сервер может сгенерировать ошибку 404.
Первым делом, если вы еще этого не сделали, установите Live http headers для Firefox.
Live http headers является моим "обязательным" SEO инструментом для firefox, т. к. он позволяет увидеть содержание хедера отклика сервера. Существует много подобных дополнений для Firefox, которые показывают содержание отклика, но я предпочитаю именно этот.
Вернемся к нашему примеру. Итак, используя Live http headers проверим страницу с ошибкой на сайте Кью.
Проверив хедер сервера вы найдете код 200. Как видно, стандартная страница с ошибкой прекрасно видна, но есть одно "но": не правильный отклик 404.
Интересно то, что случайно сгенерированный URL выдает правильный код 404:
Такие страницы, находящиеся в индексе не идеальны с точки зрения SEO, особенно для сайтов с большим количеством страниц и может быть так, что количество пустых страниц будет проиндексировано больше, чем страниц с контентом.
Если вы хотите иметь чистый сайт и быструю индексацию свежего контента вам нужно последовать этому примеру.
Контрольный список для проверки ошибки 404
Вот несколько подсказок, как проверить ваш сайт на наличие этой проблемы:
1. Если у вас есть стандартная страница 404, проверьте сервер на наличие статуса 404.
2. Сгенерируйте URL страницы, которая не существует и проверьте статус 404.
3. Имеет ли ваша CMS редирект, если URL не распознается? Лично я считаю, редирект на страницу 404 не является нормальным — постарайтесь этого избегать.
4. Для контроля над ошибками, имеющимися на вашем сайте используйте Google Webmaster Tools или Xenu's Link Sleuth.
MyOST: если Вы думаете что не правильный ответ сервера на не существующую страницу ничем плохим для Вашего сайта не обратится - поспешу разочаровать. К сожалению таким "макаром" можно очень сильно навредить сайту, технологию описывать не буду, но думаю что сами догадаетесь каким способом. Это касается как Гугла, так и Яндекса.
Вы так же можете установить IIS SEO Toolkit для проверки на ошибки и многое другое, что может повлиять на SEO сайта.
Источник: This Page Cannot Be Found: Check Your Error Page Headers
Перевод: SEOM.info
#1 by Alex on 01/15/2010 - 09:59
Quote
Как раз хотел сделать нормальную страничку 404 (в теме сайта кривая) и наткнулся на статью. Честно говоря так и не понял чем же плоха страница 404. Даже если их попадет много в индекс поисковиков, все равно из-за сходного содержания останется 1. Плюс можно закомментировать в роботсе адрес. Может не уловил чего-то?
#2 by MyOST on 01/15/2010 - 12:30
Quote
Страница 404 не плоха, если отдает код 404, а вот если код 200 - это уже другое дело.
Если страница, которой реально не существует, отдает код 200 - то можно в индекс вогнать большое количество дублей разных страниц, что приведет к определенному эффекту, не очень хорошему.
Роботс не панацея, т.к. иногда на него "забивают".
#3 by Alex on 01/15/2010 - 12:41
Quote
Гугл и Яндекс на правильный роботс хорошо реагируют. Мне кажется роботы уже достаточно умные, чтобы лишнего не плодить, по крайней мере по своим сайтам лишних страниц не вижу. В любом случае спаибо за интересные сео ссылки .
#4 by Леонардо on 01/17/2010 - 17:03
Quote
А почему бы не использовать php - header(location: /) если ничего не найдено?
#5 by MyOST on 01/17/2010 - 22:02
Quote
Леонардо - как редирект, возможно, как код ответа, насколько я знаю - нет.
#6 by Waca on 01/19/2010 - 17:58
Quote
> Имеет ли ваша CMS редирект, если URL не распознается?
Обычно редирект возвращается уже после 404 статуса, т.е. в htaccess'е или в конфиге web-сервера указано какую страницу показывать в случае отсутствия запрашиваемой, ну а уже там возвращается редирект. Любой робот, написанный, не школьником умеет проверять статус страницы, а не использовать сразу возвращённое содержимое.
Итого - нормальные CMS имеют свои страницы 404 ошибки, а не редирект вместо этого. Остальные значит не совсем нормальные, раз вместо 404 шлют 200 с редиректом...
#7 by MyOST on 01/19/2010 - 18:02
Quote
Увы, как показывает практика, нормальных CMS не так много, а еще меньше тех кто их настраивает правильно.
#8 by orionXL on 08/03/2010 - 11:58
Quote
Такие ошибки выдаются во всех поисковыиках. Т.к. большинство сайтов делается без знания основных принципов.
А еще меня прикалывает редирект на главную страницу при ошибочном url
#9 by saleval on 03/06/2012 - 16:04
Quote
by orionXL хорошо приметил.
Сейчас возможностей много, а конкретных целенаправленных знаний нету.
Редирект на главную страницу сайта - это всегда весело, очень подымает настроение. Особенно у сайтов хорошего уровня.