Сегодня я хочу рассказать о страницах с ошибкой 404, которые находятся в индексе Google и о том, почему иметь такие страницы в индексе не очень хорошо.

This Page Cannot Be Found: разбираемся с ошибкой 404

И в конце, я хочу рассмотреть софт, который поможет вам выявить и устранить проблемы.

Что не так с этим результатом выдачи?

Давайте начнем с нескольких запросов в Google. Мы ищем страницы с ошибкой 404.

Запросы: allintitle:this page cannot be found и allintitle:this page cannot be found 404 привели нас к тому, что мы и искали:

Почему такие страницы выводятся в выдаче Google?

Почему такие страницы выводятся в выдаче Google?

Не обращайте внимания на сообщения о том, что на странице ошибки и предупреждение о 404 ошибке. Содержание страницы может показать, что страница имеет ошибки, но на самом деле, такие страницы индексируются поисковиками как обычные.

А в этом виноват код 200, содержащийся в хедере отклика сервера, который генерируется сервером хостера.

Код 200 (статус "ок" и "запрос выполнен") обманывает поисковую машину, заставляя включить страницу в индекс.

Проблема и методы ее выявления

Давайте взглянем на несколько примеров и используем несколько инструментов, чтобы посмотреть что происходит.

Кью Гарден проделали огромную работу по изучению ошибки и их стандартная страница с ошибкой не такая, как бы вы ее представляли, так же сервер может сгенерировать ошибку 404.

Первым делом, если вы еще этого не сделали, установите Live http headers для Firefox.

Live http headers является моим "обязательным" SEO инструментом для firefox, т. к. он позволяет увидеть содержание хедера отклика сервера. Существует много подобных дополнений для Firefox, которые показывают содержание отклика, но я предпочитаю именно этот.

Вернемся к нашему примеру. Итак, используя Live http headers проверим страницу с ошибкой на сайте Кью.

Проверив хедер сервера вы найдете код 200. Как видно, стандартная страница с ошибкой прекрасно видна, но есть одно "но": не правильный отклик 404.

Ошибка 404

Интересно то, что случайно сгенерированный URL выдает правильный код 404:

Ошибка 404

Такие страницы, находящиеся в индексе не идеальны с точки зрения SEO, особенно для сайтов с большим количеством страниц и может быть так, что количество пустых страниц будет проиндексировано больше, чем страниц с контентом.

Если вы хотите иметь чистый сайт и быструю индексацию свежего контента вам нужно последовать этому примеру.

Контрольный список для проверки ошибки 404

Вот несколько подсказок, как проверить ваш сайт на наличие этой проблемы:

1. Если у вас есть стандартная страница 404, проверьте сервер на наличие статуса 404.
2. Сгенерируйте URL страницы, которая не существует и проверьте статус 404.
3. Имеет ли ваша CMS редирект, если URL не распознается? Лично я считаю, редирект на страницу 404 не является нормальным — постарайтесь этого избегать.
4. Для контроля над ошибками, имеющимися на вашем сайте используйте Google Webmaster Tools или Xenu's Link Sleuth.

MyOST: если Вы думаете что не правильный ответ сервера на не существующую страницу ничем плохим для Вашего сайта не обратится - поспешу разочаровать. К сожалению таким "макаром" можно очень сильно навредить сайту, технологию описывать не буду, но думаю что сами догадаетесь каким способом. Это касается как Гугла, так и Яндекса.

Вы так же можете установить IIS SEO Toolkit для проверки на ошибки и многое другое, что может повлиять на SEO сайта.

Источник: This Page Cannot Be Found: Check Your Error Page Headers

Перевод: SEOM.info