Влияние 404 на поисковый трафик, 2 года наблюдений

Насколько далеко вы готовы пойти ради экспериментов? К сожалению, извращенная фантазия и обстоятельства предоставили самый не гуманный вариант теста 404 ошибки.

2012 и 2013 были крайними годами, когда я пополнял этот блог более или менее активно, а далее было несколько статей в 2016 и 2017.
Я считаю, что в старом формате блог себя изжил, но при этом есть много мыслей и заметок, которыми хотелось бы поделиться.

На данный момент я в раздумьях по варианту решения данного вопроса, перезагрузить данный блог и оставить полезные материалы в виде архива, либо просто периодически пополнять статьями блог, а именно новый формат начать на новом адресе.

Но давайте перейдем к теме обсуждения, а именно 404 ошибки и ее вариантах, а также как она влияет на ранжирование сайта.

Начнем с азов любой работы – делайте бэкапы. Делайте бэкапы после каждого изменения системы или сайта, без разницы. Не нужно думать, что это не важно.

Блог развивался и потом были периоды застоя, в которые выходило не так много статей, но при этом в каждой из них было достаточно картинок и вот в один прекрасный (нет!) день на сервере наворачивается жесткий диск. 99% данных удалось спасти, но к сожалению не все, как раз часть картинок ушла в небытие.

Я попытался найти нужные бэкапы во всех своих хранилищах, но безуспешно.

Попытки найти в локальной системе

Я попытался найти картинки в вебархиве, но вспомнил о свой же директиве и запрете на индексацию для вебархива:

ВебАрхив заблокирован на уровне сервера

Результат оказался плачевным, для порядка 10 постов были утеряны картинки.

Печалиться времени не было, поэтому было решено попробовать провести тест на влияние 404 ошибки по картинкам, хотя я не предполагал, что тест затянется почти на 2 года. Но зато теперь у нас есть полные данные по влиянию фактора "за сайтом не следят".

10 лет проекта, от рассвета и до заката

За основу мы берем это блог, чтобы разговаривать предметно, в датах с 1 января 2009 года по 31 декабря 2018. Мы можем видеть, что в среднем в период активности и реального развития блога мы быстро добираемся до 7+ тысяч посетителей в неделю, а далее, после прекращения пополнения информацией скатываемся до 5 тысяч в среднем в неделю.

Затем в 16 году мы лишь немного подкармливаем блог информацией и снова возвращаемся в 7 тысяч в неделю.

Аналогичный график в месячной перспективе за 10 лет

Для наглядности можно даже в месячной перспективе представить график с 2009 по 2018 годы. Этап развития и этап "дополнения" редкой информацией дает более чем отличный результат.

А теперь мы коснемся 2х падений сервера. Первое случилось в конце 2016 года.

Первое падение сервера

И у нас сразу идет глубокая просадка трафика, хотя мы всего 5 часов потеряли в доступности, но позиции из-за такой работы сервера проседают мгновенно, как и восстанавливаются.

А далее мы уходим на весну 2017 года.

Печальные новости с дата-центра

И получаем постепенный, но значительный обвал посещаемости.

Второе  падение сервера

Далее на место картинок с 404 кодом мы загружаем просто белые плашки, пустые по сути картинки, которые при обращении уже отдают код 200, то есть все ОК

Активируем код 200 на картинках

Достаточно скоро мы получаем возрастающую динамику посещений (а мы можем говорить именно о поисковом трафике, иного тут сейчас нет много лет).

После получения обратной реакции и замеров мы снова удаляем картинки и получаем 404 код ошибки, который у нас идет на главной странице с картинок и на 10 статьях внутри, фактически, по множеству картинок.

Возвращаем 404 код ошибки

И мы продолжаем падение в бездну эксперимента. Спустившись по факту с 22-27 тысяч в месяц до 8-10 тысяч визитов. Упав в примерно 3 раза.

В начале декабря 2018 я начинаю чистить блог от 404 ошибок в картинках, попутно зачищая его от "паразитного" трафика, который только нагружает сайт, не давая ничего в замен.

Сделать это можно вручную через .htaccess, но в последние годы я перешел на VirusDie и блокирую там, получается удобнее, а также нагляднее. Несколько дней работы и мы уже с 5-10 тысяч паразитного трафика в сутки свели его к минимуму в 500 запросов в среднем.

Блокируем паразитирующий трафик

2 года пустоты и эксперимента

Выводы можете делать сами, но я бы рекомендовал Вам более внимательно относиться не только к ошибкам отсутствующих страниц с кодом 404, но и к картиночным и файловым кодам 404, когда поисковая система видит сайт, который не следит за самым важным, за наличием или отсутствием документов. В нашем случае это усугублялось мордой сайта и первым уровнем страниц, что давало мгновенный отклик.

На сегодня, в ходе работ над клиентскими сайтами или анализом конкурентов по своим направлениям, я часто могу наблюдать картину с отсутствием одного из первых и главных условий развития сайта в поиске – обеспечением 100%-корректной индексации проекта. Вроде бы все так просто, но не выполняется многими мастерами и сайты вязнут в одних из самых примитивных и поправимых факторах.