Анализ черного списка ссылок

Интересная тема для написания этого статистического поста возникла сама собой, когда было решено проверить черный список сайтов на одном из аккаунтов SAPE.

Мной неоднократно писались статьи и затрагивается часто эта тема - как правильно фильтровать ссылочную массу. Естественно в блоге есть материалы на основе которых формировался этот черный список:

Все статьи написаны на основе опыта, который был получен в результате тестов и ошибок. Чтож... Я думаю настала пора "прочекать" аккаунт с черным списком в 68701 сайт. Это мой личный аккаунт, не клиентские - где добавляются и другие параметры отсева. Свои принципы фильтрации я описывал - чуть выше. Теперь давайте посмотрим на результаты.

Первым делом - мне было интересно узнать, какой % базы находится в бане и под АГС, т.е. насколько качественно подобраны предварительные параметры отсева, которые дают признаки для занесения в черный список.

Для этого мы проверили 68701 сайт в Яндексе и узнали сколько на каждом из них проиндексированных страниц.

Проверка на количество проиндексированных страниц черного списка сайтов

Результы получились такими (в % отношении):

  • 77.26% - находится в бане поисковой системы Яндекс.
  • 18.40% - имеют в индексе до 17 страниц, а значит с большой долей вероятности их настиг фильтр АГС.
  • 0.99% - имеют в индексе от 18 до 100 страниц, что тоже не есть хорошо.
  • 1.86% - имеют в индексе от 101 до 1000 страниц.
  • 1.49% - имеют в индексе Яндекса 1000-10000 страниц.

Что в количественном выражении выглядит так.

Количество сайтов в разных категориях фильтрации черного списка

Более 53 тысяч сайтов в принципе не имеют ни одной страницы в индексе, более 12 тысяч находятся под фильтрами, почти 700 не подходят по кол-ву страниц, остальное - погрешность?

Фильтры дали сбой и более 2 тысяч сайтов попали в черный список просто так, имея при этом тысячи страниц в индексе? - Финишь! Все пропало!

Все бы хорошо, но не совсем так :) Важно знать по каким критериям они туда попали, тогда можно будет делать более реальные выводы.

Причины занесения сайтов в черный список

А вот и факторы, которые повлияли на внесение сайтов в черный список (ГБЛ):

  • 21.36% - сетки сайтов, которые точно рано или поздно должны были вылететь из индекса.
  • 49.10% - имеют в наличии нежелательные элементы, стоп-слова, которые не позволяют покупать на них ссылки.
  • 13.53% - другие факторы, не позволившие купить ссылки.

Здесь стоит упомянуть, что другие причины, а также пункты Фарма - 3.48%, Варез - 4.64% - это лишь классификация, а не повод занесения, просто выделил для себя, сколько из них содержали признаки того или иного сегмента. Плохие соседи (2.09%) - тоже фактор относительный, хотя всегда стоит смотреть какие ссылки продают рядом с вашей.

Второй срез - по классификатору, имеет погрешность, т.к. при анализе для занесения в черный список - анализировались конкретные внутренние страницы, а при нынешнем анализе учитывались только главные страницы сайтов - формат предоставления GBL SAPE.

Другие факторы и причины, это как неадекватное повышение цены на ссылки, так и постоянная недоступность и прочее, что я не могу четко классифицировать на отдельные сегменты, ведь анализ проводится постфактум, а не в момент занесения с четким правилом около каждого сайта.

В целом - я доволен фильтрами, которые используются, осталось только скорректировать их на основе сайтов, которые попали в те самые пару тысяч счастливцев в индексе, но при этом четко сидящих в моем черном списке. После коррекции можно будет более четко определять кандидатов на вылет.

Я думаю вам тоже стоит проводить такой мониторинг, чтобы корректировать свою стратегию закупок.

Результаты проверки

На данный анализ ушли сутки. Примерно 19 часов из которых пробивался яндекс (капча была поймана 1506 раз, анализ проводился с 1 IP-адреса), а затем и сами сайты, по очереди, не совместно. Здесь конечно мне пригодился полный комплект антивирусной защиты... :)