Новшества Googlebot или о том как индексирует Google

Google стал более разборчивым в поисковой выдаче. Но очень интересно посмотреть в чем же? Очень много людей уже изучали процесс индексации Google, даже экспериментировали над ранжированием и факторами влияющими на него, но мы до сих пор удивляемся тому насколько умен Googlebot сам по себе.

Для начала мы познакомимся с некоторыми теориями и принципами работы Googlebot. Некоторые результаты представленных ниже исследований под вопросом и должны быть проверены на сотнях доменов, но все же это должно натолкнуть вас на некоторые идеи.

Скорость работы поискового паука

Первое, что мы решили протестировать, это утверждение Мэтта Каттса: "... количество страниц, которые мы просматриваем напрямую зависит от PR вашего сайта".

Это привело нас к одной из самых главных проблем многостраничных сайтов — к проблеме индексации всех страниц.

Представьте, что сайт Amazon.com новый сайт, тогда сколько же времени потребуется Google чтобы проиндексировать все 48 миллионов страниц. И тут утверждение Мэтта Каттса о том, что это было бы не возможно, если у сайта не было бы бэклинков, является правдой.

Для эксперимента мы взяли домен без истории (никогда нигде ни регистрировался, ни одного бэклинка). Затем на этом домене мы создали страницу с 250 ссылками, ведущими на страницы с еще 250 ссылками и т. д. Ссылки и URL были пронумерованы от 1 до 250 в таком же порядке, как они идут в исходном коде.

Мы добавили URL в поисковик с помощью "addurl". Так как домен не имеет ни одной обратной ссылки (бэклинка) следовательно у него нет PR, либо он совсем ничтожен. Если же слова Мэтта Каттса действительно являются правдой, Googlebot должен практически сразу же остановить индексацию данного домена.

Количество просмотренных ботом страниц за первые 24 часа

Как видно из диаграммы, Googlebot начал просмотр сайта со скоростью примерно в 2500 страниц в час. Через три часа он замедлился до 25 страниц в час и с такой же скоростью продолжил просматривать сайт на протяжении последующих месяцев.

В подтверждение данных результатов мы проделали то же самое с двумя другими доменами. Повторные тесты показали примерно похожие результаты. Единственное различие — меньшая скорость просмотра вначале.

Общее количество просмотренных страниц

Влияние карты сайта

Во время тестов, карта сайта показала себя как мощный инструмент влияния на поискового паука. Мы добавили карту сайта с 50 000 не просмотренными поисковиком страницами. Googlebot поместил ссылки из карты сайта выге всех остальных в очереди на просмотр роботом.

Это означает, что эти страницы будут просмотрены быстрее всех остальных. Также карта сайта увеличивает скорость просмотра страниц в час. Вначале, скорость просмотра была 20-30 страниц в час.

После того, как была загружена карта сайта скорость увеличилась до 500 в час. Через несколько дней, скорость увеличилась до 2224 страниц в час. Средний рост скорости просмотра страниц сайта поисковиком составил 4630.27%. Причем, увеличилась скорость просмотра страниц не только из карты сайта, но и всех не включенных в нее страниц.

Количество просмотренных страниц в час

Нужно отметить, что Google внезапно увеличил скорость просмотра страниц сайта. Google, возможно, придает большее значение ссылкам на страницы, расположенным в карте сайта.

Общее количество просмотренных страниц

А теперь давайте вернемся к утверждению Мэтта Каттса.

Всего лишь за 31 день, Googlebot просмотрел 375 000 страниц. Если данное число должно быть пропорционально PR домена (который у нас был 0), тогда это означает, что с PR = 1 Googlebot просмотрит 140 625 000 000 страниц за 31 день.

Помните, что PR увеличивается в геометрической прогрессии (ссылки, необходимые для получения следующего уровня PR). Другими словами, не задумывайтесь о PR, даже если у вас огромный сайт. А еще лучше сказать — не воспринимайте близко к сердцу все, что говорит Мэтт.

Количество ссылок

Вот что говорит Рэнд Фишкин: "... вы можете пренебречь рекомендациями Google, использования максимум 100 ссылок на странице, а использовать вплоть до 250-300 ссылок".

Вокруг этого совета в 100 ссылок на странице всегда разгорались жаркие споры. Изначально, такой совет был дан вследствие того, что Google индексировал 100 кб страницы. На 100 кб страницы как раз подходит около 100 ссылок. Если страница была больше, шансы того, что Google проиндексирует оставшуюся ее часть были малы. Сегодня же Google индексирует более чем 1,5 мб и в своих алгоритмах в большинстве своем опирается на "полезность" пользователю. Поэтому сейчас правилом 100 ссылок можно пренебречь.

Как было сказано выше, Google может увидеть около 250 ссылок даже на сайтах, не имеющих ни одного бэклинка. Но действительно ли есть такое ограничение? Мы провели эксперимент, только поставив на странице не 250 ссылок, а 5 000. Когда Googlebot зашел на сайт произошло что-то интересное. Он запросил следующие страницы:

  • example.com/1/
  • example.com/10/
  • example.com/100/
  • example.com/1000/

На каком бы уровне Google не находился, он постоянно запрашивал эти страницы. Это выглядело так, как будто поисковик не знал, как просмотреть такое количество ссылок и пытался решить эту проблему как компьютер.

Семантический интеллект

Еще одним из SEO мифов, который применяется почти на каждом хорошо оптимизированном сайте — это размещение ссылок в тегах заголовков. Если Google "уважает" форматирование, тогда он обязательно должен придать больше веса ссылкам, стоящим в тегах заголовков.

Данный эксперимент был проделан на страницах, находящихся на разных уровнях отдаленности от главной страницы. Мы брали страницы с 250 ссылками и некоторые из них выделяли как заголовок. Спустя несколько недель нечего не изменилось и не указало на то, что Googlebot придает большее значение ссылкам в заголовках.

Это не говорит о том, что Google никак не использует семантические алгоритмы, это говорит лишь о том, что он никак не выделяет ссылки в заголовках среди других.

Просмотр JavaScript

По заявлению представителей, Google улучшил алгоритмы чтения и распознавания JavaScript. JavaScript не является лучшим методом, если вы хотите заставить Google следовать ссылкам.

Данный способ наоборот хорош для их скрытия. В целях сохранения PR страницы, используют JavaScript для того, чтобы ссылки были видны пользователям, но не видны поисковику. Для того, чтобы проверить способности Googlebot на чтение JavaScript мы взяли код JavaScript как описано в инструкции профессионала по оптимизации PR.

Единственный код, который Googlebot разобрал и последовал ссылке это был простой "document.write". Это никак не означает, что Google может распознавать и читать более продвинутый JavaScript.

Просмотр "Хлебных Крошек" (Breadcrumbs)

Хлебные крошки являются базовым элементом любого сайта сделанного для людей. Иногда их используют так же для улучшения структуры сайта. В прошлом месяце у нас возникали некоторые проблемы с их индексацией ботом, поэтому мы решили провести тесты.

Мы создали страницу в нескольких кликах от главной, наполнили ее контентом и на ней поставили ссылки на предыдущие страницы (example.com/lvl1/lvl2/lvl3/). На страницу мы поставили несколько бэклинков и начали ждать Googlebot. Самая дальняя от главной страница была посещена 3 раза, а предыдущие ей страницы ни одного.

Просмотр Хлебных Крошек (Breadcrumbs)

Для того, чтобы убедиться в результатах теста мы проделали его на другом домене. На этот раз страница находилась еще дальше от главной (example.com/lvl1/lvl2/lvl3/lvl4/lvl5/ ). На этот раз Googlebot перешел по нескольким ссылкам, ведущим на более близкие страницы к главной. Не смотря на то, что Googlebot и прошел по некоторым из ссылок, хлебные крошки не являются хорошим методом улучшения структуры сайта.

Даже спустя несколько недель, Google так и не просмотрел все оставшиеся страницы. Googlebot скорее проходит по ссылкам в хлебных крошках от главной в "глубину", чем наоборот.

Выводы о роботе Google

Вкратце, тесты показали, что на ускорение просмотра поисковиком страниц действительно влияет карта сайта. Это не означает, что вы обязательно должны загружать ее. Вы ускорите просмотр страниц поисковиком если некоторая часть страниц уже проиндексирована.

Поисковик чаще всего возвращается на уже проиндексированные страницы. Если же ваши страницы были просмотрены поисковиком, но выпали из индекса, это означает, что вам нужно получить больше бэклинков на каждую из них, прежде чем прибегать к карте сайта.

Необходимо постоянно следить за тем, когда поисковик в последний раз заходил на страницу. Придерживаясь данного метода, вы всегда сможете определить проблему.

Источник: New Insights into Googlebot

Перевод: SEOM.info