Учитывается ли Facebook при ранжировании?

Одной из главных находок исследования факторов ранжирования стало то, что мы установили связь между количеством "расшариваний" в Facebook и позицией в поисковой выдаче Google США.

Facebook Share - "расшарить", то есть добавить в ленту своего профиля.
Facebook Like — "проголосовать", отметить пост как понравившийся.

На деле мы определили, что "расшаривания" оказались самым мощным сигналом для Google из 100+, исследованных нами:

Взаимосвязь с факторами социальных медиа

В данной статье вы узнаете, влияет ли "расшаривание" в Facebook на поисковую выдачу Google и влияет ли оно вообще. Для кого материал покажется сложным - крутите сразу в конец статьи к выводам :)

Зависимость и причинность

На нашем блоге мы много раз говорили, что зависимость и причинность это не одно и тоже. В данном посте мы поговорим о проблемах как зависимости, так и причинности, но чтобы к этому перейти, нам следует провести взаимосвязь между ними на более глубоком уровне.

Зависимость не подразумевает причинность. Зависимость используется только для поддержания или отрицания причинности, но не для прямого вызова ее.

Предположим, что у нас есть некоторые причины верить тому, что 2 вещи связаны, тогда зависимость здесь будет инструментом, поддерживающим эту взаимосвязь. Слабая зависимость может ослабить догадки о том, что 2 вещи связаны.

Перед тем, как мы начали работать над факторами ранжирования 2011, у нас было несколько причин верить тому, что данные Facebook могут использоваться Google.

В декабре 2010 года было проведено интервью с представителем Google. Именно тут он намекнул на то, что при ранжировании, Google учитывает некоторые сигналы социальных медиа.

Кроме этого, в поисковой выдаче мы как раз начали видеть информацию с Facebook, что неоднозначно говорило о том, что Google имеет доступ к некоторым данным Facebook.

Подсказки от Facebook в выдаче, рекомендации френдов

Несмотря на публичное заявление Google и присутствие данных Facebook в поисковой выдаче, мы были удивлены размеру зависимости в нашей выдаче и решили узнать, было ли это обычным делом или на зависимость повлияли другие факторы, например ссылки.

Проведя эксперимент, мы выявили, что ссылки оказывали влияние, но не всегда. Согласно этому, у нас появился еще один довод поддержать зависимость.

Зависимость социальных метрик, контроль ссылок

SMX Advanced

На конференции SMX Advanced на прошлой неделе в Сиетле, Рэнд Фишкин презентовал главные результаты исследования факторов ранжирования, включая частичную зависимость от ссылок.

В это время мы все еще не были уверены в том, что "расшаривания" Facebook учитываются Google, и поэтому Рэнд был осторожен в высказываниях по этому поводу. Его презентацию вы можете наблюдать ниже:

Именно в тот день, глава команды Google по борьбе со спамом, Мэтт Каттс, заявил, что они не имеют доступа к "стене" Facebook и заверил, что не учитывают "расшаривания" Facebook при ранжировании.

Хотя в его словах было очень много недочетов, мы уловили главное, что они не учитывают Facebook при ранжировании.

Однако потом он добавил, что Google имеет доступ к некоторым данным Facebook и мы решили провести эксперимент, проиндексирует ли Google контент, который будет очень сильно распространен на Facebook. На данный момент, эта страница с 64 "шарами" не была проиндексирована.

Собрав воедино всю полученную от Рэнда и Мэтта информацию, я начал анализировать и делать выводы. Если Google не использовал "расшаривания" Facebook, тогда зависимость должна объясняться другими вещами.

Я составил короткий список различных факторов, связанных с "расшариванием" Facebook и учитываемых Google:

  • Ссылки. Страницы, популярные в Facebook, имеют довольно большое количество бэклинков.
  • Другие сигналы социальных медиа. Популярными на Facebook страницами также очень часто делятся в Twitter и Google Buzz.
  • Качественный контент. Люди делятся страницами, где находят интересный и качественный контент. Это также дает позитивные сигналы (время, проведенное на странице, глубина просмотра и т.д.), которые могут использоваться.
  • Ассоциация с известными брендами. Все мы знаем, что известные бренды привлекают больше внимания, нежели малоизвестные. Связь с брендами повлечет к большим масштабам распространения на Facebook.

Построение лучшей модели "расшаривания" Facebook

Вернувшись к частичной зависимости, которую я исследовал несколько месяцев назад. В первую очередь я был заинтересован в самых очевидных и простых вещах, на которые могу повлиять. За контролируемые переменные я взял частичные зависимости, используя ограниченный набор четырех метрик из Linkscape.

Для прогнозирования переменных, частичные зависимости использовали модель линейной регрессии, самый простой тип регрессий. Использовать эту модель довольно просто, однако ее минус в том, что она не дает более детальных данных по зависимости, требующей не линейной, более сложной модели.

В дополнение к этому, я не пытался анализировать другие сигналы социальных медиа, так как был заинтересован в изучении влияния ссылок.

Затем мне стало интересно попробовать изучить данные другой более сложной модели, используя Twitter/Google Buzz и все доступные в Linkscape параметры ссылок. Опираясь на эти данные мне удалось построить другую модель.

Перед тем, как перейти к описанию модели, важно обозначить наши модельные предположения:

  • Для ранжирования, Google использует те же самые параметры ссылок, что доступны на Linkscape API.
  • Google использует другие данные социальных медиа, а в частности Twitter и Google Buzz.

Тестируем мы "расшаривание" Facebook, как усилитель факторов влияния на ранжирование.

Для построения модели, я взял полный набор данных, которые использовались в отчете о факторах ранжирования. За основу, коэффициент корреляции Спирмена, между позицией в выдаче "расшариваниями" Facebook, мы взяли 0,30.

Затем я взял 61 параметр ссылки с текстовым анкором и 1) пропустил их через генерический фильтр, для разбития на основные элементы и 2) провел анализ основных компонентов. В результате я получил 19 основных элементов, которые объясняют 99% вероятность изменчивости данных.

Это позволило мне использовать сложную нелинейную модель, без боязни проблем с множественной линейной зависимости переменных. К 19 основным компонентам я добавил три метрики социальных медиа: количество твиттов, влияние по Topsy и количество сообщений о странице в Google Buzz.

Для воссоединения всех параметров в одну модель, я использовал двухуровневый процесс. Около 33% URL не были "расшарены" на Facebook вообще, а все остальные имели по меньшей мере одно расшаривание. Заполнять регрессионную модель с пиком равным 0 не очень то хорошая идея.

Поэтому, вначале мне пришлось установить бинарный классификатор для 0/1 или более расшариваний. Затем, по оставшимся данным с хотя бы одним расшариванием, я заполнил нелинейную модель регрессии. Контролирование происходило при помощи перекрестной проверки.

Общее предполагаемое число расшариваний можно было вычислить по выходным данным этих двух частей. Конечная модель показала сдержанные данные по коэффициенту зависимости между текущими и ожидаемыми расшариваниями на уровне 0,73.

Однако, коэффициент корреляции Спирмена между ожидаемым количеством расшариваний и поиском оказался на уровне 0,27, что практически также много, как и наша основа, равная 0,30. Эти данные подтвердили слова Мэтта Каттса о том, что Google не использует данные Facebook напрямую.

Выводы о влиянии Facebook на ранжирование

  • "Расшаривания" Facebook связаны с поиском Google в качестве дополнительной метрики, в которой также учитывается набор различных факторов.
  • Прекращать расшаривать материал на Facebook и производить брендирование на Facebook не следует! Чем больше ваше присутствие в социальных сетях, тем лучше это для узнаваемости вашего бренда.
  • Добивайтесь "расшариваний" на Facebook и хотя вы (возможно) не получите прямого продвижения в поисковой выдаче, но точно получите позитивные сигналы, которые косвенно продвигают ссылки.
  • Данный процесс корреляции и публикация его результатов, вызвали оживленную дискуссию в поисковом сообществе и приоткрыли тайну работы поиска. В будущем мы планируем уделять работам такого плана больше внимания.

Данный процесс корреляции и публикация его результатов, вызвали оживленную дискуссию в поисковом сообществе и приоткрыли тайну работы поиска. В будущем мы планируем уделять работам такого плана больше внимания.