В прошлый раз в серии из трех статей мы познакомились с первой статьей, где рассмотрели первую стадию работы поисковика: обнаружение сайта. Также мы рассмотрели возможные методы работы SEOшника с каждой из стадий.
Перед тем как продолжить, я считаю, что будет целесообразным освежить в памяти о чем шла речь в первой статье:
Поисковик обнаруживает, индексирует и ранжирует веб-страницы. SEOшники должны основывать свои тактики продвижения на этих трех стадиях работы поисковика. Поэтому были сделаны следующие выводы:
- Все дело в обнаружении страницы
- Все дело в индексации.
- Все дело в ранжировании.
Но конечно же, Google как и любой другой поисковик существуют с одной целью — построить и развить бизнес, удовлетворяя потребности пользователей. Поэтому мы должны постоянно помнить следующее:
- Все дело в пользователях.
Зная все вышесказанное, мы можем разработать несколько методов продвижения на каждую из фаз работы поисковика, что в конце может привести к единой SEO стратегии.
Индексация сайта
Индексация является следующим шагом после обнаружения страницы. Выявление дубликатов контента является главной функцией данного шага работы поисковика. Возможно не будет преувеличением, если я скажу, что все крупные сайты имеют не уникальный контент хотя и на международном уровне.
Интернет-магазины могут иметь одинаковый контент в виде одних и тех же товаров. Об этом мы с точностью можем заявить, имея большой опыт работы с такими продавцами как Zappos и Charming Shoppes.
Еще больше проблем с новостными порталами известных газетных изданий и публикаций. Маршалл Симондс и его команда, работая над The New York Times и другими изданиями, ежедневно сталкиваются с дубликатами контента, что является основной SEO работой.
К сайту никогда не будут специально применяться санкции, если на его страницах имеются дубликаты контента. Но существуют фильтры, которые способны отличать одинаковый или слегка измененный контент на множестве страниц. Эта проблема является одной из главных для SEO.
Дубликаты также повлияют на видимость сайта, поэтому нужно свести количество дубликатов к нулю. Различные версии одного и того же контента в индексе поисковика тоже не лучший результат оптимизации.
Мэтт Каттс, в своем интервью с Эриком Энгем, подтвердил существование "crawl cap" (колпак видимости сайта), который зависит от PR сайта (не тулбарного PR) и рассказал о том, какие проблемы могут появиться из-за дубликатов контента:
Полная версия интервью с Мэттом Каттсом включает полнейшую информацию для любого серьезного SEOшника по проблеме дубликатов контента. Хотя и большинство, что вы услышите там будет не новостью, но подтвердить некоторые догадки и решения, с которыми мы сталкиваемся ежедневно, будет не лишним.
Ссылки, особенно с сайтов с отличной структурой, с релевантных и высококачественных страниц не только улучшат индексирование сайта, но и улучшат его видимость.
Определение уровня "проникновения" поисковика в сайт, "колпака видимости сайта", количества дубликатов контента, а затем их устранение, улучшит как видимость сайта в глазах поисковика, так и индексацию сайта.
Как определить качество индексации вашего сайта?
Существует несколько отличных способов узнать это:
- Анализ логов или анализ количества трафика по URL. Составив график по этим данным вы увидите, какие из частей сайта не нравятся поисковикам. А это и укажет на проблемы индексации.
- Анализ внутренней перелинковки сайта. Какие из частей сайта имеют меньше всего внутренних ссылок? Какие из частей сайта расположены в 6-7 кликах от главной страницы?
- Использование таких запросов как: site:jcrew.com inurl:72977 выявит дубликаты страницы. Самыми худшими дубликатами для интернет-магазинов являются дубликаты страниц с описанием товаров. Используйте похожие запросы в поиске: intitle и allintitle.
- Использование "rel=canonical" для объединения дубликатов и их сведения к главной версии контента. Но будьте осторожны, так как не правильное использование "rel=canonical" может навредить вашему сайту.
- Дайте Google и Yahoo (через панели вебмастеров) знать, что в поиске появляются дубликаты контента и во время следующего посещения сайта их можно не учитывать.
- Используйте robots.txt для запрета индексации ненужных страниц и контента, который не предназначен для поисковиков. Кроме этого, для запрета индексации некоторых частей страницы вы можете использовать тег meta robots и noindex.
- Использование XML карт сайта и Google Webmaster Tools для сравнения индексации по вертикали. (Google покажет проблемы в индексации URL для предложенной карты сайта).
Количество дубликатов и результаты поисковой выдачи
Проблема количества дубликатов для SEO очень сложна и требует отдельного рассмотрения. Если коротко, то проблему дубликатов можно решить использованием "rel=canonical" и стандартного "View All page" на страницах, которые служат главной.
Результаты поисковой выдачи — другая уникальная ситуация. Для управления этими результатами существует много способов.
Выявление проблем индексации URL
Во время выявления проблем индексации сайта, любые "слабости" структуры URL страниц сайта всплывут наружу. Особенно это касается сайтов корпоративного уровня, где вы столкнетесь со всеми видами неожиданных результатов в индексе поисковика.
Эти проблемы возникают, когда у сайта появляется множество различных видов пользователей и членов администрации. Конечно же мы сами часто совершаем ошибки, SEO – не является решением всех проблем.
Индексация сайта является главным компонентом видимости сайта, индекса, ранжирования и обычно является главным объектом внимания SEOшников. Как следует почистите индекс вашего сайта и насладитесь эффективностью сканирования, скоростью индексации вашего сайта.
Оставайтесь с нами, так как будет еще и третья, заключительная статья из этой серии.
Источник: Crawl, Index, Rank, Repeat: A Tactical SEO Framework (Part 2)
Перевод: SEOM.info
#1 by jon4god on 09/13/2010 - 10:53
Интересно конечно, но так хочется увидеть хороший материал связанный с ТИЦ, а не PR. Приходится напрягаться и мысленно "перекладывать" на русские поисковики.
#2 by MyOST on 09/13/2010 - 11:28
Если бы тИЦ столь серьезно коррелировал с выдачей или имел какое-нибудь существенное значение, а не просто как один из факторов, который может принимать участие в матрикснете - обязательно бы писали и про него.
#3 by Илья on 09/13/2010 - 12:18
Александр, а сказывается ли длинные урлы на индексации сайта или его продвижении в будущем? А то у меня на движке DLE, урл имеет вид:
сайт.ру/категория/под_категория/еще_под_категория/и_еще_под_категория/и_далее_название_новости.html
Итого, получается 129 символов вместе с http://
Плохо ли это, нужно ли что-то менять? Сайту пол года, вроде индексируется нормально (и в гугле, и в яше).
#4 by Федя Беспомощный on 09/13/2010 - 12:53
Не очень понятная статья для Феди Беспомощного. Но он уяснил для себя всего одну мысль - "Надо стараться избегать дублированного контента". Считаю важным практическим советом была скрытая рекомендация использовать Google Webmaster Tools. Спасибо! Воспользуюсь
#5 by Сетевой Сектант on 09/13/2010 - 13:22
порадовала в статье информация про дубликаты, не очень много в сети статей по ней, четко раскрытых.
#6 by Николай on 09/13/2010 - 20:21
Александр, вот Вы пишите, что почти все крупные сайты имеют не уникальный контент, тогда в чем их успех просто в деньгах или что?
#7 by MyOST on 09/13/2010 - 20:25
Не уник - это не значит, что - гарантия проблем, но должны понимать, что попадаете в группу риска.
Хорошие трастовые сайты - им многое прощается, за примерами далеко ходить не нужно. Что старому сайту - как слону дробина, то новому - контрольный в голову.
#8 by Ox on 09/14/2010 - 08:42
А что здесь значат последние цифры site:jcrew.com inurl:72977 ????
#9 by MyOST on 09/14/2010 - 12:47
Ox - название страницы в URL
т.е. поиск на сайте всех страниц содержащих в урле эти цифры
#10 by zusicks438 on 09/14/2010 - 16:52
Еще в каком-то блоге, по-моему у Маула, видел статью "Поисковики или пользователи: на кого ориентироваться?" Тоже довольно любопытно.
#11 by MyOST on 09/14/2010 - 16:56
http://seom.info/2009/10/01/seo-for-users/
тоже есть такой материал
#12 by Страйкер on 09/15/2010 - 15:35
C недавних пор использую Google Webmaster Tools. Одна из задач сделать все страницы в выдаче гугла без www.
Оснавная чсть страниц с www из порядка 6000, а без www 800.
#13 by EluS1vE on 09/16/2010 - 05:18
У меня сайт вроде норм индексируется.. А как банят поисковики? вручную7 или есть какие то скрипты, банящие автоматом?
#14 by roma on 09/17/2010 - 17:09
@EluS1vE
У них там целые алгоритмы и ещё куча фильтров...
Этож нужно было бы всех китайцев да ещё и половину индусов использовать чтобы вручную всё проверять)))
#15 by kirill on 09/18/2010 - 20:01
Роботы в обще злая штука, не знаешь где забанят или под фильтр попадешь
#16 by Sergey Kim on 09/21/2010 - 00:14
Цитата:"любые "слабости" структуры URL страниц сайта всплывут наружу"
Скажите, а относится ли к слабостям уникальность ссылочной структуры, обязательно ли чтобы ссылки сайта были уникальными?
#17 by MyOST on 09/21/2010 - 00:21
Сергей, я думаю http://seom.info/2010/09/09/3-seo-obnaruzhenie/ здесь есть примеры на картинке по урлам.
Также к "слабости" структуры я бы отнес не корректную работу сервера/cms когда появляются дубли страниц, о которых я писал на примере
http://seom.info/2010/03/24/duplicate-content-2/
#18 by Никита on 09/22/2010 - 06:11
На сколько я понял, недавно роботы яши стали так скаказать более злыми, фильтры и баны стали сыпаться с неба прям. Много знакомых влетело в баню, хотя контент был уник, странно все это.
#19 by Васек on 09/22/2010 - 18:06
Последнее время яша вообще похож на сатану, выбивает сайты из индекса даже мощные сайты.
#20 by SeoLyric on 09/23/2010 - 11:55
Просто нужно добавлять новые станицы на сайт ежедневно, и будем вам счастье. Гугл ориенируется под частоту обновления вашего блога, т.е. чем больше вы пишите, тем чаще гугл будет ходить к вам в гости
#21 by Владимир on 09/25/2010 - 00:32
На Яндекс в последнее время многие жалуются - вышибает из индексации даже качественные сайты и страницы с абсолютно уникальным контентом. Вот спрашивается - и что ему еще надо?
#22 by saha on 09/25/2010 - 15:42
у меня вот пару недель не индексируется новый сайт((((
неочень хорошо)
#23 by Oleg on 09/26/2010 - 13:12
т.е. ТИц не существенно влияет на индекс? Какой тогда главный фактор при выдаче сайта в поиске?
#24 by Seoker on 09/29/2010 - 11:19
А что насчет различного вида сортировок товара на сайте, вывода по 10/20/50/100/всего товара? Лучше в индексе оставлять какой-то один вывод/сортировку?
#25 by MyOST on 09/29/2010 - 12:03
Seoker - это дубли контента внутри сайта, системные страницы, их не должно быть в индексе, только 1 вариант и то для индексации товаров.
Oleg - тИЦ как фактор учавствует в формуле, но не стоит искать прямую корреляцию. Главный фактор - отсутствует.
#26 by Andre on 09/30/2010 - 10:24
Да, сейчас сложнее с индексацией стало. Спасибо за статейку... про определения качества индексации интересно было почитать...
#27 by qhermit on 10/07/2010 - 01:22
Статья конечно интересная. Только у меня вопрос а вы не будете делать статью по тому как вывести сайт из под фильтра, а то у меня один сайт попал под фильтр хотя я даже ссылки не продавал с него
#28 by iZUBRA on 10/07/2010 - 16:55
Я до сих пор не понимаю, от почему скорость индексации такая разная. Помница, создал сайт на joomla, он индексировался около 2х недель. Потом на этот же сайт, но в директорию /blog установил WP, через 30 минут главная страница блога уже была в индексе гугла... У WP вроде стоит пингатор, но не может же он на столько быстро притащить гугл и заставить его индексировать страницу?
#29 by Nikoon on 10/09/2010 - 21:01
Офигенная статься, спасибо автору. Надо подписаться на RSS!
#30 by Йог on 10/13/2010 - 14:43
Отличная статья!
Вот возник по этой теме вопрос.
Допустим есть на сайте раздел Ручки. И в этом разделе выводятся все статьи которые туда попадают. Выводятся по принципу видно часть поста и ссылка читать далее.
Так вот если я собираюсь продвигать этот раздел Ручки? То будет поисковик воспринимать превьюшки постов, как их дубли?
#31 by MyOST on 10/13/2010 - 14:50
Йог,
тут также как и со страницами тегов у блога - да, это частичные дубли контента внутри сайта, НО можно добавить сверху еще и описание на 1-2 тысячи символов, в результате страница будет с уникальным контентом + те самые частичные дубли. Это решает проблему.
iZUBRA, много факторов могут влиять на скорость индексации, порой яндекс быстрее. Хотя гугл в большинстве случаев оперативнее
#32 by vova on 10/30/2010 - 14:09
отличная статья как говорится век живи век учись...автору уважуха
#33 by Sergej on 01/08/2011 - 12:14
Мой сайт, контент копирайт, пишут журналисты, но пол года назад попал под фильтр яши из-за продажи ссылок. Полгода уже этих ссылок нет, и с уникальным контентом у яши одна страница в индексе. А сайты (говно) на народе с плагиатом (мои первые шаги сайто-строения), прекрасно себя чувствуют и даже в топе по некоторым запросам. И ссылки там продаются. То есть полный букет нарушений с позиции Яндекса. Любит яша своё детище
#34 by Алексей Н. on 05/26/2011 - 10:46
Ещё бы знать, что чистить и как, а то можно не индекс прочистить, а что-то другое. В общем, я на пример, не знаю как это делается. Ну, возможно, несколько позднее закажу аудит сайта, там видно будет.