Поисковая система Яндекс | О раскрутке сайта простым языком

DATAWORD - наблюдения оптимизатора
Раскрутка сайта и поисковая оптимизация

 
  

Поисковая система Яндекс

Раздел блога: Поисковые системы | 4 августа 2007, 17:10

Версия для печати Версия для печати

Поисковая система ЯндексВ настоящее время занимает лидирующее положение в поисковом трафике Рунета, являясь фактически фаворитом всех нуждающихся в поиске информации в странах СНГ. Ежедневная посещаемость этой поисковой системы – более 9 миллионов человек в сутки (январь 2010). В поисковой системе представлено более 5,4 миллиона сайтов с количеством страниц более 2,5 миллиарда, что составляет более 62 терабайта информации.

А начиналось всё с 1997 года, когда этот поисковик впервые был представлен на суд публики.
"Яндекс" постоянно совершенствует свои поисковые алгоритмы, что позволяет ему соответствовать современным критериям поиска и становиться на уровень Google хотя бы в России. А пока так и есть, если судить по уровню освоения обоих поисковых систем аудиторией СНГ. "Яндекс", как и Google, работает на кластерной системе организации компьютерных вычислительных сетей. Каждый кластер отвечает за определённый сегмент сохранённой информации. Сканирующие роботы поисковой системы бывают 2 видов:
1) основной сканирующий робот
2) быстрый робот, который  регулярно сканирует сайты, на которых информация обновляется очень часто, и вносит информацию с этих сайтов в поисковую систему, что обеспечивает быстрое обновление индекса поисковой системы.

Обновления (апдейты) поисковой системы бывают 2 видов:

1) Обновления поисковой базы. Происходят несколько раз в месяц. В поиске начинают
выдаваться обновлённые страницы сайтов, собранные основным сканирующим
роботом.

2) Обновления программной части (движка) поисковой системы. Сутью данных
обновлений является изменение алгоритмов ранжирования документов в поисковой
системе. Обычно подобные обновления анонсируются и им даются определённые
названия.

Давайте теперь посмотрим на принципы работы этого поискового гиганта Рунета.

Что особенного?

"Яндекс" учитывает морфологию русского языка (мощная система определения словоформ), имеет возможность сузить запрос до максимально точного при помощи специальных поисковых формул и геотаргетинга, имеет качественно разработанный алгоритм оценки релевантности документов (точность отношения текста документа к поисковому запросу), обладает высокой скоростью реакции на запросы и практическим отсутствием перегрузок серверов.

Совсем недавно (с 2009 года) с вводом нового алгоритма "Снежинск" поисковая система "Яндекс" научилась определять региональную принадлежность сайтов и формировать результаты поиска по географическому расположению пользователя. Сегодня это самый точный географический поисковик Рунета.

В "Яндекс" можно подать заявку на индексацию сайта и написать письмо разработчикам о проблемах с индексацией, также имеется форум поисковой системы http://forum.yandex.ru  и блог http://webmaster.ya.ru, что уже неплохо соответствует минимальным правилам юзабилити.

К тому же функционирует панель управления собственным сайтом в поисковой системе "Яндекс" - http://webmaster.yandex.ru, на котором можно настраивать индексацию собственного сайта, отслеживать нежелательные изменения кода, следить за качественностью индексации сайта в этой поисковой системе, выявлять возможные ошибки индексации сайта и даже исправлять орфографические ошибки.

Индексация новых сайтов идёт дольше, если это происходит естественным путём без влияния внешних поисковых факторов (расстановка ссылок, ссылающихся на ваш сайт). Как показывает опыт, не раньше месяца. По опыту скажу, что домены в зоне .ru индексируются быстрее, чем аналогичные домены в других зонах (.info,  .net, .com) и бесплатных pp.ru net.ru и т. д.

Для этой поисковой системы являются критичными такие параметры, как динамичные ссылки. Из-за них сайт может вообще быть плохо проиндексированным. Старайтесь исключать большое количество параметров в строке адреса сайта.
"Яндекс" умеет индексировать текст внутри документов Shockwave Flash (только если текст не нарисован на самом изображении). Помимо этого, индексируются документы PDF, RTF, DOC, XLS (документы Excel), PPT (презентации PowerPoint) и документы Open Office.
Поисковая система учитывает данные файла robots.txt ( к тому жеподдерживает атрибут Allow) и некоторые метатеги. Роботом "Яндекса" игнорируются метатеги Revisit-After и Keywords.

Описание документа в выдаче (сниппет) формируется на основе цитат найденного документа, поэтому тег Description не очень эффективен для этой поисковой системы (хотя иногда может использоваться). С недавнего времени (с 2009 года) поисковая система поддерживает технологию Sitemaps.

Не критичен для этой поисковой системы метатег кодировки. Разработчики утверждают, что поисковая система умеет определять кодировку документов автоматически.

Важно отметить, что "Яндекс" не индексирует документы величиной больше, чем 10 мегабайт, так что оптимизируйте ваши файлы.

Для "Яндекса" важен HTTP-показатель Last-Modified при ответе сервера. Если сервер не выдаёт такую информацию, то информация на этом сайте может индексироваться реже. Также важно, чтобы сервер был правильно сконфиругирован и выдавал в случае ошибок отдавал серверный редирект 302 (временный редирект), а не 301 (постоянный редирект), т. к. в последнем случае страница будет исключена из индекса. Аналогичное произойдёт при ошибке сервера 404 (документ не найден).

До сих пор есть проблемы с документами на фреймовой основе (<frame>, <frameset>,<iframe>), поэтому приходится использовать специальные скрипты, которые переводят пользователя, пришедшего с поисковой системы, на нужную страницу.

Наличие зеркал одного сайта иметь не рекомендуется. Придётся принимать меры для того, чтобы исключить индексацию зеркал или же произвести их склейку, если индексация обоих произошла, например, через файл robots.txt.

Не формируйте ссылки при помощи скриптов javascript - "Яндекс" не индексирует подобные ссылки!

Поскольку "Яндекс" ориентируется на гео-таргетинг, и если ваш сайт принадлежит к какому-то региону, то было бы необходимо указать на страницах либо телефонный код города, почтовый индекс или же адрес, чтобы поисковая система могла более точно идентифицировать регион вашего сайта.

Яндекс.Каталог - основной помощник этой поисковой системы. Если сайт находится в нём, то этот знак показывает, что сайт заслуживает особого внимания. К тому же становится проще определить тематическую направленность сайта и получить значимую внешнюю ссылку на свой ресурс.

Как тебя идентифицировать, или названия поисковых роботов "Яндекса":

В логах некоторых сайтов можно обнаружить различные текстовые метки поисковиков, которые посещали сайт. IP-адреса роботов "Яндекс" не разглашает.
В этом списке представляются вашему вниманию самые интересные из них.

Yandex/1.01.001 (compatible; Win16; I) — основной индексирующий робот;
Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок;
Yandex/1.01.001 (compatible; Win16; H) — робот, определяющий зеркала сайтов;
Yandex/1.02.000 (compatible; Win16; F) — робот, индексирующий пиктограммы сайтов (favicons);
Yandex/1.03.003 (compatible; Win16; D) — робот, обращающийся к странице при добавлении ее через форму "Добавить URL";
Yandex/1.03.000 (compatible; Win16; M) — робот, обращающийся при открытии страницы по ссылке "Найденные слова";
YaDirectBot/1.0 (compatible; Win16; I) — робот, индексирующий страницы сайтов, участвующих в Рекламной сети "Яндекса".

Обращаю ваше внимание на то, что с июня 2010 года все роботы "Яндекса" меняют свои User-Agent. Как утверждают представители "Яндекса", новые User-Agent  позволят веб-мастеру без особых трудностей по имени определить принадлежность робота к тому или иному сервису "Яндекса".

Список новых User-Agent:
Mozilla/5.0 (compatible; YandexBot/3.0) — основной индексирующий робот.
Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector) — робот, определяющий зеркала сайтов.
Mozilla/5.0 (compatible; YandexImages/3.0) — индексатор "Яндекс.Картинок".
Mozilla/5.0 (compatible; YandexVideo/3.0) — индексатор "Яндекс.Видео".
Mozilla/5.0 (compatible; YandexMedia/3.0) — робот, индексирующий мультимедийные данные.
Mozilla/5.0 (compatible; YandexBlogs/0.99; robot) — робот поиска по блогам, индексирующий комментарии постов.
Mozilla/5.0 (compatible; YandexAddurl/2.0) — робот, обращающийся к странице при добавлении ее через форму "Добавить URL".
Mozilla/5.0 (compatible; YandexFavicons/1.0) — робот, индексирующий иконки сайтов (favicons).
Mozilla/5.0 (compatible; YandexDirect/3.0) — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса (РСЯ).
Mozilla/5.0 (compatible; YandexDirect/2.0; Dyatel) — "простукивалка" "Яндекс.Директа".
Mozilla/5.0 (compatible; YandexMetrika/2.0) — робот "Яндекс.Метрики".
Mozilla/5.0 (compatible; YandexCatalog/3.0; Dyatel) — "простукивалка" Яндекс.Каталога.
Mozilla/5.0 (compatible; YandexNews/3.0) — индексатор "Яндекс.Новостей".

Самым важным из них являются основной индексирующий робот. Именно от его индексации в большинстве случаев определяется поисковая значимость сайта.

Роботы работают отдельно друг от друга, поэтому появление одного из них не гарантирует, что появится и другой (например, YaDirectBot/1.0 посетил ваш сайт, но это не означает, что придёт именно Yandex/1.01.001 после него).

Есть также ещё и роботы-помощники, которые периодически обходят сайты и проверяют их на предмет доступности. В основном, это роботы "Яндекс.Каталога" и рекламной сети "Яндекса".

Диапазон IP-адресов ботов "Яндекса":

Основные показатели внешней оптимизации для поисковой системы "Яндекс":

1) тИЦ – тематический индекс цитирования сайта, общедоступен, показывает некоторое усреднённое значение ссылающихся тематических ссылок на сайт, напрямую не влияет на поисковое ранжирование документов, используется в Яндекс.Каталоге для определения позиции сайта в тематической категории каталога, а также многими веб-мастерами и оптимизаторами для оценки
примерного уровня раскрутки сайта.
2) вИЦ – взвешенный индекс цитирования. Скрытый параметр, известный
только "Яндексу". Алгоритм определения количества внешних ссылок,
а также их влияния на выдачу в поисковой системе. Применяется среди многочисленных факторов, влияющих на
ранжирование в поиске.
3) Наличие в "Яндекс.Каталоге"
4) Количество проиндексированных страниц
5) Частота индексации документов
6) Учёт и неучёт ссылок с сайта, наличие сайта под поисковыми фильтрами (непот-фильтр)
Как управлять индексацией?

1) Через файл robots.txt в корне сайта:
Создаём специальный текстовый файл, в котором запрещаем индексацию некоторых разделов сайта.
2) Через метатеги:
Непосредственно в самом документе указываем о возможности или невозможности индексации страницы или переходе по ссылкам. Для этого используется метатег Robots.
3) Через тег <noindex></noindex>
Всё, что находится внутри этих тегов, будет проигнорировано этой поисковой системой.
Минус: тег не сертифицирован W3C, возможны проблемы с отображением информации.
4) Через атрибут rel="nofollow" в теге <a>
Поисковая система ввела его поддержку в апреле 2010 года. Теперь все ненужные для индексации ссылки можно просто закрыть. Заметим, что этот атрибут поддерживается и поисковой системой Google.

Использование этих методов поможет понять поисковой системе ваши предпочтения при индексации ваших сайтов.

Вот примерно то, что можно сказать об этой поисковой системе вкратце. Остаётся напомнить лишь то, что "Яндекс" помимо самой поисковой системы разрабатывает различные продукты и сервисы, что несколько смещает фокус предоставления услуги поиска, однако именно с целью поиска пока большинство людей идут на сайт "Яндекса".

Перейти в начало страницы

Подписаться на rssНравится этот блог?
Подпишитесь на обновления блога (RSS)
.
Подпишитесь на комментарии (RSS).



Количество комментариев: 10

  1. Vlad:

    А как после всего этого удержать посетителей на форуме ?

  2. Andrei:

    Раскрутка форума, вообще отдельная тема. Посетителей как и роботов, на форуме можно удержать уникальным контентом, халявой.

    PS Статья очень информативная.

  3. Infogr:

    Благодарю, статья клевая!

  4. Combox:

    Статья очень полезна, особенно помогли данные о robots.txt :wink:

  5. адомик:

    Мне интересно, если мы знаем какой робот отвечает за спам (переизбыток seo), знаем его ip, и если мы запретим его доступ на сайт заблокировав его ip, то можно крутить сайт не боясь что сайт забанят?

  6. Автор блога Виталий:

    адомик:
    Что вы имеете в виду? Робот поисковой системы лишь собирает данные, читает файл robots.txt, файлы sitemap и метатеги, изучает ссылки. Контент и его релевантность, а также решение о том, накладывать ли на страницу сайта фильтр или нет, принимается не роботом, а поисковыми алгоритмами самой поисковой системы путём анализа собранного контента.

  7. Сергей:

    Виталий спасибо за статью.Узнал для себя полезные вещи.Но у меня такой вопрос, что теги Description и Keywords можно не прописывать?

  8. Автор блога Виталий:

    Сергей:
    Keywords можете не использовать.
    Description используйте, в некоторых случаях поисковая система выводит информацию из этого метатега в сниппет (описание ссылки в результатах выдачи по поисковому запросу).

  9. Эд:

    Именно . Стал искать бесплатно музыку и в списке выданном мне были и небезопасные сайты и зеркала , хотя поти у каждого исполнителя есть бесплатное музыкальное произведение .

  10. lipsyroipuddy:

    Регистрируюсь на форуме.

Хотите высказать своё мнение по теме? Пишите!

ВНИМАНИЕ!
Комментарии, которые не несут смысловую нагрузку, могут быть удалены! В URL можно использовать только ссылку на ваш блог или Twitter, ссылки на другие ресурсы могут быть удалены.

Поля, помеченные *, обязательны для заполнения.


автогудронатор ДС-39Б новый

Потребление памяти: 11.46MB