Поисковая система Яндекс

Раздел блога: Поисковые системы | 4 августа 2007, 17:10

Поисковая система Яндекс В настоящее время занимает лидирующее положение в поисковом трафике Рунета, являясь фаворитом почти всех пользователей, нуждающихся в поиске информации в странах СНГ. Ежедневная посещаемость этой поисковой системы – более 9 миллионов человек в сутки (январь 2010). В поисковой системе представлено более 5,4 миллиона сайтов с количеством страниц более 2,5 миллиарда, что составляет более 62 терабайта информации.

А начиналось всё с 1997 года, когда этот поисковик впервые был представлен на суд публики.
"Яндекс" постоянно совершенствует свои поисковые алгоритмы, что позволяет ему соответствовать современным критериям поиска и становиться на уровень Google хотя бы в России. А пока так и есть, если судить по уровню освоения обеих поисковых систем аудиторией СНГ. "Яндекс", как и Google, работает на кластерной системе организации компьютерных вычислительных сетей. Каждый кластер отвечает за определённый сегмент сохранённой информации. Сканирующие роботы поисковой системы бывают 2 видов:
1) основной сканирующий робот
2) быстрый робот, который регулярно сканирует сайты, на которых информация обновляется очень часто, и вносит информацию с этих сайтов в поисковую систему, что обеспечивает быстрое обновление индекса поисковой системы. С июня 2010 года быстрый робот был заменён на новую технологию поиска документов в режиме реального времени под названием Orange. Продукт, разработанный совместно калифорнийским и московским подразделениями "Яндекса", работает в режиме тестирования, однако уже сейчас показывает свою эффективность. Поисковая система "Яндекс" делает курс на актуальность поисковой базы для событий, которые происходят "здесь и сейчас" и значимость которых важна в данный момент. Планируется, что этот инструмент будет использовать множество сторонних источников для определения значимости того или иного контента, а также быстро обрабатывать большие массивы данных на страницах, ранжировать и размещать их в индексе. Эта особенность "Яндекса" будет полезна новостным сайтам и информационным агентствам.

Обновления (апдейты) поисковой системы бывают 2 видов:

1) Обновления поисковой базы. Происходят несколько раз в месяц. В поиске начинают
выдаваться обновлённые страницы сайтов, собранные основным сканирующим
роботом. Веб-мастеры определяют эти обновления самостоятельно, изучая позиции сайтов в выдаче. Как только появляются движения в выдаче того или иного сайта по определённому запросу, веб-мастер понимает, что обновляется поисковая база. Определить её обновление можно через специальные сервисы и информеры, а также на специальных форумах сеошников.

2) Обновления программной части (движка) поисковой системы. Сутью данных
обновлений является изменение алгоритмов ранжирования документов в поисковой
системе. Обычно они анонсируются и им даются определённые
названия ("Снежинск", "Полтава", "Магадан").

Давайте теперь посмотрим на принципы работы этого поискового гиганта Рунета.

Что особенного?

"Яндекс" учитывает морфологию русского языка (мощная система определения словоформ), имеет возможность сузить запрос до максимально точного при помощи специальных поисковых формул и геотаргетинга, имеет качественно разработанный алгоритм оценки релевантности документов (точность отношения текста документа к поисковому запросу), обладает высокой скоростью реакции на запросы и практическим отсутствием перегрузок серверов.

Совсем недавно (с 2009 года) с вводом нового алгоритма "Снежинск" поисковая система "Яндекс" научилась определять региональную принадлежность сайтов и формировать результаты поиска по географическому расположению пользователя (на основе IP-адреса или же с учётом пользовательских предпочтений). Сегодня это самый точный географический поисковик Рунета. Поисковая система умеет различать геозависимые и геонезависимые запросы и формировать выдачу таким образом, чтобы она максимально соответстовала требованиям человека, который ищет нужную для него информацию.

В "Яндекс" можно подать заявку на индексацию сайта и написать письмо разработчикам о проблемах с индексацией, также имеется форум поисковой системы http://forum.yandex.ru и блог http://webmaster.ya.ru, что уже соответствует минимальным правилам юзабилити.

К тому же функционирует панель управления собственным сайтом в поисковой системе "Яндекс" - http://webmaster.yandex.ru, на которой можно настраивать особенности индексации собственного сайта, отслеживать нежелательные изменения кода, выявлять и исправлять возможные ошибки индексации сайта, в том числе и орфографические.

Индексация новых сайтов идёт дольше, если это происходит естественным путём без влияния внешних поисковых факторов (расстановка ссылок, ссылающихся на ваш сайт). Обычно не раньше месяца. По опыту скажу, что домены в зоне .ru индексируются быстрее, чем аналогичные домены в других зонах (.info, .net, .com) и бесплатных pp.ru net.ru и т. д.

Для этой поисковой системы являются критичными такие параметры, как динамичные ссылки. Из-за них сайт может быть плохо проиндексирован. Старайтесь исключать большое количество параметров в строке адреса сайта.
"Яндекс" умеет индексировать текст внутри документов Shockwave Flash (только если текст не нарисован на самом изображении), если эти элементы передаются отдельной страницей, имеющей MIME-тип application/x-shockwave-flash, и файлы с расширением .swf. Помимо этого, индексируются документы PDF, RTF, DOC, XLS (документы Excel), PPT (презентации PowerPoint) и документы Open Office.
Поисковая система учитывает данные файла robots.txt (к тому же поддерживает атрибут Allow) и некоторые метатеги. Роботом "Яндекса" игнорируется метатег Revisit-After.

Описание документа в выдаче (сниппет) формируется на основе цитат найденного документа, поэтому тег Description не очень эффективен для этой поисковой системы (хотя иногда может использоваться). С недавнего времени (с 2009 года) поисковая система поддерживает технологию Sitemaps.

Не критичен для этой поисковой системы метатег кодировки. Разработчики утверждают, что поисковая система умеет определять кодировку документов автоматически.

Важно отметить, что "Яндекс" не индексирует документы величиной больше, чем 10 мегабайт, так что оптимизируйте ваши файлы.

Для "Яндекса" важен HTTP-показатель Last-Modified при ответе сервера. Если сервер не выдаёт такую информацию, то информация на этом сайте может индексироваться реже. Также важно, чтобы сервер был правильно сконфиругирован и выдавал в случае ошибок отдавал серверный редирект 302 (временный редирект), а не 301 (постоянный редирект), т. к. в последнем случае страница будет исключена из индекса. Аналогичное произойдёт при ошибке сервера 404 (документ не найден).

До сих пор есть проблемы с документами на фреймовой основе (<frame>, <frameset>,<iframe>), поэтому приходится использовать специальные скрипты, которые переводят пользователя, пришедшего с поисковой системы, на нужную страницу.

Наличие зеркал одного сайта иметь не рекомендуется. Придётся принимать меры для того, чтобы исключить индексацию зеркал или же произвести их склейку, если индексация обоих произошла, например, через файл robots.txt.

Не формируйте ссылки при помощи скриптов javascript - "Яндекс" не индексирует подобные ссылки!

Поскольку "Яндекс" ориентируется на гео-таргетинг, и если ваш сайт принадлежит к какому-то региону, то было бы необходимо указать на страницах либо телефонный код города, почтовый индекс или же адрес, чтобы поисковая система могла более точно идентифицировать регион вашего сайта.

Яндекс.Каталог - основной помощник этой поисковой системы. Если сайт находится в нём, то этот знак показывает, что сайт заслуживает особого внимания. К тому же становится проще определить тематическую направленность сайта и получить значимую внешнюю ссылку на свой ресурс.

Если ваш сайт является виртуальным представительством какой-либо компании, предоставляющей те или иные услуги как в Интернете, так и вне Интернета, то рекомендуем зарегистрировать организацию в каталоге организаций "Яндекса" через удобный для веб-мастеров интерфейс управления сайтов "Я.Вебмастер" (о котором говорилось чуть выше) и указать там такие данные, как: адрес, контактные данные, режим работы и другие специфические параметры (стоимость билетов, число залов). Это поспособствует быстрому нахождению вашей организации на картах "Яндекса". Кроме этого информация о вашей организации может быть представлена в сниппете (номер телефона, адрес со ссылкой на "Яндекс.Карты", время работы и прочее). С 10 октября 2010 для сайтов гостиниц, отелей, ресторанов, различных типов кафе, кинотеатров, музеев, аэропортов, фитнес-центров, автошкол, салонов красоты, туристических фирм, автосалонов и клиник формируются свои, особенные сниппеты. В них может отображаться дополнительная информация вроде суммы счетов или звёздности гостиницы и прочее.

Если на сайте предоставляется информация о вакансиях, то вы можете стать партнёром сервиса "Яндекс. Работа" и передавать свои данные в их базу данных (сервис представлен "Яндексом" 25 октября 2010).

Если вы предоставляете вклады и кредиты, то такую информацию тоже можно передать "Яндексу". Наличие на сайте товаров и цен тоже позволяет сформировать специальный сниппет, если вы подключите свой сайт к этой опции.

Информация в виде рефератов тоже может быть полезна "Яндексу". Если вы подключите соответствующую опцию, то сможете формировать сниппет информацией о рефератах (рубрика, тип работы, дата добавления, количество скачиваний, оглавление). Реализуется при помощи XML-фида специального формата.

Из особенных функций, который позволяют максимально контролировать сниппет вашей страницы, следует выделить возможность предоставить информацию поисковой системе о словарях (если у сайта тИЦ больше 100, и он содержит словарно-энциклопедический контент, оформленный специальной семантической разметкой) и кулинарных рецентов (если на сайте применена семантическая разметка формата hRecipe и формируется специальный XML-фид).

Все эти опции можно удобно подключить через сервис "Я.Вебмастер". Как мы видим, компания "Яндекс" активно работает над тем, чтобы максимально упростить процесс индексации документов в сети Интернет и позволить веб-мастерам управлять представлением своих сайтов в результатах выдачи поисковой системы "Яндекс".

Как тебя идентифицировать, или названия поисковых роботов "Яндекса":

В логах некоторых сайтов можно обнаружить различные текстовые метки поисковиков, которые посещали сайт. IP-адреса роботов "Яндекс" не разглашает.
В этом списке представляются вашему вниманию самые интересные из них, которых можно идентифицировать по User-Agent.

Mozilla/5.0 (compatible; YandexBot/3.0) — основной индексирующий робот.
Mozilla/5.0 (compatible; YandexBot/3.0; MirrorDetector) — робот, определяющий зеркала сайтов.
Mozilla/5.0 (compatible; YandexImages/3.0) — индексатор "Яндекс.Картинок".
Mozilla/5.0 (compatible; YandexVideo/3.0) — индексатор "Яндекс.Видео".
Mozilla/5.0 (compatible; YandexMedia/3.0) — робот, индексирующий мультимедийные данные.
Mozilla/5.0 (compatible; YandexBlogs/0.99; robot) — робот поиска по блогам, индексирующий комментарии постов.
Mozilla/5.0 (compatible; YandexAddurl/2.0) — робот, обращающийся к странице при добавлении ее через форму "Добавить URL".
Mozilla/5.0 (compatible; YandexFavicons/1.0) — робот, индексирующий иконки сайтов (favicons).
Mozilla/5.0 (compatible; YandexDirect/3.0) — робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса (РСЯ).
Mozilla/5.0 (compatible; YandexDirect/2.0; Dyatel) — "простукивалка" "Яндекс.Директа".
Mozilla/5.0 (compatible; YandexMetrika/2.0) — робот "Яндекс.Метрики".
Mozilla/5.0 (compatible; YandexCatalog/3.0; Dyatel) — "простукивалка" Яндекс.Каталога.
Mozilla/5.0 (compatible; YandexNews/3.0) — индексатор "Яндекс.Новостей".
Mozilla/5.0 (compatible; YandexAntivirus/2.0) — антивирусный робот "Яндекса".

Самым важным из них являются основной индексирующий робот. Именно от его индексации в большинстве случаев определяется поисковая значимость сайта.

Роботы работают отдельно друг от друга, поэтому появление одного из них не гарантирует, что появится и другой (например, Mozilla/5.0 (compatible; YandexFavicons/1.0) посетил ваш сайт, но это не означает, что придёт именно Mozilla/5.0 (compatible; YandexNews/3.0) после него).

Есть также ещё и роботы-помощники, которые периодически обходят сайты и проверяют их на предмет доступности. В основном, это роботы "Яндекс.Каталога" и рекламной сети "Яндекса".

Диапазон IP-адресов ботов "Яндекса":

213.180.192.0/19
87.250.224.0/19
77.88.0.0/18

Основные показатели внешней оптимизации для поисковой системы "Яндекс":

1) тИЦ – тематический индекс цитирования сайта, общедоступен, показывает некоторое усреднённое значение ссылающихся тематических ссылок на сайт, используется в Яндекс.Каталоге для определения позиции сайта в тематической категории каталога, а также многими веб-мастерами и оптимизаторами для оценки
примерного уровня раскрутки сайта.
2) вИЦ – взвешенный индекс цитирования. Скрытый параметр, известный
только "Яндексу". Алгоритм определения количества внешних ссылок,
а также их влияния на выдачу в поисковой системе. Применяется среди многочисленных факторов, влияющих на
ранжирование в поиске.
3) Наличие в "Яндекс.Каталоге"
4) Количество проиндексированных страниц
5) Частота индексации документов
6) Учёт и неучёт ссылок с сайта, наличие сайта под поисковыми фильтрами (непот-фильтр)
Как управлять индексацией?

1) Через файл robots.txt в корне сайта:
Создаём специальный текстовый файл, в котором запрещаем индексацию некоторых разделов сайта.
2) Через метатеги:
Непосредственно в самом документе указываем о возможности или невозможности индексации страницы или переходе по ссылкам. Для этого используется метатег Robots.
3) Через тег <noindex></noindex>
Всё, что находится внутри этих тегов, будет проигнорировано этой поисковой системой.
Минус: тег не сертифицирован W3C, возможны проблемы с отображением информации.
4) Через атрибут rel="nofollow" в теге <a>
Поисковая система ввела его поддержку в апреле 2010 года. Теперь все ненужные для индексации ссылки можно просто закрыть. Заметим, что этот атрибут поддерживается и поисковой системой Google.

Использование этих методов поможет понять поисковой системе ваши предпочтения при индексации ваших сайтов.

Вот примерно то, что можно сказать об этой поисковой системе вкратце. Остаётся напомнить лишь то, что "Яндекс" помимо самой поисковой системы разрабатывает различные продукты и сервисы, что несколько смещает фокус предоставления услуги поиска, однако именно с целью поиска пока большинство людей идут на сайт "Яндекса".

Перейти в начало страницы

Нравится этот блог?
Подпишитесь на обновления блога (RSS).
Подпишитесь на комментарии (RSS).

Количество комментариев: 15

Vlad:
30 октября, 2008 г. в 1:48 pm
А как после всего этого удержать посетителей на форуме ?
Andrei:
6 марта, 2009 г. в 6:48 am
Раскрутка форума, вообще отдельная тема. Посетителей как и роботов, на форуме можно удержать уникальным контентом, халявой.

PS Статья очень информативная.
Infogr:
30 марта, 2009 г. в 6:07 pm
Благодарю, статья клевая!
Combox:
27 января, 2010 г. в 4:25 pm
Статья очень полезна, особенно помогли данные о robots.txt
адомик:
21 февраля, 2010 г. в 2:56 pm
Мне интересно, если мы знаем какой робот отвечает за спам (переизбыток seo), знаем его ip, и если мы запретим его доступ на сайт заблокировав его ip, то можно крутить сайт не боясь что сайт забанят?
Автор блога Виталий:
23 февраля, 2010 г. в 2:30 am
адомик:
Что вы имеете в виду? Робот поисковой системы лишь собирает данные, читает файл robots.txt, файлы sitemap и метатеги, изучает ссылки. Контент и его релевантность, а также решение о том, накладывать ли на страницу сайта фильтр или нет, принимается не роботом, а поисковыми алгоритмами самой поисковой системы путём анализа собранного контента.
Сергей:
7 марта, 2010 г. в 6:08 pm
Виталий спасибо за статью.Узнал для себя полезные вещи.Но у меня такой вопрос, что теги Description и Keywords можно не прописывать?
Автор блога Виталий:
11 марта, 2010 г. в 1:57 am
Сергей:
Keywords можете не использовать.
Description используйте, в некоторых случаях поисковая система выводит информацию из этого метатега в сниппет (описание ссылки в результатах выдачи по поисковому запросу).
Эд:
26 марта, 2010 г. в 3:41 pm
Именно . Стал искать бесплатно музыку и в списке выданном мне были и небезопасные сайты и зеркала , хотя поти у каждого исполнителя есть бесплатное музыкальное произведение .
lipsyroipuddy:
22 июля, 2010 г. в 6:45 pm
Регистрируюсь на форуме.
Сергей Медведев:
31 июля, 2010 г. в 9:53 pm
Одно из заданий на нашей школе было - поставить на вновь созданные блоги на Blogspot счетчики Yandex. Я дал это задание без задней мысли, так как Yandex мой блог уже проиндексировал и у меня стоят такие счетчики.
но у многих наших курсантов Yandex отказывается индексировать блоги. говорит, что по запросу ничего не найдено. В чем причина?
Поделитесь, кто в курсе, пожалуйста.
Автор блога Виталий:
9 августа, 2010 г. в 12:25 pm
Сергей Медведев:
Всё зависит от того, как давно были зарегистрированы блоги, как часто обновляются и сколько внешних качественных ссылок на них стоит. Все эти факторы могут влиять на индексацию блога.
Шэфт:
14 декабря, 2010 г. в 6:11 pm
А я вот как-раз ругался на то что Яндекс не обновляет товары которые были изменены, а оказывается в sitemap'е lastmod стоял по нулям... Проверим насколько серьезно он относиться к этим цифрам. В общем статья очень интересная, хоть местами и слишком поверхностная. Автору спасибо!
Федор:
9 июля, 2011 г. в 12:54 pm
На Keywords никто уже не смотрит
ta-kyn:
2 июля, 2015 г. в 1:12 am
Спасибо за статью! Интересно было ознакомиться с работой поисковика!

www.liex.ru - автоматическое размещение статей с прямыми ссылками

DATAWORD - наблюдения оптимизатора
Раскрутка сайта и поисковая оптимизация

Поисковая система Яндекс

Количество комментариев: 15

Хотите высказать своё мнение по теме? Пишите!

Наши партнёры:

Здесь я пишу:

Поиск на блоге:

Обновления в выдаче:

DATAWORD - наблюдения оптимизатора Раскрутка сайта и поисковая оптимизация

Поисковая система Яндекс

Количество комментариев: 15

Хотите высказать своё мнение по теме? Пишите!

Наши партнёры:

Здесь я пишу:

Поиск на блоге:

Обновления в выдаче:

DATAWORD - наблюдения оптимизатора
Раскрутка сайта и поисковая оптимизация