DATAWORD - наблюдения оптимизатора - https://dataword.info

На поисковую выдачу Яндекса влияет тИЦ

Опубликовано ноября 5, 2010 @ 4:18 pm в разделе Арсенал оптимизатора | 16 Comments

Яндекс тИЦСегодня я с вами хочу поделиться своими мыслями насчёт одного из самых известных и более-менее очевидных поисковых алгоритмов «Яндекса». Мы поговорим о тИЦ. В Интернете бытует множество мнений о влиянии этого поискового алгоритма на выдачу в "Яндексе".

Большое количество веб-мастеров считает, что влияние тИЦ сводится сугубо к позиции того или иного сайта в "Яндекс.Каталоге". Да, отчасти это так. Действительно, если мы будем смотреть только в рамках каталога, то увидим эту закономерность: сайт тем выше в своей категории каталога, чем больше у него эта заветная циферка на "пузомерке" тИЦ, которую "Яндекс" каждому веб-мастеру при большом желании предлагает установить на сайт. И если бы эта пузомерка выдавалась только сайтам-участникам каталога, вопросов бы лишних ни у кого не возникло, однако тИЦ считается для всех сайтов. Даже для тех, кто не участвует в этом фирменном каталоге "Яндекса", а это наводит на определённые мысли. А зачем, собственно, тратить немалые мощности на подсчёт тИЦ для всех сайтов, ведь организация серверных мощностей стоит немало? А если принять во внимание тот факт, что тИЦ появился задолго до того, как стала применяться в серверной архитектуре высокопроизводительная техника?

 Что такое тИЦ?

Как следует из расшифровки аббревиатуры, тИЦ – это тематический индекс цитирования сайта в [1] поисковой системе "Яндекс". Кстати, мне до сих пор непонятно, почему же первая буква в этой аббревиатуре пишется с маленькой буквы. Давайте посмотрим на историю словосочетания "индекс цитирования". Пришло это понятие к нам из научного стиля русского языка. Раньше, до момента заимствования его "Яндексом", употреблялось исключительно в научной среде.

Индекс цитирования в науке (например, "Российский индекс научного цитирования" - РИНЦ) – это некая мера популярности той или иной научной работы или учёного. Ведь главное здесь то, что популярность, а следовательно, и актуальность работ определяется тем, какое количество других работ учёных ссылается на материал конкретного научного труда или материалы одного учёного.

Нетрудно сделать вывод, что "Яндекс" позаимствовал этот нехитрый, но всё же достаточно эффективный метод, который можно применять и для ранжирования документов в сети Интернет. В сфере оптимизации сайтов тематический индекс цитирования сайта – это некая мера популярности его страниц, определяющаяся, как ни странно, именно цитированием их в среде Интернета, но посредством html-ссылок.

Как следует из аббревиатуры, не все ссылки влияют на тематический индекс цитирования того или иного источника Интернета. Прилагательное "тематический" даёт нам ясно понять, что участие в ранжировании документа принимают только тематические ссылки или, если хотите, только тематические сайты.

Весь вопрос в том, как же всё-таки определяется тематичность "Яндекса"?
Логично было бы предположить, что она устанавливается вручную людьми-асессорами (например, сотрудниками "Яндекса", которые распределяют тот или иной сайт по тематике в соответствующие рубрики "Яндекс.Каталога"). Вероятно, поначалу именно сотрудники "Яндекс.Каталога" определяли тематичность того или иного ресурса, но проблема в том, что Интернет не стоит на месте. Сейчас существует такое огромное количество сайтов, что "Яндекс.Каталог" - это просто капля в море информации. На помощь конечно могут придти и другие каталоги (например, [2] DMOZ – крупнейший ручной тематический каталог Интернета, который успешно используется поисковой системой Google), но и это не может быть решением проблемы.

На помощь, конечно же, приходят машинные методы определения тематики того или иного сайта. Поисковая машина обучается сама находить тематические (и далее – релевантные по тому или иному запросу страницы сайта) на основе источников, которые вручную людьми были выбраны таковыми, а также при анализе ссылок с таких источников, которые в большинстве случаев должны ссылаться на такие же тематические сайты Интернета.

Сейчас уже прошли те времена, когда понятие тематики сайта заключалось сугубо в рамки сайта. На заре существования Интернета, вероятно, это было актуально, но сейчас в эпоху существования огромных разнотематических порталов нельзя в большинстве случаев делать вывод о том, какая же всё-таки тематика у крупных сайтов и порталов, контент которых состоит из огромной базы материалов самых разных тем.

Какой можно сделать вывод из этого?
Тематика сузила сферу своего применения на самый маленький сегмент Интернета – на веб-страницу. Масштаб применения темы сузился до одного документа, а границы самого сайта стали размыты из-за гиперссылок, хотя, несомнённо, косвенно тема страницы может быть связана темой самого сайта (только в данном случае, на мой взгляд, тему сайта лучше называть идеей сайта).

К чему всё это я веду?тИЦ сайта в Яндексе
Дело в том, что поисковые алгоритмы не стоят на месте, постоянно развиваются и внедряются в общую формулу определения релеватности того или иного документа в сети Интернет. То же наверняка происходит и с тИЦ. Если раньше этот алгоритм был привязан сугубо к тематике одного сайта, то сейчас, благодаря росту компьютерной производительности и расширением Интернета до огромных размеров, стало важным определять тематику сегмента ресурса – веб-страницы. Что не может не сказаться и на тИЦ. Заметьте, я сейчас не говорю о "пузомерке" тИЦ. Это всё, как мне кажется, только вершина айсберга. Та цифра веб-мастеру по сути ничего не говорит и является неким обобщённым показателем всего сайта на основе данных отдельных его страниц.

Кто-то может вспомнить и о том, что в Интернете весьма распространена аббревиатура вИЦ (взвешенный индекс цитирования). По мнению веб-мастеров, это и есть та мера оценки отдельных страниц сайта, которая, по идее, должна влиять на выдачу. Но дело в том, что вИЦ - элемент оценки алгоритма ранжирования документов гораздо более мифический, поскольку никаких доказательств его существования и не существует вовсе. Есть лишь наблюдения веб-мастеров, которые трудно как доказать, так и опровергнуть. Лично я считаю, что вИЦ – это ни что иное, как подводная сторона айсберга тИЦ. То есть, это и есть сам алгоритм подсчёта тематичности одной страницы страницы, которая потом влияет на тематику целого сайта, что и отображается, как итог всех этих вычислений, цифрой на "пузомерке" тИЦ.

Тематический индекс цитирования (тИЦ)Вернусь к тем тезисам, что я озвучил в начале своей статьи. Веб-мастеры на различных форумах не устают писать, что у "Яндекса" есть огромное количество методов ранжирования документов, которые постоянно совершенствуются, что внедряются различные поисковые технологии ("Магадан", "Снежинск", MatrixNet и им подобные), которые влияют на выдачу, и тИЦ, несмотря на всю абсурдность мнений о нём, постоянно обновляется вместе с поисковой базой и поисковыми алгоритмами Яндекса и высчитывается для всех сайтов, тем не менее, на него вешаются ярлыки "только для Яндекс.Каталога" и "не влияет на выдачу". Неужели "Яндексу" больше некуда направить вычислительную мощность своих ресурсов?  Кто-то может в "пузомерке" тИЦ найти элементы саморекламы поисковой системы. Возможно, это отчасти и так, но зачем "Яндексу", который итак занимает первое место по трафику Рунета и посещаемости, рекламировать себя, когда подавляющее большинство русскоязычных пользователей ищет именно в этой поисковой системе? В связи с этим хочется отметить и тот факт, что несколько лет назад в Интернете ходили слухи о том, что "пузомерку" тИЦ скоро уберут, однако "Яндекс" не пошёл на такие меры. Всё работает, как и прежде.

Совсем недавно, в связи с вводом нового механизма машинного обучения MatrixNet для работы с оценкой релевантности той или иной страницы в "Яндексе", была опубликована статья, в которой при разборе принципов его работы весьма недвусмысленно был изображён тИЦ, как один из элементов, принимающих участие в ранжировании документов в этой поисковой машине. Ознакомиться с этой статьёй можно тут: [3] http://company.yandex.ru/technology/matrixnet/

  Какие выводы можно сделать из всего вышесказанного?

1)      тИЦ – это не только" пузомерка", это ещё один из алгоритмов определения тематичности документа или даже его трастовости в какой-то степени, который принимает участие в ранжировании сайтов;

2)      тИЦ действительно влияет на позицию в "Яндекс.Каталоге" и действительно в этом контексте применяется ко всему сайту;

3)      тИЦ используется в новых разработках "Яндекса",  а это означает, что этот алгоритм будет работать ещё долго.


Статья напечана с сайта DATAWORD - наблюдения оптимизатора: https://dataword.info

Адрес статьи: https://dataword.info/relevantnost-algoritma.php

URLs in this post:
[1] поисковой системе "Яндекс: https://dataword.info/poiskovaya-sistema-yandeks.php
[2] DMOZ : https://dataword.info/odp-dmoz.php
[3] http://company.yandex.ru/technology/matrixnet/: http://company.yandex.ru/technology/matrixnet/