Алгоритмы ранжирования в поисковой системе Яндекс

Сергей Людкевич рассказал о новых критериях и принципах ранжирования сайтов в поисковой выдаче Яндекса.

  1. Принципы построения формулы ранжирования (машинное обучение).
  2. Наличие нескольких формул ранжирования в Яндексе под различные типы поисковых запросов.
  3. Анализ выдачи, выявление значимых факторов и примесей.
  4. Запросные факторы, анализ запроса в ПС, выбор формулы, Спектр.

Машинное обучение

  1. Совокупность оценок: запрос-документ-регион.
  2. Множество посчитанных признаков (запроса, документа, сайта, ссылок, поведения, региона, антиспам) — совокупность факторов.
  3. Выбор метрик (их максимизация/минимизация).
  4. Настройка формулы.
  5. Что требуется для построения ранжирования.
Алгоритмы ранжирования

nerucci / Shutterstock.com

Зачем строить формулу. Формула или ручная разметка

  1. Десятки миллионов запросов ежедневно! Порядка 25% из них — уникальные!
  2. Требуется большая и контрастная обучающая выборка.
  3. Далее формула «экстраполируется».
  4. Есть проблемы: переобучение, здравый смысл. Как быть с логикой? Делать ли ограничения для формулы? Нужно ли много признаков?

Различные формулы ранжирования

  • Существование различных формул ранжирования.
  • Формулы для различных стран.
  • Региональные формулы ранжирования (внутри страны).
  • Специализированные формулы для классов запросов: скачка/игры/видео.
  • Коммерческая формула для Московского региона.
  • Можно ли выявить, что используется другая формула?
  • Смысл существования нескольких формул?

ТОПовые факторы

  1. Существование наиболее значимых факторов.
  2. Всего в формуле участвует более 700 факторов (по разным оценкам).
  3. Могут «рулить» разные факторы по разным запросам.
  4. Можно ли выделить ТОПовые из общего списка и какие они?
  5. Если ли смысл в анализе ТОП-10 для поиска этих факторов?
  6. Какие сайты из ТОП-10 лучше отбрасывать при таком анализе?
  7. Существует ли возможность воздействия на ТОПовые факторы (или они не являются «SEOшными»)?

Анализ выдачи: примеси

  1. Выявление примесей в ТОП-10 выдачи по запросу.
  2. Методика отсечения Спектра.
  3. Методика отсечения новостных результатов.
  4. Колдунщики.
  5. Трастовые ресурсы.

Когда и что подмешивать в выдачу?

  1. Базовый анализ поискового запроса: Частотность, кол-во слов в запросе, коммерция, время задания запроса, поиск организации, ФИО, прочее характеристики запроса определение тематики и языка поиск слов-маркеров.
  2. Нужно ли запускать другие вертикальные поиски: фото, карты, видео, блоги, перевод и другие расширение запроса и ограничения.

Модификации органической выдачи

В органические результаты выдачи подмешиваются:

  • Спектр.
  • Новостные результаты (быстроробот).
  • Колдунщики по сервисам и вертикальным поискам.
  • Мобильные приложения.
  • Сейчас ещё персонализация.
  • Не за горами Острова…

Фильтры: постфильтры

Итоговое значение функции релевантности может:

  1. Штрафоваться (постфильтры) за текстовую переоптимизацию (два различных фильтра).
  2. Штрафоваться за манипулирование ссылочными факторами, избыточное количество «плохих» ссылок.
  3. Может применяться склеивание/скрытие результатов (одинаковые сниппеты и аффилированние).
  4. Санкции на закрутку поведенческих факторов.

Поиск и выявление фильтров

Имеется ли возможность выявления наложения фильтра?

  1. Специализированные запросы в поисковую систему.
  2. Секретные поисковые операторы.
  3. Расширенный поиск.
  4. Дырки в алгоритме и защите.