12 авг. 2016 г.

Поиск Яндекса: Как найти лучшие ответы

Рассылка SearchEngines.ru Неправильно отображается?
Посмотреть в браузере.
12 августа

2016 года

СЕГОДНЯ В ВЫПУСКЕ

19 августа пройдет бесплатная онлайн-конференция “WebPromoExperts SEO Day”, в которой лучшие специалисты как СНГ, так и зарубежного рынка поделятся массой полезной информации о последних SEO-тенденциях, нововведениях, и трендах.

В конференции примут участие докладчики от Google, Devaka.ru, Seoprofy, Netpeak, TRINET, Searchengines.ru, WebPromo, WebPromoExperts и другие.

Зарегистрироваться!

Поиск Яндекса: Как найти лучшие ответы

Александр Сафронов, руководитель службы релевантности и лингвистики Яндекса рассказал о повышении качества поиска и задачах, которые решает команда разработчиков поиска.  

 

Вся сложная архитектура, дата-центры, поисковое облако – все это нужно Яндексу для того, чтобы поиск мог корректно отранжировать документы по запросу пользователя. В свою очередь ранжирование также не является самоцелью поиска, его задача – предоставить пользователю максимально релевантные документы, т.е. то самое качество поиска. А качество поиска прокачивается исключительно для достижения счастья пользователя. Это правда.

Счастье пользователя для Яндекса не пустой звук. Недавно поиском Яндекса была подготовлена новая версия ранжирования, которая сначала тестировалась на ограниченной группе пользователей. При анализе кликабельности запросов и пользовательских характеристик мы увидели, что новое ранжирование нравится пользователям больше, чем старое – все параметры, которые нужно было увеличить, увеличивались, а те, которые нужно было уменьшить – уменьшались. За исключением рекламного блока внизу выдачи. То есть, новое ранжирование просаживало клики по рекламе, иначе говоря – просаживало зарабатываемые деньги. Как поступить в подобной ситуации?

Есть три варианта:

  • бескомпромиссно выкатить новое ранжирование на всех
  • вернуться к старому ранжированию
  • включить новое ранжирование на тех запросах, где нет рекламы, а там, где есть реклама, оставить старое ранжирование

Яндекс выбрал бескомпромиссный вариант и выкатил новое ранжирование на всех, не смотря на просадку рекламных кликов. Потому что считает счастье пользователя приоритетом №1.

Качество поиска и как мы его измеряем

Существует довольно большое количество способов для того, чтобы измерить качество поиска. Их можно разделить на две большие группы:

  1. Оценка по асессорской разметке
  2. Онлайн-эксперименты

Оценка по асессорской разметке – это довольно простая вещь. Мы берем две конкурентные поисковые системы, задаем в них одинаковые запросы, смотрим на n топовых результатов и эти результаты отдаем на разметку специально обученным людям. Асессоры выставляют оценку релевантности по некоей шкале (допустим, пятибалльной).

Когда накапливается большое число оценок, довольно большое число запросов оказывается размеченным, эти оценки можно сагрегировать и усреднить, оценив качество нашего поиска в терминах асессорских оценок.

Важно сказать, что асессоры, когда выставляют оценки, не видят всей выдачи целиком, не видят какую поисковую систему они оценивают. Им просто показывается запрос и страничка (документ).

Онлайн-эксперименты, или пользовательские эксперименты (эксперименты на людях), фактически, являются А/Б-тестингом. Мы можем взять наших пользователей, разделить их случайным образом на две части, а потом одной части показывать одну версию ранжирования, а дугой части – другую версию, оценивая пользовательское поведение на поисковой выдаче (клики, время проведенное на страницах, частоту переформулировок запроса). Используя эти параметры, мы можем выдвигать гипотезы о том, какая из двух сравниваемых систем больше нравится пользователям.

Ранжирование – это сложно

Для того, чтобы представить себе, что такое ранжирование, хорошо подходит изображение нашей галактики Млечный путь. Потому что количество документов, которые проиндексировал Яндекс, и количество звезд в этой галактике – числа приблизительно одного порядка. А задача ранжирования – показать десятку самых релевантных результатов. Это практически то же самое, что найти иголку в стоге сена.

Улучшать качество ранжирования можно по нескольким направлениям:

  1. Факторы ранжирования
  2. Машинное обучение
  3. Лингвистические технологии

Факторы (признаки, features)

Фактор ранжирования – это некое число, описывающее либо запрос, либо документ, либо связь между запросом и документом. Самый простой пример фактора – доля слов запроса на найденной страничке. Если нет ни одного слова из запроса на страничке, то значение фактора равно нулю, если все слова из запроса есть, то значение фактора равно единице, если присутствует только половина слов, то значение фактора – 0,5.

Сейчас в веб-поиске около 1500 разных факторов. Откуда столько?

Если, к примеру, по одному вышеупомянутому фактору мы начнем сортировать выдачу, то, безусловно, какую-то десятку мы сможем отобрать, но вряд ли подобный результат понравится пользователю. Для того, чтобы отличать хорошие документы от плохих, поиску нужно учитывать множество самых разных параметров. Все эти параметры можно разделить на классы:

  • статические документные
  • запросные
  • текстовые
  • ссылочне
  • пользовательские
  • персональные
  • метафакторы

Классически простое – это текстовые факторы. Здесь мы можем оценивать покрытие документа словами запроса, близость этих слов внутри документа, близость этих слов к началу документа и т.д.

В Яндексе есть специальные инструменты, позволяющие оценить пользу того или иного фактора для ранжирования. Вот результат проверки фактора при помощи этого инструмента:

В данном случае – прокрашивание зеленой полосы свидетельствует о несомненной пользе проверяемого фактора для ранжирования. После такого результата разработчики могут приступать к внедрению этого фактора в формулу ранжирования.

Роль машинного обучения в прокачке качества поиска

Вот у поиска есть все это большое количество факторов, что с ними делать дальше? Сортировать по отдельности нельзя, потому что каждый в отдельности – они представляют собой достаточно слабые характеристики. Логично объединить их в одну общую формулу ранжирования, которая позволит поиску гораздо эффективней сортировать документы. Условно говоря, мы комбинируем все эти 1500 факторов в одно число и потом сортируем по этому числу.

Наверняка все слышали, что один из основных инструментов машинного обучения в Яндексе называется Матрикснет. Это не один алгоритм, а целая совокупность алгоритмов машинного обучения, но все они, так или иначе, используют алгоритм GBRT (Gradient Boosted Regression Trees:

Это множество решающих деревьев, которые подобраны таким образом, чтобы суммируя значения в листьях этих деревьев, можно было получить хорошее предсказание оценки релевантности, которую поставил асессор. В узлах дерева расположены разделяющие условия, которые представляют собой примерно следующее: «фактор №50 > 0,5? Если да, то мы идем налево, а если нет, то направо».

Яндекс также широко использует нейронные сети, не только в Картинках, но и в поиске тоже. Одним из недавних интересных и больших внедрений было внедрение фактора на основе так называемого алгоритма DSSM. Упрощенно, это представление запроса в виде некоторого вектора чисел с плавающей точкой, и аналогичное представление документа. Мы хотим представить запрос и документ в виде таких векторов, косинусное умножение которых хорошо предсказывает асессорскую оценку. Магия заключается в том, чтобы научиться такие вектора создавать, которые бы при перемножении давали что-то интересное. Вот такой фактор был недавно внедрен и уже дал довольно большое количество профита.

Лингвистика

Лингвистика – это чрезвычайно обширная и разнообразная область человеческих знаний. Яндексу в первую очередь интересны те аспекты лингвистики, которые позволяют улучшать качество поиска. И наиболее интересными являются вещи, связанные с расширением запросов.

Расширение запросов:

  • морфология
  • синонимы
  • связанные расширения

Поисковая система должна хорошо владеть морфологией языка. На сегодняшний день это умеют и практикуют все поисковики. Яндекс не ограничивается родным языком, а работает над задачей автоматического формирования морфологии для нового языка.

Синонимы – это аббревиатуры (Московский Государственный Университет – МГУ), разного рода транслиты (Opel – Опель), орфоварианты (МакдоналЬдс – Макдоналдс, Икея-Икеа).

Связанные расширения – это ассоциативное облако слов и запросов, с каким-то определенным весом связанных с исходным запросом.

Если документ, кроме слов исходного запроса, содержит еще и слова из дополнительных запросов из ассоциативного облака, мы говорим, что он действительно хорошо отвечает на запрос пользователя.

Откуда берутся расширения?

  • словари
  • майнинг из текстов
  • майнинг из сессий
  • + машинное обучение

Какие задачи сейчас решает команда качества поиска Яндекса

Нам нужно как можно больше доливать полезного сигнала через факторы. Изобрести новый фактор, придумать его, проверить, при помощи специальных инструментов и потом внедрить.

То же самое касается и машинного обучения. Мы можем совершенствовать машинное обучение, придумывать все более сложные алгоритмы, внедрять их, а потом добиваться того, чтобы они не положили нам кластер, т.е. оптимизировать производительность этих машинообученных формул.

Нам нужно больше хороших расширений. Нужно больше майнеров, больше разного рода гипотез извлекать из текста, извлекая их так, чтобы не слишком сильно расширить запрос, чтобы опять же не увеличивать нагрузку на кластер.

Очень важно соблюдать баланс между производительностью и релевантностью. Это большая и постоянная задача поиска – соблюдение баланса между исследовательской деятельностью и оптимизированием кода, чтобы это все успевало у нас считаться в реал-тайме.

Google начал тестировать новый интерфейс AdWords

Google приступил к тестированию нового интерфейса AdWords. Об этом говорят сообщения отдельных рекламодателей в Twitter.

Новый интерфейс видит лишь ограниченное число пользователей сервиса, что говорит о небольшом масштабе тестирования.

Компания анонсировала крупный редизайн AdWords в марте 2016 года. Предстоящие изменения призваны сделать сервис более простым и удобным в использовании, а его интерфейс – более современным. Окончание этого процесса запланировано на конец 2017 года.

Самое интересное за неделю

ФАС оштрафовала Google на 438 млн рублей за нарушение закона о защите конкуренции

Федеральная антимонопольная служба РФ (ФАС) назначила 438 млн рублей штрафа интернет-компании Google по итогам административного дела о нарушении конкуренции на рынке предустановленных мобильных приложений...
 

Google представил целевые страницы в формате AMP

Разработчики Google представили целевые страницы в формате AMP (AMP Ad Landing Pages, ALP). Ранние тесты ALP показали, что среднее время загрузки по этим страницам составляет менее 1 сек. При этом у посадочных страниц в обычном формате оно равно 6,9 сек.
 

Яндекс тестирует новый сервис Яндекс.Коллекции

Яндекс начал тестирование нового сервиса Яндекс.Коллекции, в котором можно собирать изображения по аналогии с американским проектом Pinterest...


В Google Now появились дополнительные настройки персонализации

В Google Now появился специальный раздел «Explore Interests», который позволяет пользователю самостоятельно настроить интересные ему тематические категории для отслеживания. 
 

В ближайшие дни TNS перейдет под контроль государства

Дочерняя компания ВЦИОМ «ВЦИОМ-медиа», завершает покупку TNS у британской WPP, сделка должна быть закрыта в течение нескольких дней...


Google покажет, как будут выглядеть AMP-страницы

Разработчикам AMP-страниц предлагается посмотреть, как будут выглядеть ускоренные мобильные страницы в результатах основной выдачи.
 

Facebook продолжит показывать рекламу пользователям, использующим блокировщики

Команда Facebook сообщила, что собирается бороться с блокировщиками рекламы, которые применяют пользователи веб-версии социальной сети. Facebook продолжит показывать рекламу тем пользователям, которые используют адблок...


Google не видит проблемы в дублировании PDF-файлом содержимого страницы

Наличие на сайте большого количества файлов PDF, содержимое которых дублирует контент со страниц, не должно негативно отражаться на позициях ресурса.
 

ФАС возбудила дело против Apple по координированию цен на iPhone

Федеральная антимонопольная служба России (ФАС) возбудила антимонопольное дело против группы компаний Apple за координирование цен на iPhone...
 

Локальный поиск признали основным каналом интернет-маркетинга для СМБ

По данным исследования digital-агентства RevLocal, локальный поиск является основным каналом интернет-маркетинга для представителей малого и среднего бизнеса в США. Под термином «локальный поиск» здесь понимается SEO и поисковая реклама.
 

AdWords расширил списки ремаркетинга на сайты поисковых партнёров

Списки ремаркетинга для поисковой рекламы (RLSA) стали доступны для сайтов поисковых партнёров. Теперь рекламодатели смогут охватить ещё больше пользователей, проявивших интерес к их бизнесу.
 

AMP-страницы получают меньше переходов из выдачи, чем mobile-friendly

Пользователи Google не знают, что такое AMP. В итоге они реже переходят по ссылкам на страницы этого формата в результатах поиска.
 

Охват медиа на Facebook за полгода упал на 52%

Органический охват публикаций медиакомпаний на Facebook продолжает снижаться. За период с января по середину июля 2016 года он упал на 52%. Об этом свидетельствуют данные отчёта SocialFlow.
 

Google Chrome начнёт блокировать Flash с сентября

В сентябре Chrome начнёт блокировать Flash-контент, который загружается незаметно для пользователя с целью поддержания различных процессов. Автоматическая блокировка будет реализована в 53 версии браузера.

Facebook вводит новый сигнал ранжирования публикаций

Facebook добавил в алгоритм новостной ленты дополнительный сигнал ранжирования постов, разработанный на базе технологий предиктивного анализа. Теперь социальная сеть научится автоматически определять, какие новости были бы интересны пользователю больше всего.

Публикации для показа будут определяться на основании предыдущей активности владельца аккаунта в ленте; его интересов; а также, исходя из анализа участия в обсуждениях.

При разработке нового сигнала использовались данные опросов самых разных категорий пользователей о том, какие посты на Facebook они находят информативными и интересными. Исследование проводилось в рамках Feed Quality Program.

Знаменитый ученый Стивен Хокинг заявил, что людям необходимо обратить пристальное внимание на эволюцию компьютеров и связанную с ней проблему возможного появления искусственного интеллекта.

Автор вышедшей в издательстве МИФ книги «Верховный алгоритм» Педро Домингос утверждает, что человечеству, находящемуся на пороге открытия искусственного разума, ничего не угрожает. И прежде всего потому, что у компьютерных программ нет собственной воли. Зато у них есть множество самых разных свойств и качеств, которые уже сейчас мы видим в действии.

Проблема даже не в том, станут ли когда-либо компьютеры настолько развиты, что поработят людей, а в том, что уже сегодня мир практически захвачен …глупыми компьютерами...

Подписаться на Twitter    Подружиться на Facebook    Отправить другу 
Copyright © 2016 Searchengines.ru,, All rights reserved.
Вы получили эту рассылку, поскольку регистрировались на сайте Searchengines.ru. Вы можете всегда отписаться от нее, переслать другу, а также обновить свой профиль подписчика.

Наш почтовый адрес:
Searchengines.ru, , Moscow, 65000, Russia
отписаться от этой рассылки    обновить настройки подписки 

Комментариев нет:

Отправить комментарий