11 мар. 2016 г.

LSI – оптимизация без ключевых слов

Рассылка SearchEngines.ru Неправильно отображается?
Посмотреть в браузере.
11 марта

2016 года

СЕГОДНЯ В ВЫПУСКЕ

Подписаться на Twitter  Подружиться на Facebook   Группа ВКонтакте 

Отправить другу

LSI – оптимизация без ключевых слов

 

 Автор: Алексей Чекушин – создатель сервиса Just-Magic.org

 

Что такое LSI, и с чем едят?

Говоря простым языком, LSI – это способ определения тематики текста по содержащимся в нем словам. Например, если в документе встречаются слова «зимняя», «протектор», «шипы» – то, вероятнее всего, это текст про шины. А если – «сковорода», «запекать», «соус» – то это что-то, относящееся к кулинарии.

...<Тут было длинное и подробное научное объяснение, что же такое LSI, но по причине его нудности переносим эту увлекательную часть в конец статьи, чтобы наши читатели не заснули в самом начале.>...

Как поставить LSI на службу SEO?

Опыт показывает, что LSI-тексты немного лучше ранжируются и гораздо реже попадают под спам-санкции. Однако, как проводить анализ? Откуда взять релевантные слова? Как оценить текст на соответствие тематике?

Хорошо, если копирайтер глубоко разбирается в вопросе, тогда LSI-текст получится сам собой. А что если нет? Тогда на помощь должна прийти автоматизация. Ниже поговорим о четырёх возможных подходах к ней:

Метод 1. Использование подсветок

Это то, что лежит на поверхности, и потому легко используется. Что подсвечивает поиск? Во-первых, это синонимы. Во-вторых, геоуказание (для геозависимых запросов) и в-третьих, какие-то тематичные слова. Например:

Зеленой рамкой выделены синонимы.

Желтой – геоуказание.

И красной – дополнительные слова подсветки.

Но сколько слов мы можем «вытащить» из подсветок: от 3 до 5? Иногда чуть больше, но всегда меньше десяти. Для полноценного написания тематического текста это не годится. Поэтому профессионалы этот способ не используют.

Метод 2. Подсчет с использованием сторонних коллекций

«Спарсить весь интернет» – задача дорогостоящая, и для целей LSI – сродни забиванию гвоздей микроскопом. Ведь только один объём данных составит не один десяток террабайт. Плюс, нам придется столкнуться с задачей фильтрации спама и дублей.

Можно попробовать использовать уже готовые коллекции. Например – корпус русского языка или тексты «Википедии». Но здесь серьезную роль начинает играть специфика коллекции. Вряд ли литературные тексты или информационные статьи Wikipedia помогут нам в написании текста для коммерческой страницы, продающей дизельные генераторы.

Стоит отметить, что весьма неплохие результаты получил Рамблер, когда применил методику LSI к своей коллекции поисковых запросов.  Однако результаты получились, скорее, применимы для расширения семантики, чем для написания текстов.

Метод 3. Подсчет на основании топа Яндекса

Основная идея подхода состоит в допущении: если документы попали в топ Яндекса, значит они тематичны. И, в общем-то, это допущение в ряде случаев верно. Но поскольку LSI-слова сами по себе являются достаточно слабым фактором, то уже на средне-конкурентных запросах мы часто будем сталкиваться с некачественным топом. Как результат, попытка провести LSI анализ приведет не к бусту страницы, а только к копированию чужих ошибок.

К плюсам метода однозначно стоит отнести простоту реализации. Достаточно вытащить документы из топ-10 Яндекса и посчитать количество вхождений каждого слова в каждом из этих документов.

В качестве основных минусов подхода следует выделить неприменимость по отношению к средне- и низко-конкурентных запросам.

Метод 4. Подсчет с использованием всей коллекции Яндекса

Этот метод является наиболее точным, поскольку мы начинаем оперировать той же коллекцией, что и Яндекс. Скачивать интернет не требуется, более того, Яндекс уже проделал за нас определенную часть работы, исключив из поиска множество дублей и спама. Для поиска по своей коллекции он уже предоставил нам отличные инструменты в виде языка поисковых запросов.

На чем же построен метод с использованием коллекции Яндекса? Мы подаем к Яндексу запросы пытаясь построить 2 униграммные языковые модели:

  1. Модель порождения слова запросом.
  2. Модель порождения запроса словом.

Звучит сложно, но на самом деле принцип здесь - простой.

Модель порождения слова запросом сводится к ответу на вопрос: если в документе встретился запрос, какова вероятность встретить в нем слово? Например, если в документе встретился запрос «шины bridgestone», какова вероятность появления в нем слова «зимняя»?

Модель порождения запроса словом сводится к ответу на вопрос: если в документе встретилось слово, какова вероятность встретить в нем запрос? Например, если в документе встретилось слово «шипованная», какова вероятность обнаружить в нем же запрос «зимняя резина»?

На практике для комплексной оценки двух моделей получается недостаточно, и необходимо использовать третью – «нормализующую» модель, основанную на удалении терминов и запроса друг от друга. Это не соответствует принципам LSI, о которых я писал выше, но необходимо при работе с такой «грязной» коллекцией как веб-документы, где содержательные тексты не прошли очистку от «обвязки» в виде меню/хедеров/футеров и прочей служебной информации.

Именно на этом методе построены модули «Акварель» и «Акварель-генератор» в системе Just-Magic.org. Довольно забавно наблюдать, как система работает с анализом текстов. Например, практически из любого текста она готова сделать готовый словарь спичрайтера Владимира Владимировича. Читайте только зеленые слова:

(На скриншоте представлен анализ текста про керамзитобетонные блоки, который был проведен по запросу «владимир путин»)

При этом система практически не зависит от качества текстов в топе. Например, вот как отрабатывает по запросу «сауна на двоих» анализатор, основанный на топ-10:

А вот как это делает «Акварель»:

Как можно заметить, «Акварель» «не поддалась» на часто встречающиеся в топе слова и забраковала их, как нерелевантные. Также качество топа не сказывается на результатах работы «Акварель-генератора», который создает список релевантных слов и словосочетаний. Вот примеры словосочетаний, которые он находит по данному запросу:

  • романтический ужин
  • русская баня
  • финская сауна
  • турецкого хаммама
  • комфортного отдыха
  • романтического вечера

Несмотря на явные плюсы, подобный метод имеет и свои минусы. Во-первых, он очень ресурсоемок: на проверку одного слова тратится 3 XML-запроса; а на составление списка при помощи «Акварель-генератора» уходит в среднем 2300 XML-запросов. В итоге проверка таким способом получается значительно дороже остальных, которые сегодня доступны практически бесплатно.

Во-вторых, метод чувствителен к среднему качеству коллекции текстов в интернете. Например, для запроса «синхрофазотрон» он определит слово «является» как очень релевантное, из-за того, что фраза «не всякий  синхрофазотрон  является коллайдером», часто встречается в интернете. Ну а попытка создать/проверить информационную статью по запросу «покраска бампера ваз» заведомо обречена на провал из-за засилья коммерческих текстов по данному запросу.

 

Как применять LSI?

На практике применение подхода LSI может использоваться в двух случаях: когда есть необходимость простимулировать дополнительный «пинок» по высококонкурентным запросам и обеспечить защиту сайта от текстового спам-фильтра.

Почему так получается? LSI-слова – достаточно слабый фактор по сравнению с теми же вхождениями, поэтому к ним стоит обращаться, когда вся базовая оптимизация уже проведена. Как её делать я подробно описывал в своей статье «Непорочное продвижение».

По высококонкурентным запросам нам приходится «давить» сразу всеми факторами, ибо в условиях большого их числа и нормализации каждого (приведения в интервал от 0 до 1) результат по ВК-запросам будет только при оптимизации всех вещей, до которых можем дотянуться.

Что же касается защиты от спам-фильтров, то это основная задача, ради которой задумывалась система. В спам-алгоритмах LSI имеет куда более значительный вес, чем в ранжировании. И если ваш сайт уже попал под санкции – переписывание текстов при помощи «Акварели» или аналогичных LSI-инструментов позволяет выйти из под санкций. А изначальное их написание с использованием LSI – не дает под них попасть.

Чтобы протестировать возможности сервиса, предлагаем воспользоваться промокодом SEARCHENGINES201603_4876894. Он действует 7 дней и даёт 2500 аква-операций в «Акварели» и «Акварель-генераторе».

 

Дополнение к статье, которое было ее началом

Что скрывается под аббревиатурой LSI?

Если объяснять простым языком, LSI – это способ определения тематики текста и группировки текстов по тематичности. Метод основан на анализе взаимосвязей между коллекцией документов и терминами (словами), которые в них содержатся.

Каковы основные принципы LSI?

  1. Текст представляется в виде «мешка слов»: то есть, порядок слов в и их близость друг к другу значения не имеют.
  2. Документ относится к той или иной тематике/группе на основании терминов (слов), которые в нем содержатся и частоты этих терминов (количества раз, которые они встречаются в документе).
  3. Каждое слово имеет единственное значение. Это не совсем корректное допущение, но оно необходимо для построения модели.

Что делает LSI?

Анализирует большой объём документов и на основе встречающихся в них слов относит документ к той или иной тематике.

Как технически работает LSI?

Фактически это сингулярное разложение терм-документной матрицы, которое позволяет выловить ключевые составляющие этой матрицы и проигнорировать шумы. Но не будем о сложном и неприменимом, а для желающих разобраться предлагаю хорошую статью про LSI на habrahabr.

Google обновил рекомендации по индексации сайтов на JavaScript


Представитель Google Джон Мюллер (John Mueller) опубликовал детальное описание того, как в настоящее время алгоритмы поисковика обрабатывают сайты на JavaScript (включая AJAX) и так называемые Progressive Web Apps.

Публикация вышла под названием: «Обновление (март 2016) текущего состояния и рекомендаций для JavaScript-сайтов и Progressive Web Apps в поиске Google» и включает следующие пункты:

1) Не занимайтесь клоакингом, пытаясь обмануть Googlebot. Используйте техники feature detection и progressive enhancement, чтобы сделать содержимое сайта доступным для всех пользователей. Избегайте редиректов на страницы, которые не поддерживаются браузером. Если необходимо, используйте polyfill – скрипты, частично эмулирующие спецификации HTML5 или CSS3, позволяющие браузеру правильно отобразить контент. В настоящее время Googlebot не поддерживает такие функции и сценарии, как Service Workers, Fetch API, Promises и requestAnimationFrame.

2) Используйте атрибут rel=canonical для указания канонического URL, если контент размещён на нескольких URL-ах.

3) Избегайте использования устаревшей схемы сканирования AJAX на новых сайтах. Не забывайте удалять теги "meta fragment" из HTML-копии AJAX-страниц. Не используйте тег "meta fragment" на страницах с тегом "escaped fragment".

4) Избегайте использования "#" в URL-ах. Googlebot редко индексирует такие адреса. «Стандартная» структура адреса страницы выглядит так: путь/имя файла/параметры запроса.

5) Используйте Сканер Google для сайтов в Search Console, чтобы проверить, как Googlebot видит страницы. Помните, что этот инструмент не поддерживает URL, содержащие символы "#!" или "#".

6) Убедитесь, что все запрашиваемые ресурсы не закрыты от индексации в файле robots.txt (включая JavaScript-файлы/фреймворки, ответы сервера, сторонние API). Сканер Google для сайтов покажет список заблокированных ресурсов. Если ресурсы автоматически заблокированы в robots.txt (например, сторонние API) или временно недоступны по другой причине, нужно убедиться, что код страницы исполняется корректно.

7) Ограничьте количество встроенных ресурсов, запрашиваемых, чтобы отобразить страницу. В частности – число JavaScript-файлов и ответов сервера. Большое количество запрашиваемых URL может привести к истечению срока ожидания ответа сервера или отображению страницы, на которой эти элементы будут недоступны. К примеру, некоторые JavaScript-файлы могут не загрузиться.

8) Google поддерживает использование JavaScript для предоставления тайтлов, метаописаний и метатегов robots, структурированных и других метаданных. При использовании AMP, страница в формате JavaScript должна быть статичной, однако при создании ассоциированной с ней веб-страницы могут использоваться JS/PWA-техники. Тег "lastmod" в файле Sitemap сообщит поисковому роботу, когда в последний раз обновлялась страница.

9) Помните, что другие поисковые системы и веб-сервисы могут вообще не поддерживать JavaScript или же использовать другие подходы при индексации таких страниц.

Доклады с ConversionConf 2016

1 марта 2016 года в Москве прошла конференция ConversionConf 2016: трафик, конверсии, продажи. В этом году организаторы разделили программу мероприятия на тематические секции, посвященные ключевым этапам онлайн продаж: стратегии, трафик, конверсия, допродажи.

Предлагаем вашему вниманию обзоры самых актуальных докладов, которые прозвучали на конференции.

 

Шахматное тестирование стратегий управления ставками

В рамках ConversionConf Елена Фирсова, директор по продукту Origami. По её словам, сегодня тесты, проведённые платформой Origami, явно свидетельствуют о том, что от 20% до 50% рекламных бюджетов расходуются неэффективно. При этом бюджет на рекламу расходуется ежемесячно. Таким образом, компании, которые не используют системы автоматизации, регулярно «сливают» их впустую. Сегодня на рынке существует большое разнообразие инструментов для оптимизации конверсий, разработаны точные методы измерения эффективности рекламных кампаний. 

ConversionConf: Стратегия построения эффективного интернет-маркетинга

Работу секции «Стратегии» открыл доклад Алексея Яковлева, генерального директора SEM Complex, на тему: «От конверсии в голове – к конверсии на сайте». Спикер заострил внимание слушателей на том, что сегодня визуализация работает как в B2C, так и в B2B-сегменте со сложными технологическими продуктами, где ни SEO ни контекстная реклама зачастую не работают.

Доклад Игоря Селицкого, руководителя веб и онлайн-аналитики Lamoda.ru, был посвящен теме: «Стратегия построения эффективного интернет-маркетинга на опыте Lamoda». По мнению спикера, более дальновидно – смотреть не только на воронку, но и на повторные продажи и жизненный цикл клиента. Используя инструменты удержания можно быстрее и дешевле привести клиента к повторной покупке и увеличить их частоту.

Новости недели

Google переносит свои блоги на новый домен

Google объявил о переносе своих блогов из домена blogspot.com на googleblog.com. Благодаря изменению, пользователи будут сразу видеть, что они читают официальный блог компании. Это особенно важно сейчас, когда появилось множество неофициальных блогов Google на домене blogspot.com...

В AdWords стала доступна массовая загрузка IDFA/ рекламных идентификаторов

В Google AdWords появилась новая функция массовой загрузки IDFA/рекламных идентификаторов, которая позволит разработчикам приложений повторно вовлекать во взаимодействие пользователей iOS и Android-устройств. Нововведение призвано помочь улучшить показатели удержания и вовлечённости пользователей, которые уже установили приложения...

Google позволит брендам добавлять информацию о себе в результаты поиска

Google тестирует новый инструмент Posts. Он позволит брендам и знаменитостям публиковать заметки, которые поисковая система будет показывать в отдельном блоке в выдаче по соответствующим запросам.  Заметки могут включать текст, видео, фотографии и анимированные GIF-изображения. Опубликованные посты мгновенно появляются в поисковой выдаче. Кроме того, ими также можно делиться в социальных сетях...

Яндекс.Браузер начал защищать онлайн-платежи

В Яндекс.Браузере появился защищённый режим. Он включается на сайтах банков и платёжных систем, чтобы уберечь пользователей от кражи средств или платёжных данных.  По данным Яндекса, около 20% пользователей браузера как минимум раз в неделю посещают интернет-банки или сайты платёжных сервисов – например, чтобы перевести деньги или оплатить сотовую связь. Теперь на этих страницах и включается защищённый режим...

Компания Google выпустила превью-версию операционной системы Android N (кодовое название), предназначенную для разработчиков. В числе основных нововведений в Android N значатся функция разделения экрана, обновлённый интерфейс уведомлений и доработанный режим энергосбережения Doze...

В минувшую пятницу корпорация Microsoft анонсировала ряд заметных обновлений в версии ОС Windows 10 для ПК. Главным нововведением стало улучшение функционала персонального ассистента Cortana. В результате обновления голосовой помощник начнёт поддерживать три новых языка и, кроме того, Cortana позволит пользователям отправлять на свои устройства дополнительные всплывающие уведомления. К примеру, это может быть название заинтересовавшей человека книги или напоминание сделать что-либо...

Facebook Messenger интегрировался со Spotify

Facebook Messenger объявил об интеграции с музыкальным сервисом Spotify. Теперь пользователи приложения смогут обмениваться c друзьями любимыми песнями и плейлистами. Чтобы открыть Spotify, нужно нажать на кнопку «…» в чате мессенджера и выбрать соответствующий пункт...

Google будет применять ручные санкции к мобильным страницам, злоупотребляющим всплывающей рекламой

Представитель Google Джон Мюллер (John Mueller) не исключает применения ручных санкций к мобильным версиям ресурсов, которые злоупотребляют всплывающими блоками и любыми альтернативами межстраничной рекламы: «Для всех подобных случаев мы не исключаем применения санкций вручную. Мы будем классифицировать и помечать все подобные объявления как межстраничную рекламу, даже если технически блок отличается от неё, и наши алгоритмы не способны классифицировать этот блок...

Google удалит показатель PageRank из тулбара

Google подтвердил удаление Toolbar PageRank, в ближайшие недели эти данные перестанут отображаться в браузерах и других инструментах, используемых для получения этой информации. В Google пояснили, что компания продолжит использовать данные PageRank в алгоритме ранжирования...

Google начал нумеровать и ранжировать результаты товарного поиска

Google начал нумеровать и ранжировать результаты товарного поиска в англоязычной выдаче. Теперь при поиске «лучших» товаров – к примеру, [лучшая кофемолка] и т.п. – пользователю будет показан нумерованный список таких товаров. Представители Google пояснили, что ранжирование товарных объявлений в данном случае основано на оценках пользователей...

Copyright © 2016 Searchengines.ru,, All rights reserved.
Вы получили эту рассылку, поскольку регистрировались на сайте Searchengines.ru. Вы можете всегда отписаться от нее, переслать другу, а также обновить свой профиль подписчика.

Наш почтовый адрес:
Searchengines.ru, , Moscow, 65000, Russia
отписаться от этой рассылки    обновить настройки подписки 

Комментариев нет:

Отправить комментарий

GoHa.Ru | Игровые новости

...