26 февр. 2016 г.

Искусственная семантика для некоммерческих проектов

Рассылка SearchEngines.ru Неправильно отображается?
Посмотреть в браузере.
26 февраля

2016 года

СЕГОДНЯ В ВЫПУСКЕ

Подписаться на Twitter     Подружиться на Facebook      Группа ВКонтакте

Отправить другу

Искусственная семантика для некоммерческих проектов

Автор: Илья Исерсон, CEO moab.pro

Понятие искусственной семантики

Существует множество определений термина «искусственная семантика», разные люди трактуют его совершенно по-разному. Поэтому, в первую очередь важно договориться о терминологии: что понимать под искусственной семантикой в данной статье?

Искусственная семантика – это семантическое ядро, сформированное искусственно, на основе изучения реальной семантики и формирования прогноза о том, как будут выглядеть поисковые запросы в реальности. Возможно, это не лучшее определение, поэтому обратимся к практическим примерам.

Итак, что же такое «прогноз, построенный на основе реальной семантики»?

Давайте представим ситуацию, в которой маркетолог работает с выборкой, собранной по запросу [ковш для погрузчика]. В этой ситуации стандартный алгоритм действий выглядит достаточно однотипно:

- собираем семантику из доступных источников (базы ключевых слов, Wordstat, подсказки, MOAB Pro & Suggest Pro)
- получаем некоторое количество расширенных поисковых запросов, содержащих [ковш для погрузчика]
- группируем и кластеризуем ключевые запросы
- получаем группы схожих запросов, на основе которых создаем посадочные страницы, контент, заголовки и прочее

В ходе кластеризации мы можем получить совершенно разные группы запросов, которые будут базироваться на неких реальных сущностях, вокруг которых группируется спрос в этой тематике:

[ножи для ковша погрузчика] + некоторое кол-во однотипных расширенных запросов
[ковш для погрузчика + %brand%] – т.е. ключевые слова, в которых пользователь уточняет, для какого именного бренда погрузчиков ему нужен ковш
[ремонт ковша для погрузчика] + некоторое количество однотипных расширенных запросов
[емкость/вместимость ковша для погрузчика] + некоторое количество однотипных расширенных запросов

Так или иначе, очевидно, что в рамках каждой тематики расширенные запросы формируются вокруг более мелких «подтем», которые, в свою очередь, зависят от тех реальных сущностей (ножи, ремонт, бренды), которые востребованные в оффлайне.

И, в случае тематики [ковш для погрузчика], мы не можем «заранее» предсказать или спрогнозировать эти сущности, не будучи специалистом по погрузчикам. Единственный способ выделить возможные пользовательские проблемы – получить статистически достоверный массив семантики, а затем выполнить ее кластеризацию.

Однако, в некоторых тематиках дело обстоит по-другому. Иногда у маркетолога появляется возможность, на основе изучения и анализа статистически достоверной выборки, спрогнозировать, как будут выглядеть запросы и спроектировать сайт и маркетинговую стратегию на основе этих данных.

Классический пример – туризм, в частности, и вообще все, что так или иначе базируется на «географических» запросах, связанных с перебором стран/городов как набора переменных:

а) Список стран на сайте 1001Тур

б) Для каждой конкретной страны контент довольно похож, различается только страна и собственно сами туристические предложения. Сравните, например, страницы про Мексику и Абхазию:

  • одинаковый, маленький, «неуникальный» в классическом смысле слова текст, от страницы к странице подменяется только страна. Адепты карго-культа о расчете количества употреблений каждого конкретного слова на странице могут испытать неприятные ощущения в области спины
  • все title созданы по единой схеме: <title>%страна% - туры, цены на отдых в Абхазии 2016 вылет из Москвы: путевки, новости, погода, курорты и достопримечательности - 1001 Тур. </title>
  • все h1 созданы по единой схеме: Туры в %страна% 2016 из Москвы
  • активно эксплуатируется тема прогнозирования запросов под «будущий» трафик.

Например, вряд ли кого-то удивят страницы формата:

 

 

Горящие туры за картошкой в раскладке по месяцам: страница 1, страница 2, страница 3

При этом самих по себе предложений горящих туров в Белоруссию на сайте нет, что однозначно говорит о том, что страницы были просто склонированы по шаблону, а затем на них были выведены туры «по соответствию» в поле «страна».

При этом страницы без предложений из индекса убирать не стали, что однако, не помешало им занять место в ТОПе Яндекса.

Однако многих, вероятно, может удивить наличие в индексе вот таких страниц:

 

 

Маркетологи 1001Тур грамотно клонируют страницы не только по переменным %город% и %страна%, но и по переменным %месяц%, %год%, так как знают, что даже создав «пустую» страницу без туров под «будущее» можно застолбить место в выдаче уже сейчас. Фактически, страницу с возрастом 1-2 года, появившуюся задолго до появления запроса [туры гоа 2017], в каком-нибудь условном феврале-декабре 2017 будет очень тяжело «подвинуть» в топе.

Таким образом, мы увидели главное – запросную базу в некоторых тематиках при необходимости можно разложить на составляющие (=переменные), спрогнозировать значение этих переменных, а затем получать как органический, так и контекстный трафик на основе этих переменных.

Искусственная семантика для некоммерческих проектов

В первую очередь представлю вниманию читателей реальный кейс проекта, построенного на искусственной семантике, а затем на примере расскажу, как сделать «проект» сайта на искусственной семантике своими руками и с минимальными затратами.

Кейс: сайт тематики «Отопление», некоммерческий сезонный трафик, 90% трафика – поисковые системы, примерно равное распределение между Yandex и Google. Сайт привлекает траффик по геонезависимым запросам. В индексе 3000 страниц (5526 загружено роботом, 3053 – страниц в поиске).

Для всех 3000 страниц используются 4 шаблона текста, тайтлов, дескрипшнов и h1. В шаблонах подменяется только город и область. Расходы на контент для этого сайта составили около 3000 рублей. Монетизация – открутка рекламы, как Adsense, так и прямые баннеры наших коммерческих партнеров. Ссылки не покупались.

Пик сезона, с точки зрения спроса, – конец весны, и затем плавный рост до октября-ноября:

 

 

На этом скриншоте из Метрики мы видим:

1. Суммарная посещаемость – почти 300 000 посетителей менее чем за 3 месяца
2. Пиковые значения – 12000 и 6000 посетителей в сутки из Google и Yandex соответственно
3. Отказы – чуть более 10%, то есть очевидно, что несмотря на «шаблонный» контент, пользователи вовлечены во взаимодействие с сайтом
4. Время просмотра – чуть более минуты в среднем, в зависимости от поисковой системы

На данный момент сайт в индексе, посещаемость на уровне 500 посетителей\сутки, плавно начинает расти в преддверии весеннего сезона. К сожалению, я не могу показать URL сайта, но предлагаю рассмотреть на простом примере алгоритм построения подобных сайтов.

Итак, возьмем для примера тематику «Бани». Тематика достаточно простая, в качестве переменной в запросах используется много географических обозначений. Предположим, что в итоге мы хотим создать сайт-агрегатор информации о банях и саунах в регионах России. Ниже будет показан упрощенная общая схема действий – в данном случае не преследуется цель сделать лучший в мире сайт о банях, важно лишь показать общий принцип обработки семантики на практике.

Будем придерживаться следующего плана:

1. Спарсим и проанализируем семантику
2. Разработаем структуру сайта в Excel на основе данных анализа
3. Закажем контент для страниц категорий и страниц описаний собственно банных комплексов

Парсинг и анализ семантики

Возьмем выборку из обновленной 6-миллиардной базы MOAB Suggest Pro (аккуратно, выборка с доп.данными – около 60 МБ), это все запросы с вхождением «Бани» с точной частотностью более 1, для региона «Россия».

Всего найдено 282 995 запросов.

Анализ файла в инструменте «Анализ групп» в Key Collector показывает, что выборка в высокой степени насыщена однотипными региональными запросами вида:

[бани + %что-то еще% + %регион%]

(Скриншоты: Воронеж, Клин, Тверь, Иркутск).

Это позволяет нам утверждать, что данная тематика подходит для наших целей: список регионов – это набор заранее известных переменных, а что скрывается под %что-то еще% - как раз сейчас мы и выясним.

Разработаем структуру сайта в Excel на основе данных анализа

Во-первых, сравним несколько выборок по запросам с городами: [бани воронеж], [бани самара], [бани спб]. В ходе сравнения нам необходимо выполнить кластеризацию – проще всего это делать при помощи инструмента «Анализ групп» в КК, но можно воспользоваться и любым другим удобным методом кластеризации. Наша задача – сравнивая кластеризованные выборки, найти группы пользовательских интересов, востребованные вне зависимости от города, то есть вычислить наиболее популярные «добавки», то самое «что-то еще», о котором мы говорили выше - [бани + %что-то еще% + %регион%]

Даже в результате поверхностного анализа выявляется следующий список групп:

- бани на дровах
- бани с вениками
- бани с бассейном
- бани со спа
- общественные бани
- бани с бочкой
- бани турецкие
- бани римские
- мобильные бани

Таким образом мы получили так называемый список категорий второго уровня. Пока оставим эту информацию в стороне и внимательно посмотрим, какие слова часто употребляются вместе с названием любой случайной бани, то есть вычислим наиболее стандартные «добавки» для формулы - [%название бани% + %город% + %что то еще%]

Для этого нам надо взять статистически достоверный массив запросов, состоящий только из названий бань – а затем снова кластеризовать его. В результате подобной операции выявлено, что чаще всего вместе с названием бани и городом употребляют следующие словосочетания:

- официальный сайт
- цена, прайс лист
- фото
- отзывы
- адрес
- телефон
- часы работы

Эта информация поможет нам при создании собственно каталога бань.

Теперь у нас есть вся информация, необходимая нам для создания структуры сайта. Полученную информацию можно преобразовать в файл плана сайта, который в Excel выглядит вот так.

Давайте вместе разберем этот файл более подробно, а также более подробно разъясним зачем нам понадобилось проводить анализ семантики, описанный выше.

Вкладка «Общая структура сайта»

На этой вкладке рассмотрена общая структура проектируемого сайта. Все страницы разбиты по уровням вложенности:

 

 

Обратите внимание, что существует два каталога второго уровня, дочерних от главной страницы:

- каталог с категорийными страницами
- каталог со страницами собственно банных комплексов

При помощи нехитрых скриптов, имеющихся в большинстве современных CMS, на более позднем этапе мы осуществим автоматический вывод релевантных банных комплексов на каждой странице.

Особо хотелось бы обратить ваше внимание на текстовые параметры сайта: тайтл, дескрипшн и H1 – они используют переменные %область%, %город%. Во всех текстовых тегах упомянуты синонимы слова «баня» - «парилка» и «сауна», для сбора большего количества низкочастотного трафика в соответствующем городе:

 

 

Важно правильно понимать, что на данной схеме дается лишь ограниченное количество страниц, чтобы схематически показать общую структуру сайта.

На боевом варианте сайта будет взята база всех областей РФ (а, возможно, и ex-СНГ), база всех городов в этих областях, будет создано соответствующее количество страниц.

Наконец, самое важное – столбец «Контент»:

Под словом «текст№ххх» в данном столбце подразумевается отдельный шаблон текста – то есть, как не трудно увидеть, всего на сайте будет использоваться 7 шаблонов текста. В самих шаблонах будут использоваться уже знакомые нам переменные – город, область, название бани.

Не рекомендуется делать тексты очень большими – в данной ситуации будет вполне достаточно объема в 1500-2000 символов, однако, постарайтесь заказать шаблон действительно профессиональному копирайтеру, возможно, бывшему журналисту – так, чтобы текст был на самом деле увлекательным, интересным, наполненным полезной информацией.

Почему именно 7 шаблонов? Как видно, используется отдельный шаблон на каждом уровне – ввиду того, что каждый уровень – это как бы немного другая реальная сущность, несущая немного другую смысловую нагрузку, поэтому лучше использовать шаблоны максимально адаптированные для каждого уровня в отдельности.

Вкладка «Таблица с информацией о банях»

В этой таблице приведены поля, которые необходимы нам в каталоге бань и саун, а также для примера выполнено заполнение этих параметров по одной выдуманной бане.

Итак, параметры в столбцах A-I появились в таблице неспроста:

 

 

Именно эти слова, как показывает наш анализ, чаще всего употребляют пользователи вместе с названием некоей случайно бани, а значит – наша задача – дать ответ на все вопросы вида - [%название бани% + %город% + %что то еще%].

В данном конкретном случае это означает, что в нашем огромном каталоге бань по каждой бане должна быть информация по сайту, телефону, часам работы, адресу бани, а также ее фотографии.

Откуда взять этот контент?

Здесь вариантов масса, в зависимости от того что предпочитаете лично вы: можно заказать программисту скрипт парсинга некоего публичного источника, либо воспользоваться базами данных организаций, которые в изобилии можно купить или скачать в интернете бесплатно в виде Excel. Там есть все эти данные, и не составит труда перенести их в нашу таблицу.

Несколько труднее обстоит дело со столбцами I-S.

Как вы помните, категоризация на уровне 6 в общей структуре сайта подразумевает создание страниц вида:

 

 

Чтобы решить эту задачу, нам необходимо сделать две вещи:

- создать поле «тип бани» на самой категорийной странице и внести туда значение drova=true или же veniki=false
- создать аналогичное поле на странице собственно бани, чтобы затем автоматически вывести все релевантные бани с фильтрацией по городу, области и типу на соответствующей странице.

То есть, например, к выводу бань на странице «Бани на дровах в Красноярске» будет автоматически применен фильтр city=Krasnoyarsk и drova=true.

Если с информацией о городе мы уже разобрались, то все несколько сложнее с категоризацией второго уровня. Здесь наиболее оптимальный путь – выдать таблицу с заполненными полями A-I фрилансеру (а лучше нескольким) и попросить их расставить значения «да-нет» в соответствующих полях за умеренную плату.

Поверьте, расходы будут невелики, особенно с учетом того что фриланс сейчас – это рынок покупателя, а не продавца.

Вкладки «Уровень 4,5,6»

Наиболее остро стоящая проблема для подобных сайтов на искусственной семантике – создание страниц.

90 областей + (1000 городов * 9 категорий) + как минимум несколько тысяч страниц с описанием банных комплексов = итого 4-5 тысяч страниц вам гарантированы.

Проблема создания страниц решается достаточно просто – для любой популярной CMS вы без труда найдете скрипт загрузки страниц из xlsx или csv. В этом представлении, 1 строка = 1 страница.

Давайте посмотрим, что происходит на наших вкладках с точки зрения массовой загрузки? На вкладке «Таблица с информацией о банях» - все просто. Сколько строк, столько и страниц, каждая страница обладает 18 полями с расширенной информацией о бане. Однако у нас остались еще категорийные страницы – с ними все то же самое, просто их нужно представить в аналогичном построчном виде.

Уровень 4 «Области»; уровень 5 «Города»; уровень 6 «Категории внутри города»

В таблицах представлено ограниченное количество городов и областей исключительно для понимания процесса. Значения переменных в таблицах берутся из столбцов, существующих в этой же таблице. В этой связи – можно обратить внимание на столбец H в таблице «уровень 6», где значение переменной city приводится в родительном падеже для использования в заголовке.

В итоге, можно резюмировать, что создание некоммерческих/информационных проектов на основе искусственной семантики состоит из нескольких этапов:

- сбор семантики и выявление в ее структуре прогнозируемых переменных (город, месяц, отель, курорт, баня, заправка и пр.)
- составление структуры сайта на основе информации о популярных переменных
- создание шаблонных текстов для каждого уровня
- представление текстового контента ( в т.ч. и текстовых тегов) в виде Excel-таблиц с переменными в разбивке по уровням
- замена переменных их реальными значениями на этапе обработки в Excel или после загрузки в CMS (нежелательно это делать при генерации страницы – излишняя нагрузка на базу, тогда как на практике такой контент редактируется редко и пользы и удобства от переменных немного)
- автоматизация загрузки контента в движок

В следующем выпуске рассылки выйдет статья, где будет рассмотрено применение искусственной семантики для коммерческих проектов – для получения как контекстного, так и органического трафика.

Доклады с All in Top Conf 2016

С 16 по 17 февраля 2016 года в Москве проходила ежегодная All in Top Conf, единственное мероприятие, посвященное практическим аспектам веб-аналитики и поисковой оптимизации.

Предлагаем вашему вниманию обзоры самых актуальных докладов, которые прозвучали на конференции.

Сергей Сморовоз: SEO 2.0: мобильный контент vs поиск кнопки «Бабло»

Специально для конференции All In TOP 2016 по просьбе Василия Ткачёва автором этой статьи была проделана работа по оценке трафика из Instagram и влиянию этого трафика на сайт с точки зрения SEO. Сказать, что результаты эксперимента сильно удивили, – не сказать ничего.

Илья Русаков и Олег Шестаков: Актуальный CTR в выдаче Яндекса

Сегодня заметно меняется как выдача, так и политика Яндекса, который каннибализирует выдачу своими сервисами. Иными словами, налицо вытеснение органических результатов поиска контекстной рекламой и колдунщиками Яндекса. С помощью сервиса SEO-Reports через API Яндекс.Вебмастера спикеры проанализировали 25 запросов по каждому сайту, исследовали данные за последнюю неделю.

Виталий Кравченко: «Влияние естественного витального трафика на позиции сайта»

Витальный трафик – это брендовый трафик. Иными словами, это запросы, которые вводят пользователи, желая найти конкретный сайт. Автор рассмотрел ситуации из практики, когда для одной компании создается несколько проектов. Эти проекты активно продвигаются в сети и работают на то, чтобы продвигать бренд. В качестве эксперимента было решено произвести небольшую выборку по сайтам, наблюдения за изменениями видимости длились около 9 месяцев.

 

Google AMP появились в мобильном поиске

Google включил AMP-страницы в результаты мобильного поиска. Они отображаются в новостном блоке и выводятся по любому запросу, который вызывает его показ: [trump], [google], [waze], [obama] и т.п.

Официальный запуск AMP ожидался 24 февраля 2016 года. Однако компания решила начать его на день раньше.

Новости за неделю

Google Chrome уличили в покупке платных ссылок

На днях появилась информация, что Google заплатил около $350 тыс. за размещение ссылки-изображения Google Chrome на странице спонсоров Let's Encrypt. Ссылка размещена в блоке платиновых спонсоров, а для получения этого статуса нужно заплатить от $300 тыс. до $350 тыс...

Facebook запускает Canvas – интерактивный формат мобильной рекламы

Facebook объявил о запуске Canvas – нового интерактивного формата мобильной рекламы. Продукт будет доступен рекламодателям во всём мире. В отличие от объявлений в виде карусели, Canvas – полноэкранные интерактивные объявления.

Google защитит новостные сайты от хакерских атак

Google открыл новостным сайтам и ресурсам по защите прав человека доступ к сервису защиты от DDoS-атак – Project Shield. Инициатива призвана обеспечить свободу слова и открытый доступ к информации.

На сегодняшний день рекламу в Instagram покупает более 200 тысяч компаний, 75% из которых находится за пределами США. Прошлым летом количество активных рекламодателей сервиса исчислялось лишь несколькими сотнями...

Яндекс выпустил мобильные приложения для поиска авиабилетов

Мобильное приложение, так же как и веб-версия сервиса, помогает быстро найти билеты на авиарейсы в разные точки мира. Помимо различных фильтров для поиска, приложение может отправлять push-уведомления об изменении стоимости билетов и подсказать подходящий аэроэкспресс для жителей Москвы...

Исследование: исходящие ссылки влияют на ранжирование сайтов в Google

Исходящие ссылки влияют на позиции сайтов в поисковой выдаче Google, несмотря на противоположные заявления представителей поиска. Для проведения исследования было куплено 10 новых доменов. На сайтах были опубликованы статьи, в каждой из которых упоминалось 2 высокоавторитетных релевантных ресурса. На 5 сайтах упоминания были представлены в виде текста, на 5 других – в виде гиперссылки...

Сервис Яндекс.Такси начал свою работу в Минске. Теперь жители и гости белорусской столицы могут быстро найти свободную машину - достаточно сделать заказ в мобильном приложении или на сайте taxi.yandex.ru...

Snapchat запустил новую функцию «Геофильтры по запросу», которая позволяет пользователям сервиса за умеренную плату создавать собственные фильтры. Минимальный размер геофильтра составляет 5 тыс. кв. футов, максимальный – 5 млн кв. футов...

Яндекс выкупает свой московский офис за 12,9 млн собственных акций

Яндекс подписал соглашение c компанией «Красная Роза 1875 Лимитед», по условиям которого он становится владельцем комплекса зданий в деловом квартале «Красная Роза». Речь идет о выкупе семи офисных зданий классов «А» и «В» общей площадью около 80 тыс. квадратных метров, расположенных на территории размером 4 гектара в центре Москвы...

В Госдуму внесен законопроект, приравнивающий крупные новостные агрегаторы к СМИ

В Госдуму внесен законопроект, согласно которому крупные новостные агрегаторы с количеством пользователей более 1 млн в сутки приравниваются к средствам массовой информации. Принятие этого закона означает, что новостной агрегатор, став СМИ, не сможет принадлежать иностранной компании более чем на 20% , а также должен будет проверять достоверность представляемой информации...

ВКонтакте, Яндекс и Одноклассники - самые посещаемые россиянами сайты за 2015 год

Аналитическая компания SimilarWeb, занимающаяся исследованием поведения пользователей в сети, опубликовала рейтинг сайтов, которые российские пользователи посещали чаще всего в 2015 году. Первое место в рейтинге занимает крупнейшая российская социальная сеть ВКонтакте. На втором месте - поисковая система Яндекс, на третьем - социальная сеть Одноклассники...

 

Facebook объявил о запуске «реакций» – расширения кнопки «Нравится». Теперь помимо традиционного «лайка» пользователям предлагается пять новых кнопок-смайлов, выражающих разные эмоции: любовь, радость, удивление, печаль и гнев.

В мобильном приложении новые элементы отображаются при нажатии и удержании кнопки «Нравится». В веб-версии нужно навести на неё курсор и немного подождать.

Кнопку «Не нравится» («Dislike») руководство социальной сети решило не вводить, расценив её как слишком негативную.

Подписаться на Twitter    Подружиться на Facebook    Отправить другу 
Copyright © 2016 Searchengines.ru,, All rights reserved.
Вы получили эту рассылку, поскольку регистрировались на сайте Searchengines.ru. Вы можете всегда отписаться от нее, переслать другу, а также обновить свой профиль подписчика.

Наш почтовый адрес:
Searchengines.ru, , Moscow, 65000, Russia
отписаться от этой рассылки    обновить настройки подписки 

Комментариев нет:

Отправить комментарий

Оповещение Google – JavaScript

JavaScript Ежедневное обновление ⋅ 20 января 2025 г. НОВОСТИ Достойный противник классичес...