28 июн. 2019 г.

Оптимизация краулингового бюджета

Рассылка SearchEngines.ru

Неправильно отображается?
Посмотреть в браузере.

28 июня

2019 года

СЕГОДНЯ В ВЫПУСКЕ

Оптимизация краулингового бюджета
Рекомендуем посетить в июле
В Search Console появились новые функции, связанные с mobile-first индексацией
Важное за неделю
Почтовый сервис Mail.ru отказывается от паролей
AliExpress начинает подключать российские магазины

Подписаться на Twitter Подружиться на Facebook Группа ВКонтакте

Отправить другу Читать в Telegram

Оптимизация краулингового бюджета

Автор: Сергей Людкевич - независимый консультант, супермодератор форума о поисковых системах Searchengines.Guru.

Сфера профессиональных интересов - исследование алгоритмов ранжирования поисковых машин, разработка методик поискового продвижения сайтов.

На днях в новостной ленте промелькнула заметка о том, что сотрудник компании Google Гэри Илш в своем Твиттере ответил, что URL, закрытые от индексации в файле robots.txt, не влияют на краулинговый бюджет этого сайта:

Вместе с тем, в ответе на один из вопросов к этому же посту в Твиттере, Гэри признал, что если запретить к индексации бесполезные страницы, то краулинговый бюджет будет «возвращен» («will gain back») открытым для индексации полезным страницам:

Все эти «словесные кульбиты» натолкнули меня на мысль порассуждать на тему краулингового бюджета и его эффективного использования. Оговорюсь сразу, что тема оптимизации краулингового бюджета актуальна только для сайтов с достаточно большим числом страниц – счет должен идти на десятки, а то и сотни тысяч. Небольшим сайтам заморачиваться на эту тема смысла не имеет – поисковики их будут переиндексировать довольно шустро в любом случае.

Итак, вводные данные следующие. Мы определились, какие страницы на сайте мы считаем полезными для индексации, а какие – бесполезными, то есть по сути мусором, который, находясь в индексе, может являться источником различного рода проблем. В терминах Google это называется low-value-add URL. И наша задача – убрать из индекса бесполезные страницы наиболее эффективным образом. В том числе и с точки зрения оптимизации краулингового бюджета.

Для начала уточним, что же подразумевается под краулинговым бюджетом? Если коротко, то это число страниц с кодом статуса 200 ОК, которое индексирующий робот поисковой системы отсканирует за одну сессию. Это число (равно как и частота сканирования) зависит от различных факторов, например, таких как популярность сайта, уже имеющееся число страниц в индексе и т.п.

Судя по всему, Гэри Илш, говоря, что запрещенные к индексации файлом robots.txt страницы никак не влияют на краулинговый бюджет, имел в виду то, что, так как поисковая система заведомо знает о том, что они запрещены к индексированию (а значит, индексирующему роботу не нужно их сканировать), то никоим образом не учитывает их при расчете краулингового бюджета.

В ситуации же описываемой в последующем вопросе, когда осуществляется запрет к индексации уже известных поисковой системе страниц, на которые в том числе расходовался краулинговый бюджет, произойдет следующее – выделенный краулинговый бюджет начнет расходоваться только на страницы, которые не запрещены к индексации. Это Гэри Илш и называет «возвращением» бюджета полезным страницам, так как в вопросе явно указано, что происходит закрытие бесполезных страниц. Кстати, теоретически при закрытии страниц от индексации краулинговый бюджет в абсолютных цифрах может и уменьшиться, так как уменьшится число проиндексированных страниц на сайте, но он будет расходоваться более эффективно именно для полезных страниц.

Поэтому для оптимизации краулингового бюджета может быть действительно хорошим вариантом закрытие к индексации файлом robots.txt бесполезных страниц, имеющих код статуса 200 ОК. Однако здесь могут быть нюансы. Так, например, если какие-то из этих страниц имеют входящие ссылки или ненулевой целевой трафик, то исключение таких страниц из индекса повлечет исключение из ранжирования этих значений, что теоретически может негативно сказаться на расчетных показателях релевантности проиндексированных страниц сайта. В общем, запрет для индексации в файле robots.txt может быть хорошим решением только для тех URL, которые с точки зрения ссылочных и поведенческих факторов абсолютно неинтересны.

Также следует иметь в виду, что запрет к индексации страниц с помощью мета-тега robots со значением noindex на оптимизацию краулингового бюджета существенно не повлияет. Потому что в этом случае закрываемая от индексации страница имеет код статуса 200 ОК, и поисковик исключит ее из индекса только после того, как индексирующий робот ее просканирует. И в последующем индексирующий робот будет все равно вынужден такие страницы переобходить. Единственное, на что можно надеяться – так это на то, что он это будет делать с меньшей частотой чем для страниц, которые не были запрещены к индексированию с помощью мета-тега robots. Ну хотя бы по крайней мере для тех страниц, которые имеют такой запрет на индексацию на протяжении нескольких сканирований подряд. Хотя, на мой взгляд, подобные надежды основываются на очень зыбкой почве.

Поэтому я считаю, что наилучший способ исключить бесполезные страницы из краулингового бюджета – это изменить для них код статуса с 200 ОК на 301 Moved Permanently с редиректом на разрешенную к индексации полезную страницу, имеющую отклик 200 ОК. В таком случае страница с кодом статуса 301 должна «подклеиться» к странице, на которую ведет редирект с нее, причем с передачей некоторых характеристик, которые относятся к нетекстовым факторам ранжирования (например, такие как ссылочные или поведенческие). Google называет это консолидацией URL. Запомним этот термин и будем его в последующем применять. Кстати, в случае Яндекса необходимо иметь в виду следующий нюанс – подклеить страницу к странице, расположенной на другом поддомене сайта, в общем случае не получится.

Да, пожалуй, это было бы идеальное решение, оптимально закрывающее две задачи – избавления индекса от бесполезных страниц и оптимизации краулингового бюджета. Например, оно хорошо применимо для решения проблемы устаревших страниц, которые когда-то имели трафик и до сих пор имеют входящие ссылки. Но, к сожалению, оно применимо далеко не во всех случаях. Есть масса вариантов, когда страница с точки зрения владельца сайта должна по той или иной причине иметь код статуса 200 ОК, но при этом с точки зрения поисковика ее можно считать бесполезной, например:

дубликаты четкие, например, отличающиеся только наличием get-параметров в URL, которые важны владельцу сайта с точки зрения веб-аналитики;
дубликаты нечеткие, например, результаты многокритериальной фильтрации листингов товаров интернет-магазина, по факту слабо отличающие друг от друга по набору удовлетворяющих различным значениям фильтров товаров;
страницы пагинации листингов товаров в интернет магазинах

и т.п.

С точки зрения склейки страниц с сопутствующей ей консолидацией, тут есть прекрасный заменитель 301-му редиректу – директива canonical. Однако с точки зрения краулингового бюджета это не самый оптимальный вариант, так как неканоническая страница должна иметь код статуса 200 ОК.

В этом случае краулинговый бюджет можно оптимизировать с помощью специальной обработки запросов от поисковика, имеющих заголовок If-Modified-Since. Алгоритм действий следующий – убедившись, что поисковик посчитал конкретную страницу неканонической (это можно сделать через сервисы Яндекс.Вебмастер и Google Search Console), необходимо запомнить дату, и в последствии на запросы индексирующего робота с заголовком If-Modified-Since, содержащим дату позднее запомненной, отдавать код статуса 304 Not Modified вместо 200 ОК. Страницы с кодом статуса 304 не будут расходовать краулинговый бюджет.

Кстати, тот же самый прием можно применить для оптимизации краулингового бюджета в случае, о котором я писал несколько выше – когда бесполезные страницы по той или иной причине закрываются от индексации с помощью мета-тега robots со значением noindex. В этом случае нам нужно запомнить дату, когда поисковик исключил запрещенную к индексации страницу из индекса, чтоб потом использовать ее при специальной обработке запросов от индексирующего робота с заголовком If-Modified-Since.

В общем-то, специальная обработка запроса If-Modified-Since очень полезна с точки оптимизации краулингового бюджета и для полезных страниц с сайта, для которых известна дата последнего изменения их контента. Всем запросам индексирующих роботов поисковых систем с заголовком If-Modified-Since, содержащим дату позднее известной нам даты последнего изменения контента страницы, следует отдавать код статуса 304 Not Modified. Однако тут тоже есть один нюанс – такие страницы лишаются возможности попадать в так называемую «быстроботовскую» примесь для свежих результатов. Поэтому для тех страниц, которые релевантны запросам, имеющим быстроботовскую примесь, все-таки я бы рекомендовал отдавать всегда код статуса 200 ОК. Ибо возможность попадания в топ выдачи как свежий результат намного важнее оптимизации краулингового бюджета.

В Search Console появились новые функции, связанные с mobile-first индексацией

Google добавил в Search Console три новые функцие, призванные помочь вебмастерам понять, как Google индексирует их сайты. В частности, чтобы они могли видеть, перевёл ли поисковик их ресурсы на mobile-first индексацию, и когда это произошло.

Читать новость на сайте

Важное за неделю

В GMB ответили на вопрос о задержках с разблокировкой аккаунтов

В службе поддержки заявили, что по техническим причинам задержки могут составлять до 3-х недель.

В Search Console появился поиск по разметке

А также возможность скопировать код и внести в него правки.

Директ обновляет окно редактирования объявлений

Окончательный переход на новый функционал произойдет в течение нескольких недель.

Google Ads анонсировал ряд обновлений для ретейлеров

В их числе - сезонные корректировки ставок, новые функции для локальных кампаний и другие новшества.

Google Diversity Update всё же повлиял на результаты поиска

Об этом свидетельствуют данные Searchmetrics.

У магазинов на Маркете появилась возможность отвечать на вопросы о товарах

Ответы на вопросы могут стать дополнительным источником трафика для магазинов.

Использовал ли Google данные Wikipedia для оценки сайтов в June Update

Согласно анализу, проведённому Search Engine Journal, вряд ли.

Глава Facebook: у нас нет инструментов, чтобы остановить российское правительство

Об этом Марк Цукерберг заявил в ответ на вопросы, связанные с вмешательством властей других стран в выборы.

Роскомнадзор готовит новое административное дело в отношении Google

На этот раз за недостаточную фильтрацию запрещенного в России контента.

Почтовый сервис Mail.ru отказывается от паролей

Почта Mail.ru, одной из первых в мире, вводит новые способы входа в почтовый ящик — через одноразовые коды, полученные по СМС или push-уведомление.

В дальнейшем Mail.ru планирует дать возможность создавать ящики без пароля или отказаться от использования пароля в ранее созданных ящиках. Кроме того, будут введены дополнительные способы авторизации с помощью физических устройств (ключей) и биометрических данных — отпечатков пальцев, определения лица и т.п.

Читать новость на сайте

AliExpress начинает подключать российские магазины

Китайский маркетплейс AliExpress начинает подключать российских поставщиков. По модели маркетплейса к нему сможет подключиться малый и средний российский бизнес, в том числе индивидуальные предприниматели.

На первом этапе они смогут торговать только на российском рынке, в дальнейшем же ожидается существенное расширение географии. Требования к российским участникам будут минимальны, без ограничений по обороту, сервису или доставке.

Читать новость на сайте

Подписаться на Twitter Подружиться на Facebook Отправить другу

Copyright © 2019 SearchEngines.ru, All rights reserved.
Вы получили это письмо, так как подписались на рассылку на сайте SearchEngines.ru

Наш почтовый адрес:
SearchEngines.ru 21 Iridos Street, MetaQuotes Building, Mesa Yitonia Limassol 4004 Cyprus

отписаться от этой рассылки обновить настройки подписки

Drevco

28 июн. 2019 г.