28 июл. 2017 г.

Чистка поискового индекса сайта

Рассылка SearchEngines.ru Неправильно отображается?
Посмотреть в браузере.
28 июля

2017 года

 

СЕГОДНЯ В ВЫПУСКЕ

Подписаться на Twitter     Подружиться на Facebook      Группа ВКонтакте

Отправить другу

Чистка поискового индекса сайта

Сергей Людкевич
Автор: Сергей Людкевич - независимый консультант, супермодератор форума о поисковых системах Searchengines.Guru.
Сфера профессиональных интересов - исследование алгоритмов ранжирования поисковых машин, разработка методик поискового продвижения сайтов.

 

Нередки ситуации, когда поисковые системы индексируют на сайте большое количество страниц, не несущих с их точки зрения полезной информации – четкие или нечеткие дубликаты страниц, технический мусор, служебные страницы и т.п. Эти страницы могут стать препятствием для своевременной переиндексации и корректного ранжирования сайта, поэтому очень желательно минимизировать их количество в индексе. Сделать это можно разными способами, которые можно разбить на две большие группы: запрет к индексации и склейка с другими страницами сайта. Рассмотрим особенности каждого из способов и предпочтительные варианты их применения.

Основное различие запрета и склейки заключается в том, что в случае склейки, нетекстовые характеристики подклеиваемой страницы (назовем ее неканонической), такие как значения ссылочных, поведенческих и временных факторов, будут суммированы со значениями соответствующих факторов целевой страницы (назовем ее канонической). В случае же запрета индексации, вся эта информация будет просто потеряна. Поэтому запрещать к индексации в первую очередь имеет смысл те страницы, которые не имеют сколько-либо значимых значений нетекстовых характеристик, например, отсутствуют ссылки, ведущие на них, а количество трафика на этих страницах совершенно незначительно. Как правило, это служебные страницы, например, rss-лента, личные кабинеты пользователей или результаты поиска по сайту.

Запрет индексации страницы можно осуществить следующими способами:

  1. С помощью директивы Disallow в секции для соответствующего юзер-агента поисковика файла robots.txt
  2. С помощью значения noindex директивы content мета тега robots
В первом случае не будет расходоваться краулинговый бюджет, выделенный на переиндексацию страниц сайта, имеющих отклик 200 OK, т.к. индексирующий робот просто не будет обращаться к запрещенным в файле robots.txt страницам. Поэтому этот способ в общем случае более предпочтителен. Во втором случае робот будет скачивать страницы, и только после их скачки будет обнаружена запрещающая индексацию директива. Таким образом, краулинговый бюджет сайта будет частично расходоваться на постоянную переиндексацию подобных страниц.

Частично эту проблему можно решить с помощью корректной настройки обработки запроса If-Modified-Since (подробнее см. в моей статье «Заголовки Last-Modified и If-Modified-Since»). Более того, во втором случае запрещенные к индексации страницы на некоторое время могут попадать в индекс. Причем это время может быть и не таким уж их краткосрочным, имеют место случаи, когда счет идет даже не на дни, а на месяцы. Поэтому второй способ целесообразно использовать только в следующих случаях:
  1. Если число таких страниц достаточно велико, а особенности их URL таковы, что не представляется возможным достаточно компактно перечислить их в директивах файла robots.txt с помощью правил стандарта исключений для роботов и поддерживаемых поисковиками его расширений (например, см. соответствующую документацию для Яндекса и Google). Так, Яндекс имеет ограничение на размер файла robots.txt в 32 кб, а Google - в 500 кб.
  2. Если запрещаемые к индексации страницы в силу каких-либо причин являются единственным источником внутренних ссылок на те страницы сайта, которые должны находиться в поисковом индексе. В этом случае директива content мета тега robots кроме значения noindex должна иметь также значение follow, разрешающее поисковому роботу переходить по ссылкам на странице.
Как уже было сказано выше, склейка страниц, в отличие от запрета к индексации, позволяет суммировать значения нетекстовых факторов подклеиваемой (неканонической) страницы с соответствующими значениями целевой (канонической) страницей. Склейку можно осуществить следующими способами:
  1. С помощью редиректа с откликом 301 Moved Permanently
  2. С помощью директивы Clean-param в файле robots.txt (только для специальных случаев URL с динамическими параметрами)
  3. С помощью атрибута rel=”canonical” тега link

301-й редирект применим в тех случаях, когда содержимое неканонической страницы полностью идентично содержимому канонической, поэтому в этом случае пользователя можно просто перенаправить с одного URL на другой. В этом случае при обращении к неканоническому URL не происходит расхода краулингового бюджета, так как он имеет отклик, отличный от 200. Следует иметь ввиду, что в случае использования редиректа с откликом 302, склейки не произойдет.

Этот способ целесообразно применять, к примеру, при смене структуры URL сайта или для склейки дублей URL со слэшом на конце и без него. Если же по неканоническому URL необходимо отдавать пользователю содержимое, т.е. он должен иметь отклик 200, то в этом случае необходимо использовать два других способа склейки.

Использование директивы Clean-param в файле robots.txt ограничивается только страницами, имеющими в URL динамические параметры. Это могут быть как параметры, не влияющие на содержимое (например, идентификаторы сессий или рефереры), так и влияющие (например, режимы сортировки). Неканонический URL подклеивается к каноническому, который образован путем удаления указанных в директиве параметров. Естественно, что такой канонический URL должен иметь отклик 200, иначе никакой склейки не произойдет. Данный способ также не приводит к расходу краулингового бюджета, т.к. в этом случае поисковый робот просто не будет скачивать неканонический URL. Однако, надо иметь в виду, что по этой же причине поисковику будут неизвестны ссылки, находящиеся на неканоническом URL. Поэтому целесообразно применять этот способ в случаях, когда «обрезаемые» параметры не влияют на содержимое страницы либо значений этих параметров может быть достаточно много, чтоб оказать заметное влияние на расход краулингового бюджета (например, результаты поиска по сайту).

И наконец, третий вариант, который мне представляется во многих случаях наиболее предпочтительным - это использование атрибута canonical тега link. К плюсам этого метода относится то, что, как и при любой склейке, происходит суммирование нетекстовых факторов неканонической и канонической страниц (что, кстати, непосредственно подтверждено сотрудником Яндекса Александром Смирновым на Шестой Вебмастерской) плюс происходит учет ссылок, находящихся на неканонической странице (что также было непосредственно подтверждено в блоге собирательного образа службы поддержки Яндекса Платона Щукина).

Единственный минус этого метода - это то, что неканонические страницы в силу того, что они имеют отклик 200, так же, как и в случае с noindex в мета-теге robots, будут выбирать краулинговый бюджет. И так же неканоническая страница может довольно продолжительное время находится в индексе до того момента, как будет склеена с канонической.

Тем не менее данный способ отлично подходит, например, для склейки страниц пагинации, различных вариантов сортировки, результатов применения фильтров к спискам и т.п., а также «обрезания» динамических параметров URL. Кстати, что касается пагинации, то сотрудники Google рекомендуют использовать атрибуты rel="next" и rel="prev" тега link. Однако Яндекс не поддерживает эти директивы. Поэтому я все-таки рекомендую использовать rel=”canonical” для обоих поисковиков, тем более, что практика показывает, что эта директива прекрасно работает и в Google. Есть различие между Яндексом и Google и непосредственно в обработке директивы rel=”canonical” - Яндекс, в отличие от Google, не поддерживает кросс-доменность этой директивы, то есть нельзя склеить страницы, находящиеся на различных поддоменах.

И в заключение хотелось бы отметить, что следует избегать многократного последовательного применения директив склейки. Например, цепочек редиректов или указания в качестве канонической страницы, которая сама содержит директиву rel=”canonical” на с указанием третью страницу. Равно как и последовательно комбинировать различные методы склейки.

Например, когда URL, получающийся в результате «обрезания» параметров с помощью директивы Clean-param, в свою очередь является неканоническим. В подобных случаях поисковик может просто проигнорировать директивы.

Яндекс.Метрика запустила Яндекс.Радар

Яндекс.Метрика запустила инструмент для мониторинга популярности поисковых систем и браузеров в России, Беларуси, Казахстане и Турции. Яндекс.Радар позволяет наблюдать как за ситуацией в целом, так и за изменениями в срезах для конкретных платформ и типов устройств. Например, можно посмотреть, как в течение года менялись доли поисковых систем на десктопе или мобильных браузеров.
 

Чистая прибыль Alphabet сократилась на 27,7% из-за штрафа Еврокомиссии

Холдинг Alphabet, владеющий Google, огласил финансовые результаты за второй квартал 2017 года.

Совокупная квартальная выручка компании достигла $26 млрд, показав рост на 21% в сравнении год к году. Из них $22,7 млрд приходилось на рекламу. Основными драйверами роста дохода выступали мобильный поиск и YouTube.

Чистая прибыль Alphabet, рассчитанная по GAAP, составила $3,52 млрд. Из-за штрафа Еврокомисии она сократилась на 27,7% в годовом сравнении. Без штрафа она могла достичь $6,26 млрд...

Самое интересное за неделю

Google отключил функцию предиктивного поиска Google Instant

Эта функция показывала результаты поиска во время ввода запроса. Изменение призвано обеспечить большее единообразие поиска на мобильных и десктоп-устройствах.
 

Google AdWords запустил корректировки ставок для звонков

Нововведение доступно только для кампаний в новом интерфейсе сервиса.
 

Чистая прибыль Facebook во II квартале 2017 выросла на 71%

Facebook объявил финансовые результаты за второй квартал 2017 года. На фоне отчёта капитализация компании впервые превысила $500 млрд.
 

Google продвигает ads.txt как решение проблемы мошенничества в programmatic

Цель ads.txt – искоренить мошенничество и повысить прозрачность в programmatic за счёт регистрации авторизированных продавцов рекламы.
 

Google запустил сертификацию по Google Shopping

Пройти обучение и сдать экзамен можно в Academy for Ads.
 

Яндекс.Вебмастер тестирует новый раздел «Рекомендованные запросы»

На данный момент он работает в бета-режиме и доступен не всем пользователям сервиса.
 

Google рассказал, как удалить AMP-контент из поиска

Новый справочный документ опубликован на сайте Google для разработчиков.
 

Adobe прекратит поддержку Flash к концу 2020 года

Adobe полностью прекратит поддержку платформы Flash и программы Flash Player к концу 2020 года.
 

myTarget открыл доступ к маркетплейсу внешних аудиторных сегментов

Маркетплейс позволит рекламодателям приобретать максимально релевантные аудиторные сегменты, предоставляемые платформами управления данными.
 

SEC будет регулировать ICO

Комиссия по ценным бумагам и биржам США (SEC) официально заявила, что первичные размещения монет могут квалифицироваться как продажи ценных бумаг.
 

Роскомнадзор получил право штрафовать недобросовестных операторов персональных данных

Роскомнадзор сможет инициировать дела об административных правонарушениях при обработке персональных данных вместо правоохранительных органов.

22 августа в 20:00 Яндекс представит свой новый поиск. Событие космическое, поэтому и место было выбрано особенное — Московский планетарий. Именно там инженеры поиска Яндекса расскажут о новых технологиях в поиске и покажут, что происходит «по ту сторону экрана», когда пользователь задает вопрос Яндексу.

Для того, чтобы получить одно из 100 приглашений на презентацию, нужно зарегистрироваться, приглашения будут разыграны среди заполнивших форму. А кому не повезет выиграть – смогут посмотреть онлайн-трансляцию из планетария и не пропустят это знаменательное событие.

Подписаться на Twitter    Подружиться на Facebook    Отправить другу 
Copyright © 2017 Searchengines.ru,, All rights reserved.
Вы получили эту рассылку, поскольку регистрировались на сайте Searchengines.ru. Вы можете всегда отписаться от нее, переслать другу, а также обновить свой профиль подписчика.

Наш почтовый адрес:
Searchengines.ru, , Moscow, 65000, Russia
отписаться от этой рассылки    обновить настройки подписки 

Комментариев нет:

Отправить комментарий

Торговый Дом, у вас хороший вкус

Проект дома 89-89 площадь 120.2 м2 из к Z278 Каркасный дом «Макогон» Уютный открытый павильон Проекты скандинавских каркасно-панельны Z4...