Автор: Павел Лукин — seo-маркетолог, ведущий seo-специалист в интернет-магазине 220 Вольт. В середине марта 2017 на Searchengines.ru была опубликована статья Сергея Людкевича, в которой он предложил способы поиска поддоменов сайта в индексе Яндекс и Google с помощью операторов поиска. Для Яндекса способ был основан на использовании оператора поиска по сайту site: с последующим исключением поддоменов через оператор отрицания в пределах документа ~~ и оператора host (поиск по страницам, размещенным на данном хосте). Данный способ отлично работал, пока Яндекс не перестал поддерживать оператор отрицания ~~. И теперь данный запрос не исключает основной домен и поддомены. Какое-то время эту проблему можно было обойти, используя вместо ~~ оператор ~ (исключение слов в пределах предложения), но и он перестал работать. В итоге, после кастрации языка запросов, у Яндекса остался всего один оператор, который хоть что-то исключает из выдачи — это оператор — (поиск документов, в которых отсутствует заданное слово, исключает только слово, перед которым поставлен). Данный оператор и решено было использовать. Однако, — не работает вместе с другими операторами, а работает только со словами. Тут нужно сделать небольшое отступление. Первоначально задача поиска поддоменов решалась автором для прикладного анализа другого сайта — vseinstrumenti.ru. И, в отличие от сайта yandex.ru, этот сайт имеет основное зеркало с префиксом www — http://www.vseinstrumenti.ru, в то время как у Яндекса без (интересно, что ни host:в robots.txt, ни 301 редирект не прописан). Учитывая, что одним из текстовых факторов ранжирования является вхождение запроса в url, именно префикс www и было решено использовать в качестве того слова, исключив которое, можно получить поддомены. Данная гипотеза не подтвердилась: поочередное исключение префикса www, а затем других префиксов основного домена не исключает основное зеркало и поддомены, а перегруппировывает выдачу таким образом, что поддомены оказываются на первой странице. Таким образом можно дойти до пределов поисковой строки в 400 символов, и станет видно, что основной домен и поддомены присутствуют в выдаче, а не исключаются (хотя количество найденных результатов может изменяться, что путает). Зато данный метод менее ограничен вместимостью поисковой строки. В дополнение к способу выше, был найден способ получать поддомены, подсмотренный в справке самого Яндекса. В ней приведен пример для описания оператора rhost: (Поиск по страницам, размещенным на данном хосте. Идентичен оператору host:, но имя хоста записывается в обратном порядке: сначала домен верхнего уровня, затем домен второго уровня и т. д.) То есть в случае, когда у основного домена главное зеркало без префикса www (как у Яндекса), получить выдачу с его поддоменами можно, используя запрос rhost:ru.yandex.* Далее остается лишь поочередно исключать префиксы, чтобы найти новые поддомены: Но, как оказалось, данная связка операторов имеет ограничение по длине запроса в 40 слов (хотя в поисковой строке место еще оставалось). Несмотря на запись «Исключены результаты со словами», данным способом поддомены тоже не исключаются, что можно легко проверить на каком-нибудь маленьком сайте. Кроме этого, оператор — имеет существенный недостаток: он снимает сужение выдачи до сайта при минусовке префиксов домена, состоящих полностью из чисел. Но, к счастью, поддомены полностью из цифр встречаются не так часто, как с буквами. Таким образом, можно сделать вывод, что данными способами нельзя решить в полном объеме задачу поиска поддоменов через индекс Яндекса (даже если бы операторы все исключали корректно). Но выявленный эффект вполне можно использовать для анализа сайтов. И, напоследок, — частный случай решения задачи поиска поддоменов — найти региональные поддомены интернет-магазина. Можно поискать повторяющийся фрагмент текста в контенте главной страницы по сайту через оператор site:. |
Комментариев нет:
Отправить комментарий