14 окт. 2016 г.

Как найти страницы, непроиндексированные Google

Рассылка SearchEngines.ru Неправильно отображается?
Посмотреть в браузере.
14 октября

2016 года

СЕГОДНЯ В ВЫПУСКЕ

Подписаться на Twitter     Подружиться на Facebook      Группа ВКонтакте

Отправить другу

Как найти страницы, непроиндексированные Google

Автор: Пол Шапиро (Paul Shapiro) – руководитель SEO-направления агентства Catalyst Digital (Бостон).

Узнать, сколько страниц было проиндексировано Google, можно с помощью Search Console. Но как отыскать те URL, которые отсутствуют в индексе поисковой системы? Справиться с этой задачей поможет специальный скрипт на Python.

Органический поиск включает три основных компонента: сканирование, индексирование и ранжирование. Когда поисковый робот заходит на сайт, он сканирует все найденные ссылки. Эта информация затем передаётся в индекс поисковой системы, после чего определяется порядок её показа в результатах поиска.

SEO-специалисты основное внимание уделяют компоненту ранжирования. Но если поисковая система не смогла просканировать и проиндексировать страницы на сайте, он не получит трафика из Google. Обеспечение правильного сканирования и индексирования сайта – важная часть поисковой оптимизации.

Как узнать, сколько всего страниц проиндексировано

При наличии доступа к Google Search Console можно посмотреть, сколько страниц содержится в файле XML Sitemap, и сколько из них было проиндексировано. При этом в сервисе не уточняется, какие именно URL не попали в индекс поисковой системы.

webmaster-tools-index-status

Чтобы получить эту информацию, придётся проверить каждый URL вручную. Но эту задачу можно автоматизировать.

Как проверить, был ли URL проиндексирован Google

Чтобы узнать, был ли конкретный URL проиндексирован Google, можно использовать поисковый оператор «info:». Например:

info:http://searchengineland.com/google-downplays-google-algorithm-ranking-update-week-normal-fluctuations-258923

Если URL проиндексирован, результат будет таким:

not-indexed-info-opperator-800x246

В противном случае Google вернёт ошибку:

not-indexed-info-opperator-800x246

Как использовать Python для массовой проверки статуса индексирования страниц

Теперь вы знаете, как проверить отдельный URL. Но как провести массовую проверку? Используйте следующий скрипт на Python.

Чтобы использовать этот скрипт, на компьютере должен быть установлен Python 3. Также потребуется установить библиотеку BeautifulSoup. Для этого откройте командную строку и выполните следующую команду:

pip install beautifulsoup4

После этого вы можете загрузить скрипт на свой компьютер. В той же папке, где находится скрипт, создайте текстовый файл со списком URL. Каждый URL должен идти отдельной строкой.

file-directory

Теперь, когда скрипт готов к работе, нужно установить и настроить Tor для использования его в качестве бесплатного прокси-сервера. На Windows загрузите Tor Expert Bundle. Извлеките папку из архива в локальный каталог на ПК и запустите tor.exe. Окно можно свернуть.

tor-expert-800x545

Затем вам нужно установить Polipo для преобразования socks-прокси в http-прокси. Загрузите последнюю версию Windows binary (она будет называться «polipo-1.x.x.x-win32.zip») и извлеките папку из архива.

В папке Polipo создайте текстовый файл (например, config.txt) со следующим содержанием:

socksParentProxy = "localhost:9050"

socksProxyType = socks5

diskCacheRoot = ""

disableLocalInterface=true

Откройте командную строку и перейдите в папку Polipo. Выполните следующую команду:

polipo.exe -c config.txt

polipo-screen-800x522

На этом этапе можно запускать Python-скрипт:

python indexchecker.py

python-script-prompts-800x93

Скрипт попросит указать количество секунд для ожидания между проверками каждого URL.

Затем он попросит ввести имя файла (без расширения) для выгрузки результатов в CSV.

Наконец, он запросит имя текстового файла, который содержит список URL для проверки.

Введите эти данные и запустите скрипт.

Конечный результат будет представлен в виде CSV-файла, который можно без труда открыть в Excel.

В итоговой таблице проиндексированным URL будет присвоено значение TRUE, непроиндексированным – FALSE.

output-csv-file-google-index

Если скрипт не работает, то Google, возможно, блокирует Tor. В этом случае используйте свой собственный прокси-сервер, изменив следующие строки скрипта:

proxies = {

'https' : 'https://localhost:8123',

'https' : 'http://localhost:8123'

}

Заключение

Знать, какие страницы были проиндексированы Google, критически важно для SEO. Вы не сможете получить трафик из поиска, если ваших страниц нет в индексе поисковой системы.

К сожалению, Google не предоставляет информацию о том, какие URL не были проиндексированы. Но эта проблема решаема. Используя описанный выше скрипт, вы сможете получить эти данные без особого труда.

Источник: Search Engine Land.

Рекомендуем посетить

18 октября - CPAconf 2016 - Москва

27 октября - eCommerce - Киев

28 октября - Трафик. Заявки. Продажи - Москва

28 октября - Ukraine Digital Conference 2016 - Харьков

1 ноября - Russian Interactive Week 2016 - Москва

Google завершил запуск Penguin 4.0

 

Запуск обновления Google Penguin 4.0 полностью завершён. Представитель поиска Гэри Илш подтвердил эту информацию в Twitter.

Теперь фильтр работает в режиме реального времени и является частью основного алгоритма Google.

Поисковик приступил к запуску Penguin 4.0 23 сентября. Сайты начали выходить из-под фильтра в районе 28 сентября – та часть алгоритма, которая отвечает за снятие санкций, была запущена позже...

Самое важное за неделю

Google запустит мобильный индекс в ближайшие месяцы

Google планирует запустить отдельный мобильный индекс в ближайшие месяцы. При этом он станет основным, а десктопный – вторичным.
 

Компания TNS Russia будет переименована в Mediascope

Компания TNS Russia, которая занималась измерениями телеаудитории России, будет переименована в Mediascope. Соответствующая заявка на регистрацию нового названия была направлена в Роспатент несколько недель назад.
 

Google помечает ссылки сайта ярлыками

Google добавляет к ссылкам сайта ярлыки, чтобы отнести их к определённой категории. Команда по борьбе с веб-спамом затем использует эту информацию, чтобы определить, требует ли сайт более глубокой проверки и наложения ручных санкций.
 

Facebook запустил сервис для корпоративного общения Workplace

Facebook объявил о запуске Workplace – специальной версии социальной сети, предназначенной для корпоративных пользователей. Сервис будет доступен компаниям по всему миру.
 

Google: Penguin смотрит в основном на источники ссылок

Penguin разработан как алгоритм по борьбе с веб-спамом, но основным фокусом для него является «ссылочный спам». При этом речь идёт не о ссылке как таковой, а о её источнике – ресурсе, который ссылается на данный сайт.
  Объем видеорекламы в рунете до конца 2016-го увеличится на 18% и составит 6,3 млрд рублей. Объем онлайн-видеорекламы в январе-июне составил 2,6 млрд руб., что на 24% выше, чем в аналогичный период прошлого года.
 

Google отключил инструмент управления быстроссылками в Search Console

В 2007 году Google добавил в Search Console возможность понижать рейтинг URL, используемых в качестве ссылок сайта. Таким способом можно было убрать из результатов поиска неподходящие или неправильные ссылки. Теперь эта функция отключена.
 

Яндекс поделится рекламными доходами с производителями Android-устройств

Компания Яндекс предложила операторам и производителям смартфонов на базе Android часть доходов от продажи рекламы в обмен на предустановку приложений компании на производимых устройствах.
 

Google запустил новый инструмент для проверки AMP

Google добавил в Search Console новый инструмент «Проверка страниц AMP». С его помощью можно узнать, есть ли на страницах этого формата какие-либо ошибки, и какие действия желательно предпринять в каждом конкретном случае.
 

Рамблер полностью обновил сервис «Рамблер/Топ-100»

В новом интерфейсе появилось больше отчетов и возможностей их детализации, доступны различные типы графиков для визуализации данных, появились основные поведенческие показатели: время на сайте, отказы, глубина просмотра.
 

В мобильном Яндекс.Маркете появилась возможность оплаты покупок банковской картой

При оформлении покупки необязательно вводить номер карты вручную, ее можно отсканировать, а данные карты — сохранить в зашифрованном виде, если покупатель авторизован на Маркете.
 

AdWords вывел из беты функцию импорта конверсий из Salesforce

Google AdWords вывел из беты функцию импорта конверсий из Salesforce, анонсированную в июне. Теперь доступ к ней получат все рекламодатели.

 

Google Analytics получил обновлённый интерфейс

 

Google объявил о запуске обновлённого интерфейса Google Analytics.

В числе основных изменений значатся упрощённая навигация и объединение всех инструментов персонализации на вкладке Customization в верхней части меню навигации. На новой вкладке будут доступны «Сводки», «Ярлыки», «Пользовательские отчёты» и «Специальные оповещения».

В интерфейсе Google Analytics также появилось новое выпадающее меню, с помощью которого стало проще переключаться между представлениями...

Подписаться на Twitter    Подружиться на Facebook    Отправить другу 
Copyright © 2016 Searchengines.ru,, All rights reserved.
Вы получили эту рассылку, поскольку регистрировались на сайте Searchengines.ru. Вы можете всегда отписаться от нее, переслать другу, а также обновить свой профиль подписчика.

Наш почтовый адрес:
Searchengines.ru, , Moscow, 65000, Russia
отписаться от этой рассылки    обновить настройки подписки 

Комментариев нет:

Отправить комментарий

«Проект небольшого дома» для пользователя Торговый Дом

Проект дома с мансардой 10x9 из газобетона (пеноблоков), c террасой, котельной и кухней-столовой + т     ...