Почему поисковые роботы и Netpeak Spider не сканируют ваш сайт

6
3
6
3
Почему поисковые роботы и Netpeak Spider не сканируют ваш сайт
Кейсы

Сайты попадают в результат выдачи поисковых систем только после того, как поисковые роботы просканируют их и внесут в свою базу данных. С этим процессом могут возникнуть сложности, если владелец сайта непреднамеренно закрыл страницы от индексации. В таком случае роботы просто не будут сканировать сайт и добавлять его в индекс.

В рамках данного поста я подробно расскажу о причинах, по которым ваш сайт может не сканироваться поисковыми роботами и Netpeak Spider.

1. Инструкции индексации

В большинстве случаев поисковые роботы следуют инструкциям, указанным в robots.txt, HTTP заголовках ответа сервера и метатегах. Давайте рассмотрим каждый случай подробно :)

1.1. Robots.txt и XML Sitemap

Robots.txt — это текстовый файл, помещённый в корневой каталог сайта. Он показывает, какие поисковые роботы могут сканировать сайт, а также какие страницы открыты для сканирования и индексирования.

Кроме того, файл robots.txt должен содержать XML-карту данного сайта. Это поможет ботам сканировать все необходимые страницы, особенно если сайт большой.

Robots.txt

Вы можете протестировать файл robots.txt перед внедрением на свой сайт с помощью функции «Виртуальный robots.txt» в Netpeak Spider.

Robots.txt

1.2. Мета-директивы Robots

Здесь расскажу о метатеге Robots и X-Robots-Tag. Эти директивы могут запретить поисковикам обнаруживать ваш сайт.

1.2.1. Meta Robots

Метатег Robots поможет задать настройки индексации и отображения в результатах поиска отдельно для каждой страницы. Его следует расположить в области head HTML страницы. Если на странице есть метатеги noindex, поисковые роботы скорее всего не будут посещать ваш сайт и сканировать его.

Вот пример того, как этот тег должен быть написан для всех роботов:

<meta name="robots" content="noindex, nofollow" />

Вот пример только для поискового бота Googlebot:

<meta name="googlebot" content="noindex" />

1.2.2. X-Robots-Tag

X-Robots-Tag может использоваться как элемент HTTP-заголовка ответа сервера для заданного URL-адреса. Чтобы использовать X-Robots-Tag, вам необходимо получить доступ к файлу заголовка .php, .htaccess или сервера.

Ниже приведен пример HTTP-заголовка ответа сервера, где запрещена индексация страницы с помощью X-Robots-Tag:

Заблокировано в X Robots Tag

Если ваш сайт или отдельные его страницы закрыты с помощью упомянутых выше инструкций, и вопреки вашему желанию Netpeak Spider не сканирует его, вы можете легко изменить некоторые настройки и осуществить-таки сканирование ;)

Для этого перейдите во вкладку «Продвинутые» в «Настройках» и снимите отметку для всех пунктов в разделе «Учитывать инструкции по индексации».

Заблокировано в X Robots Tag

Подробнее о том, как разрешить роботам сканировать ваш сайт, читайте в нашем посте «Как проверить индексацию Google с Netpeak Spider и Netpeak Checker».

2. Сanonical

Владельцы сайтов могут настроить атрибут rel = canonical, с помощью которого можно указать роботам поисковых систем предпочтительную для индексации страницу.

Приведу в пример проблему, связанную с отсутствием соответствующих настроек. Сайт tastypancakes.com переехал с протокола HTTP на HTTPS. Конечно, все страницы с HTTP были перенаправлены на соответствующие на HTTPS, но сайт на сайте HTTPS стоит rel = canonical на HTTP-версию.

Это серьезная проблема, потому что вы не даёте краулеру просканировать ваш сайт. Чтобы решить эту проблему для поисковых роботов, настройте rel = canonical на своём сайте. Чтобы разрешить сканирование в Netpeak Spider, снимите отметку «Canonical» в разделе «Учитывать инструкции по индексации», как показано на скриншоте выше.

3. Авторизация

Если ваш сайт требует авторизации, краулер и поисковые роботы не смогут его проиндексировать. К примеру, это может быть тестовая версия вашего сайта, и вы не хотите видеть её в поисковой выдаче, но хотите проверить перед релизом. В таком случае всё просто. Выберите вкладку «Аутентификация» в настройках сканирования, отметьте «Использовать базовую аутентификацию», введите свой логин и пароль и проведите сканирование вашего сайта :)

Аутентификация

4. Заблокировано в .htaccess

Вы можете закрыть доступ краулерам в вашем файле .htaccess. Этот файл находится в корневом каталоге сайта (ваш каталог public_html). Вы можете открыть его с помощью диспетчера файлов в вашей cPanel или с помощью FTP-клиента (например, FileZilla). Вот пример блокировки некоторых ботов поисковой системы в файле .htaccess с помощью функции RewriteEngine в строке User Agent:

RewriteEngine On RewriteCond %{HTTP_USER_AGENT} Googlebot [OR] RewriteCond %{HTTP_USER_AGENT} AdsBot-Google [OR] RewriteCond %{HTTP_USER_AGENT} msnbot [OR] RewriteCond %{HTTP_USER_AGENT} AltaVista [OR] RewriteCond %{HTTP_USER_AGENT} Slurp RewriteRule . - [F,L]

Таким образом вы можете сохранить файл .htaccess и загрузить его на свой сервер, перезаписывая оригинал. Если вы хотите изменить инструкции, вы можете вернуть исходный файл .htaccess или удалить правила.

Если вы не хотите менять инструкции в своём файле .htaccess, но хотите просканировать сайт с помощью Netpeak Spider, выберите User Agent, который не заблокирован в вашем файле .htaccess в «Настройках» краулера.

User Agent

5. Время загрузки

Согласно Google, время ответа сервера должно быть менее 200 мс. Если ваш сайт загружается целую вечность, поисковые роботы не будут долго ждать и просто прекратят сканирование. К вашему сведению, максимально возможное время ожидания ответа в Netpeak Spider составляет 90 000 мс, и вы можете управлять этим показателем в основных настройках программы.

Подробнее о времени ответа сервера читайте в нашем посте.

6. Заблокировано из-за ошибки 'Too Many Requests'

Эта причина в большей степени относится к Netpeak Spider. На некоторых сайтах есть «защита» — код ответа сервера 429. Такой код появляется, когда пользователь отправил слишком много запросов к серверу за определённый промежуток времени. Вы можете самостоятельно выставить скорость сканирования в Netpeak Spider. Просто перейдите в «Настройки», выберите вкладку «Основные» и установите минимальное количество потоков или задержку между запросами. К тому же, вы можете использовать список прокси ↓

Основные настройки

Подводим итоги

Чтобы ваш сайт попал в поисковую выдачу, его должны просканировать поисковые роботы. Иногда это невозможно из-за:

  • инструкций индексации (robots.txt, Meta Robots, X-Robots-Tag);
  • неверного использования Canonical;
  • настроек авторизации;
  • блокировки в файле .htaccess;
  • чрезмерно долгого времени загрузки сайта;
  • блокировки сайта из-за слишком большого количества запросов.

Netpeak Spider может столкнуться с теми же проблемами во время сканирования вашего сайта, что и поисковые роботы. К счастью, их очень легко решить → несколько кликов в «Настройках», и вы можете увидеть свой сайт глазами поисковых роботов, перед тем как открыть его для них.

Расскажите в комментариях о проблемах, с которыми вы сталкивались при сканировании сайтов:)

Читайте этот пост наанглийском языке