Netpeak Spider 2.1.0.7: Сканирование и определение ошибок XML Sitemap

2
5
2
5
Netpeak Spider 2.1.0.7: Сканирование и определение ошибок XML Sitemap
Обновления

Сегодня мы приготовили для вас необычное обновление, но перед тем как рассказать о нём, я хотел бы задать вам вопрос: каким образом вы обычно ставите задание программистам на создание XML-карты сайта?

Часто бывает так, что техническое задание включает в себя только список необходимых разделов/категорий/страниц и ссылки (например) на документацию Google «О файлах Sitemap» и Standard Sitemap Protocol. Потому возникает ещё один резонный вопрос: проверяли ли вы когда-нибудь реализацию файлов Sitemap со всех сторон, учитывая рекомендации поисковых систем и требования официального стандарта?

Именно об этом пойдёт речь в данном обзоре, потому присаживайтесь поудобнее – впереди много важной информации и приятных сюрпризов.

1. Сканирование по XML Sitemap


XML-карты сайта создаются для того, чтобы повысить вероятность индексации роботами поисковых систем тех страниц, которые им сложно найти при обычном краулинге сайта. А карты сайта имеют колоссальное значение, если речь идёт о больших порталах или интернет-магазинах. Потому в этом обновлении мы добавили новый режим сканирования под названием «По XML Sitemap», который позволяет быстро определить конечное количество URL, требующих проверки на ошибки. Таким образом мы заведомо избегаем затратных операций по сканированию сайта вглубь, когда мы не можем даже спрогнозировать, сколько всего на сайте страниц.

В рамках режима «По XML Sitemap» сканирование происходит таким образом:

  • 1 выделенный поток отдельно сканирует XML-карту сайта (это оправдано, так как они могут быть очень большими) и отдаёт все полученные URL остальным потокам
  • остальные потоки (их количество зависит от ваших настроек, по умолчанию их 5) уже проверяют все выбранные параметры и определяют ошибки в них

Обратите внимание, что при сканировании в данном режиме Netpeak Spider не идёт вглубь сайта, а проверяет только те URL, которые есть в указанной вами карте сайта → не допускайте того, чтобы в ней появлялись ссылки на 4xx ошибки, 3xx редиректы, неканонические URL и закрытые от индексации страницы.

Для того чтобы вам было удобно и просто работать с новым режимом сканирования, мы реализовали автоматическое определение типа Sitemap и адаптивную работу с этими данными. Всего Netpeak Spider умеет работать с 3 типами Sitemap:

  • файл XML Sitemap → стандартный XML-файл со списком конечных URL сайта
  • файл индекса XML Sitemap → XML-файл с перечислением всех стандартных XML-карт сайта
  • TXT Sitemap → да, такой формат также бывает :) в нём каждая строка должна содержать только один URL и все они должны начинаться с протокола (http / https)

Таким образом, после выбора режима сканирования «По XML Sitemap» вы просто вбиваете URL, а Netpeak Spider уже сам подстраивает дальнейшую работу в зависимости от типа указанного файла.

После окончания сканирования самой карты сайта, по умолчанию автоматически откроется окно «Обзор XML Sitemap» (автоматическое открытие вы можете настраивать с помощью соответствующей галочки как внутри окна, так и в обычных настройках программы на вкладке «Основные»). В этом окне вы увидите результаты сканирования, а также несколько приятных фишек, детальное описание которых представлено ниже.

2. Определение ошибок в XML Sitemap


«Обзор XML Sitemap» представляет собой уникальный отчёт, очень похожий на основной интерфейс программы: здесь слева привычная таблица с результатами сканирования, а справа – блок с ошибками карты сайта. Ошибки, представленные в этом отчёте, определяются на основе официальной документации Standard Sitemap Protocol и схем валидации для файлов Sitemap и для файлов индекса Sitemap, которые поддерживаются поисковыми системами Google, Bing, Yahoo! и Yandex.

Всего происходит определение более 20 видов ошибок карты сайта, среди которых:

  • основные ошибки файлов Sitemap → начиная от запрещённых URL и ошибок перекрёстной отправки, заканчивая максимальным количеством URL в карте сайта или её размером. Наведите на любую ошибку, чтобы увидеть подсказку, как именно она определяется.
  • ошибки валидации → здесь проверка происходит по указанным выше схемам валидации и её результатом является лог ошибок с критичностью «Error» (высокая) или «Warning» (средняя): подобные ошибки мы советуем передавать напрямую разработчикам анализируемого сайта. Чтобы просмотреть эти ошибки, откройте дополнительную таблицу двойным нажатием левой кнопки мыши на соответствующем значении в колонке «Ошибки валидации».

Обратите внимание на одну из самых распространённых ошибок, которая касается местоположения файла Sitemap – грубо говоря, протокол (http / https), поддомен (www / без www) и каталог файла (например, http://example.com/blog/sitemap.xml) очень сильно влияют на то, какие URL можно добавлять в этот файл Sitemap. Адреса, которые не прошли данную проверку, будут помечены ошибкой «Запрещённые URL» (в таблице в соответствующих строках будет отметка «Disallowed» в колонке «Статус») и не будут дальше сканироваться вообще.

Эта принципиальная позиция продиктована официальным стандартом, который гласит, что подобные URL полностью исключаются из дальнейшего рассмотрения из соображений безопасности. Например:

  • если полномочия доступа в вашей организации установлены таким образом, что доступ с правом записи к различным каталогам предоставляется отдельно → в таком случае каждый файл Sitemap, расположенный в определённом каталоге сайта, должен описывать только те адреса, которые находятся в этом же каталоге;
  • если вам необходимо на одном хосте разместить файл Sitemap, который будет указывать на другой хост, то вам понадобится подтвердить право управления тем хостом с помощью файла robots.txt, чтобы избежать ошибки «перекрёстной отправки».

Если после вашей проверки были обнаружены ошибки в Sitemap, то скорее их исправляйте! А после успешного исправления двигайтесь к следующему пункту.

3. Отправка файла Sitemap поисковым системам


Всего есть 3 способа передать информацию поисковой системе, что у вас есть Sitemap:

  • добавить ссылку на файл в вебмастер-панель определённой поисковой системы;
  • указать в файле robots.txt ссылку на соответствующий файл(-ы);
  • отправить напрямую поисковой системе с помощью HTTP-запроса.

Именно последний способ мы реализовали в новой версии Netpeak Spider, потому что надеемся, что первыми двумя способами вы уже сами воспользовались.

Этот HTTP-запрос легче называть «Ping» – с его помощью мы можем отправить ссылку на вашу карту сайта в поисковые системы Google, Bing и Yandex, предварительно проверив, не заблокирован ли доступ к указанному файлу Sitemap в robots.txt. Если ваш анализируемый сайт регулярно обновляется вместе с картой сайта, проверяйте её так же регулярно и отправляйте «Ping» поисковым системам, чтобы новые страницы проиндексировались быстрее.

Коротко о главном

Нам в кратчайшие сроки удалось реализовать уникальный инструмент, который поможет вам:

  • проверить файл Sitemap на ошибки;
  • проверить все URL из файла Sitemap на ошибки;
  • исправить все найденные ошибки (разумеется, это вы делаете самостоятельно);
  • после исправления перепроверить первых два пункта;
  • отправить обновлённый файл Sitemap напрямую поисковым системам.

На этом мы не останавливаемся и уже готовим для вас долгожданную фишку, о которой расскажем в самое ближайшее время → следите за обновлениями!

Читайте этот пост наанглийском языке