Netpeak Spider 2.1.1.3: Генерация Sitemap

7
7
Netpeak Spider 2.1.1.3: Генерация SitemapОбновления

Коллеги, в этом посте мы подготовили для вас обзор новой фичи Netpeak Spider, а также чёткую инструкцию, как работать с файлами Sitemap. А в качестве десерта мы покажем список небольших изменений, которые сделают работу с программой более безопасной и интуитивно понятной.

1. Инструмент генерации файлов Sitemap

Новый инструмент позволяет генерировать следующие файлы Sitemap:

  • XML Sitemap → стандартный файл Sitemap, содержащий только ссылки на просканированные страницы и генерируемый на основе официальной документации Standard Sitemap Protocol.
  • Image Sitemap → файл, содержащий как ссылки на просканированные страницы, так и ссылки на все изображения, которые присутствуют на этих страницах. Если на странице нет изображений, то ссылка на такую страницу не попадает в Image Sitemap. Более подробно про файлы Sitemap для изображений вы сможете прочитать по этой ссылке.
  • HTML Sitemap (содержимое) → специальный html-файл, который содержит список ссылок на все просканированные страницы и позволяет встроить карту в соответствующий раздел сайта.
  • TXT Sitemap → текстовая карта сайта с аналогичным списком ссылок на все просканированные страницы сайта: менее популярный, но всё такой же актуальный способ помочь поисковым системам в полной мере проиндексировать ваш сайт.

При генерации файлов Sitemap вы можете столкнуться с некоторыми вопросами, потому мы постарались заранее на них ответить:

✔ Какие страницы добавляются в Sitemap?

В финальную карту сайта добавляются URL, которые соответствуют следующим условиям:

  • HTML или PDF файлы с кодом ответа строго «200 OK»;
  • доступ разрешён в файле robots.txt;
  • тег Canonical отсутствует или указывает на этот же URL;
  • Meta Refresh отсутствует или указывает на этот же URL;
  • разрешена индексация в X-Robots-Tag или Meta Robots (index);
  • разрешён переход по ссылкам в X-Robots-Tag или Meta Robots (follow).

✔ Как обрабатываются поддомены?

Согласно официальному стандарту каждая отдельная карта сайта должна содержать ссылки только на один хост. Поэтому мы реализовали возможность как сгенерировать Sitemap для всех поддоменов (при этом каждый файл будет относиться только к своему поддомену), так и выбрать отдельный поддомен и сгенерировать карту сайта только для него.

✔ Есть ли какие-то настройки генерации?

Да, есть, но их специально немного, чтобы дать возможность сгенерировать файлы всего в несколько кликов.

  • Только URL на вкладке «Все результаты» / «Фильтры» → позволяет очень гибко работать с генерацией, так как можно применить определённый фильтр к результатам и сгенерировать карту сайта только для данного фильтра.
  • Дата последнего изменения → параметр «lastmod», который указывает поисковым системам на то, необходимо ли ещё раз индексировать страницу или контент страницы не изменялся. Параметр можно не указывать, брать из поля «Last-Modified» или задать вручную для всех URL.
  • Частота изменений → параметр «changefreq», который указывает поисковым системам на то, насколько часто меняется контент на соответствующих страницах. Параметр можно не указывать или выбрать одно из стандартных значений.
  • Приоритет → параметр «priority», позволяющий разместить рекомендацию для роботов поисковых систем, что какие-то URL необходимо проиндексировать / переиндексировать в первую очередь. Параметр можно не указывать, однако есть возможность выставить приоритет, основанный на количестве входящих ссылок (в этом случае самые популярные страницы получат высокий приоритет) или основанный на количестве исходящих ссылок (в этом случае появляется возможность увеличить скорость индексации сайта, так как самый высокий приоритет будет отдан страницам, которые содержат больше всего внутренних ссылок).
  • Сжатие в .gz архив (только для XML Sitemap, Image Sitemap и TXT Sitemap) → мы настоятельно рекомендуем включать данную функцию, так как она значительно снижает вес генерируемых файлов, а следовательно и нагрузку на ваш сервер.
  • Источник текстов ссылок (только для HTML Sitemap) → в качестве текста ссылки (анкора) вы можете выбрать URL, тег Title или заголовок h1. Разумеется, для использования соответствующих параметров, они должны быть включены в настройках сканирования.
  • Деление файлов на части по количеству URL (только для HTML Sitemap) → функция даёт возможность разбить весь список страниц на несколько файлов по 100, 500 или 1000 URL в каждом.

✔ Что я получу в результате генерации?

В итоге вы получите папку, в которой удобно сложены файлы с теми Sitemap, которые вы хотели сгенерировать. Каждый файл уже назван соответствующим образом. Файлы XML Sitemap и Image Sitemap минифицируются, чтобы занимать меньше места и вмещать больше URL. При этом сортировка внутри файлов идёт по сегментам в URL, т.е. в первую очередь идут страницы с минимальным количеством сегментов.

Также следует отметить, что Netpeak Spider автоматически рассчитывает, когда необходимо создать файлы индекса Sitemap. В этом случае будут отдельно созданы файлы индекса, которые будут содержать ссылки на стандартные XML-карты сайта.

✔ А вы уже учли изменения в официальном стандарте?

Да, программа учитывает последнее изменение в стандарте и генерирует файлы с новым ограничением по весу до 50 Мбайт. Ссылки на официальный стандарт и соответствующий твит от Google Webmasters.

Если у вас возникли вопросы, на которые мы не ответили – обязательно задавайте их в комментариях! :)

2. Инструкция по работе с XML Sitemap

С реализацией нового инструмента мы наконец добились покрытия всего цикла работы с файлами Sitemap. По этому поводу мы подготовили для вас инструкцию, как быстро создать и проверить XML-карту сайта в Netpeak Spider:

2.1. Сканирование сайта

  • выбрать режим сканирования «По всему сайту»;
  • снять все галочки на вкладке «Основные» настроек сканирования → таким образом сканирование будет проходить максимально быстро и только для основного хоста;
  • оставить выбранными только обязательные параметры на вкладке «Параметры» настроек сканирования → просто нажмите на чекбокс «Параметры» и все лишние галочки уберутся сами;
  • установить настройки по умолчанию на вкладке «Продвинутые»;
  • просканировать сайт.

2.2. Генерация

  • перейти в верхней части программы в меню «Инструменты» → «Генерация Sitemap»;
  • выбрать только галочку «XML Sitemap»;
  • выбрать подходящую частоту изменений (даёт рекомендацию поисковым системам, может снизить нагрузку на сервер);
  • нажать кнопку «Сгенерировать»;
  • выбрать папку, в которой будут расположены файлы и нажать «OK».

2.3. Загрузка

  • после генерации скопировать файлы из папки «XML Sitemap» в корневую папку сайта на сервере;
  • добавить в файл robots.txt директиву «Sitemap» с адресом загруженной карты сайта типа https://example.com/sitemap.xml или https://example.com/sitemap-index.xml в случае файла индекса Sitemap.

2.4. Проверка

  • выбрать режим сканирования «По XML Sitemap»;
  • ввести адрес загруженной карты сайта или файла индекса Sitemap;
  • нажать кнопку «Старт»;
  • открыть окно «Обзор XML Sitemap» (по умолчанию оно открывается автоматически);
  • убедиться, что ошибок в карте сайта нет (ещё раз обращаем ваше внимание, что каждая карта сайта должна содержать ссылки только на один определённый хост и находиться этот Sitemap должен в корневой папке данного хоста).

2.5. Отправка в поисковые системы

  • перейти на вкладку «Ping поисковых систем» в правой панели окна «Обзор XML Sitemap»;
  • выбрать необходимые поисковые системы и нажать кнопку «Отправить Sitemap»;
  • также настоятельно рекомендуем добавить ссылку на сгенерированную карту сайта во все необходимые панели для вебмастеров (Google Search Console, Яндекс.Вебмастер, Bing Webmaster).

3. Другие улучшения

В данном релизе мы также подготовили несколько изменений, которые не видны с первого взгляда, но делают работу программы более логичной и безопасной:

  • Добавлен новый параметр «Last-Modified», который отвечает за дату и время последнего изменения файла и используется в инструменте генерации Sitemap (если включить соответствующую функцию).
  • Мы столкнулись с тем, что при сканировании большого количества страниц, автоматический расчёт внутреннего PageRank, который работает после приостановки или завершения сканирования, мог вызывать проблемы с потреблением оперативной памяти, потому нами было принято решение ограничить автоматический расчёт только 10 000 результатов, то есть если результатов больше, то внутренний PageRank автоматически считаться не будет – только с помощью соответствующего инструмента.
  • В режимах сканирования «По списку URL», «По XML Sitemap» и «По выдаче Google» полностью отменено влияние ограничений (по количеству страниц и по глубине сканирования) и исключений (инструкции robots.txt, Meta Robots, правила сканирования и т.д.) – в итоге если вы используете данные режимы сканирования, то можете быть уверены, что полностью все страницы будут добавляться в результаты и никакие URL не пропадут просто так.
  • Изменён дизайн кнопки «Быстрые настройки», чтобы ещё больше привлечь ваше внимание к этому блоку – помните, что эти настройки вы можете менять прямо в ходе сканирования.

Коротко о главном

Друзья, в Netpeak Spider 2.1.1.3 мы реализовали инструмент генерации карт сайта: XML, Image, HTML и даже TXT Sitemap. Теперь программа покрывает весь цикл работы с файлами Sitemap: вы можете просканировать сайт, сгенерировать необходимые карты, проверить сгенерированные файлы и, после успешной проверки, отправить их прямо в поисковые системы.

Уже совсем скоро мы расскажем вам о новой фиче в Netpeak Spider, которая закроет сезон крупных обновлений этой программы и позволит нам немного отдохнуть… а отдыхать мы будем, разрабатывая новую версию Netpeak Checker! :)

Читайте этот пост наанглийском языке