Netpeak Spider 2.1.1.3: Генерация Sitemap

Alex Wise shared this announcement 1 year ago

Netpeak Spider 2.1.1.3: Генерация Sitemap

Коллеги, в этом посте мы подготовили для вас обзор новой фичи Netpeak Spider, а также чёткую инструкцию, как работать с файлами Sitemap. А в качестве десерта мы покажем список небольших изменений, которые сделают работу с программой более безопасной и интуитивно понятной.

1. Инструмент генерации файлов Sitemap

Новый инструмент позволяет генерировать следующие файлы Sitemap:

  • XML Sitemap → стандартный файл Sitemap, содержащий только ссылки на просканированные страницы и генерируемый на основе официальной документации Standard Sitemap Protocol.
  • Image Sitemap → файл, содержащий как ссылки на просканированные страницы, так и ссылки на все изображения, которые присутствуют на этих страницах. Если на странице нет изображений, то ссылка на такую страницу не попадает в Image Sitemap. Более подробно про файлы Sitemap для изображений вы сможете прочитать по этой ссылке.
  • HTML Sitemap (содержимое) → специальный html-файл, который содержит список ссылок на все просканированные страницы и позволяет встроить карту в соответствующий раздел сайта.
  • TXT Sitemap → текстовая карта сайта с аналогичным списком ссылок на все просканированные страницы сайта: менее популярный, но всё такой же актуальный способ помочь поисковым системам в полной мере проиндексировать ваш сайт.

⚠ Наведя курсор на видео, вы сможете перейти в полноэкранный режим, остановить или перемотать его с помощью соответствующих кнопок

При генерации файлов Sitemap вы можете столкнуться с некоторыми вопросами, потому мы постарались заранее на них ответить:

✔ Какие страницы добавляются в Sitemap?

В финальную карту сайта добавляются URL, которые соответствуют следующим условиям:

  • HTML или PDF файлы с кодом ответа строго «200 OK»
  • доступ разрешён в файле robots.txt
  • тег Canonical отсутствует или указывает на этот же URL
  • Meta Refresh отсутствует или указывает на этот же URL
  • разрешена индексация в X-Robots-Tag или Meta Robots (index)
  • разрешён переход по ссылкам в X-Robots-Tag или Meta Robots (follow)

✔ Как обрабатываются поддомены?

Согласно официальному стандарту каждая отдельная карта сайта должна содержать ссылки только на один хост. Поэтому мы реализовали возможность как сгенерировать Sitemap для всех поддоменов (при этом каждый файл будет относиться только к своему поддомену), так и выбрать отдельный поддомен и сгенерировать карту сайта только для него.

✔ Есть ли какие-то настройки генерации?

Да, есть, но их специально немного, чтобы дать возможность сгенерировать файлы всего в несколько кликов.

  • Только URL на вкладке «Все результаты» / «Фильтры» → позволяет очень гибко работать с генерацией, так как можно применить определённый фильтр к результатам и сгенерировать карту сайта только для данного фильтра.
  • Дата последнего изменения → параметр «lastmod», который указывает поисковым системам на то, необходимо ли ещё раз индексировать страницу или контент страницы не изменялся. Параметр можно не указывать, брать из поля «Last-Modified» или задать вручную для всех URL.
  • Частота изменений → параметр «changefreq», который указывает поисковым системам на то, насколько часто меняется контент на соответствующих страницах. Параметр можно не указывать или выбрать одно из стандартных значений.
  • Приоритет → параметр «priority», позволяющий разместить рекомендацию для роботов поисковых систем, что какие-то URL необходимо проиндексировать / переиндексировать в первую очередь. Параметр можно не указывать, однако есть возможность выставить приоритет, основанный на количестве входящих ссылок (в этом случае самые популярные страницы получат высокий приоритет) или основанный на количестве исходящих ссылок (в этом случае появляется возможность увеличить скорость индексации сайта, так как самый высокий приоритет будет отдан страницам, которые содержат больше всего внутренних ссылок).
  • Сжатие в .gz архив (только для XML Sitemap, Image Sitemap и TXT Sitemap) → мы настоятельно рекомендуем включать данную функцию, так как она значительно снижает вес генерируемых файлов, а следовательно и нагрузку на ваш сервер.
  • Источник текстов ссылок (только для HTML Sitemap) → в качестве текста ссылки (анкора) вы можете выбрать URL, тег Title или заголовок h1. Разумеется, для использования соответствующих параметров, они должны быть включены в настройках сканирования.
  • Деление файлов на части по количеству URL (только для HTML Sitemap) → функция даёт возможность разбить весь список страниц на несколько файлов по 100, 500 или 1000 URL в каждом.

✔ Что я получу в результате генерации?

В итоге вы получите папку, в которой удобно сложены файлы с теми Sitemap, которые вы хотели сгенерировать. Каждый файл уже назван соответствующим образом. Файлы XML Sitemap и Image Sitemap минифицируются, чтобы занимать меньше места и вмещать больше URL. При этом сортировка внутри файлов идёт по сегментам в URL, т.е. в первую очередь идут страницы с минимальным количеством сегментов.

Также следует отметить, что Netpeak Spider автоматически рассчитывает, когда необходимо создать файлы индекса Sitemap. В этом случае будут отдельно созданы файлы индекса, которые будут содержать ссылки на стандартные XML-карты сайта.

✔ А вы уже учли изменения в официальном стандарте?

Да, программа учитывает последнее изменение в стандарте и генерирует файлы с новым ограничением по весу до 50 Мбайт. Ссылки на официальный стандарт и соответствующий твит от Google Webmasters.

Если у вас возникли вопросы, на которые мы не ответили – обязательно задавайте их в комментариях! :)

2. Инструкция по работе с XML Sitemap

С реализацией нового инструмента мы наконец добились покрытия всего цикла работы с файлами Sitemap. По этому поводу мы подготовили для вас инструкцию, как быстро создать и проверить XML-карту сайта в Netpeak Spider:

2.1. Сканирование сайта

  • выбрать режим сканирования «По всему сайту»
  • снять все галочки на вкладке «Основные» настроек сканирования → таким образом сканирование будет проходить максимально быстро и только для основного хоста
  • оставить выбранными только обязательные параметры на вкладке «Параметры» настроек сканирования → просто нажмите на чекбокс «Параметры» и все лишние галочки уберутся сами
  • установить настройки по умолчанию на вкладке «Продвинутые»
  • просканировать сайт

2.2. Генерация

  • перейти в верхней части программы в меню «Инструменты» → «Генерация Sitemap»
  • выбрать только галочку «XML Sitemap»
  • выбрать подходящую частоту изменений (даёт рекомендацию поисковым системам, может снизить нагрузку на сервер)
  • нажать кнопку «Сгенерировать»
  • выбрать папку, в которой будут расположены файлы и нажать «OK»

2.3. Загрузка

  • после генерации скопировать файлы из папки «XML Sitemap» в корневую папку сайта на сервере
  • добавить в файл robots.txt директиву «Sitemap» с адресом загруженной карты сайта типа https://example.com/sitemap.xml или https://example.com/sitemap-index.xml в случае файла индекса Sitemap

2.4. Проверка

  • выбрать режим сканирования «По XML Sitemap»
  • ввести адрес загруженной карты сайта или файла индекса Sitemap
  • нажать кнопку «Старт»
  • открыть окно «Обзор XML Sitemap» (по умолчанию оно открывается автоматически)
  • убедиться, что ошибок в карте сайта нет (ещё раз обращаем ваше внимание, что каждая карта сайта должна содержать ссылки только на один определённый хост и находиться этот Sitemap должен в корневой папке данного хоста)

2.5. Отправка в поисковые системы

  • перейти на вкладку «Ping поисковых систем» в правой панели окна «Обзор XML Sitemap»
  • выбрать необходимые поисковые системы и нажать кнопку «Отправить Sitemap»
  • также настоятельно рекомендуем добавить ссылку на сгенерированную карту сайта во все необходимые панели для вебмастеров (Google Search Console, Яндекс.Вебмастер, Bing Webmaster)

3. Другие улучшения

В данном релизе мы также подготовили несколько изменений, которые не видны с первого взгляда, но делают работу программы более логичной и безопасной:

  • добавлен новый параметр «Last-Modified», который отвечает за дату и время последнего изменения файла и используется в инструменте генерации Sitemap (если включить соответствующую функцию)
  • мы столкнулись с тем, что при сканировании большого количества страниц, автоматический расчёт внутреннего PageRank, который работает после приостановки или завершения сканирования, мог вызывать проблемы с потреблением оперативной памяти, потому нами было принято решение ограничить автоматический расчёт только 10 000 результатов, то есть если результатов больше, то внутренний PageRank автоматически считаться не будет – только с помощью соответствующего инструмента
  • в режимах сканирования «По списку URL», «По XML Sitemap» и «По выдаче Google» полностью отменено влияние ограничений (по количеству страниц и по глубине сканирования) и исключений (инструкции robots.txt, Meta Robots, правила сканирования и т.д.) – в итоге если вы используете данные режимы сканирования, то можете быть уверены, что полностью все страницы будут добавляться в результаты и никакие URL не пропадут просто так
  • изменён дизайн кнопки «Быстрые настройки», чтобы ещё больше привлечь ваше внимание к этому блоку – помните, что эти настройки вы можете менять прямо в ходе сканирования

Коротко о главном

Друзья, в Netpeak Spider 2.1.1.3 мы реализовали инструмент генерации карт сайта: XML, Image, HTML и даже TXT Sitemap. Теперь программа покрывает весь цикл работы с файлами Sitemap: вы можете просканировать сайт, сгенерировать необходимые карты, проверить сгенерированные файлы и, после успешной проверки, отправить их прямо в поисковые системы.

Уже совсем скоро мы расскажем вам о новой фиче в Netpeak Spider, которая закроет сезон крупных обновлений этой программы и позволит нам немного отдохнуть… а отдыхать мы будем, разрабатывая новую версию Netpeak Checker! :)

Читайте обзор предыдущего обновления: Netpeak Spider 2.1.1.2: Расчёт внутреннего PageRank

Comments (7)

photo
5

Большое спасибо, просил об этом на серче, но не ожидал, что так быстро!

photo
3

Спасибо за приятные слова :) Мы стараемся для вас!

photo
photo
3

ммм. не совсем понятен инструмент в плане эффективности использования. Получается каждый раз при добавлении новой страницы, необходимо заново вручную генерировать карту. Зачем?)

photo
2

В большинство движков действительно встроены инструменты генерации sitemap, но когда сайт большой, или товаров много, или нет такого инструмента, или хостинг не позволяет даже у среднего размера сайта выполнить генерацию из-за ограничений срока выполнения скриптов - такой инструмент очень полезен. У меня большой магазин, я как раз сегодня нашёл платный модуль для генерации карты при большом числе товаров, но пока отложу покупку :)

photo
2

так если ресурсы хостинга слабые, то он даже при парсинге нетспиком в 5-10 потоков будет тормозить и большой сайт сканироваться будет очень долго. Для большого сайта нужны соответствующие ресурсы и, тем более, автогенерация карты, т.к. движение товаров/страниц/категорий etc. происходит ежедневно.

Не спорю, возможно кому-то это будет полезно, но по-моему не рационально делать вручную то, что можно автоматизировать без усилий))

photo
5

Владимир, спасибо за комментарий: основная проблема в том, что вы пишите – это как раз сделать автоматизацию генерации Sitemap "без усилий".

Я думаю, что вы знаете и понимаете, что не каждый проект может позволить себе сделать автогенерацию всех карт сайта: XML, Image, HTML. Где-то проблема в недостаточных знаниях разработчика, где-то непонимание владельца сайта, чем автогенерация может быть выгодна (а именно владелец сайта должен заплатить разработчику за эту доработку) и т.д.

Таким образом, перед нами встала задача: а как сделать так, чтобы не нужно было в принципе просить разработчика что-либо делать (ну кроме как загрузить файл на сервер – это не должно быть затратно по времени)?

И, вуаля, наш новый инструмент, который покрывает весь цикл работ по Sitemap: сканирует сайт, генерирует нужные файлы, проверяет эти файлы на ошибки и даже отправляет в поисковые системы. И, что очень важно, инструмент помогает улучшить индексацию сайта (в принципе, зачем и нужны файлы Sitemap).

Я полностью с вами согласен, что автогенерация Sitemap, грубо говоря, раз в сутки – это системное и лучшее решение, что можно придумать, однако только используя такие программы как Netpeak Spider, можно быть уверенным, что:

  • сгенерируется именно то, что вы выбрали – есть множество удобных настроек (которые отдельный разработчик сайта долго бы внедрял);
  • формат файлов Sitemap будет правильным и соответствовать стандартам – мы за этим следим;
  • вы всегда сможете исключить некоторые разделы сайта из генерации – всё это с помощью правил сканирования или фильтров после завершения сканирования.

photo
4

А насчёт большой нагрузки на сервер – опять же, у нас есть настройки, которые позволяют достаточно системно решать проблему с нагрузкой:

  • стандартная настройка «количество потоков» – которую вы можете менять вообще во время сканирования, тем самым понимая, какое количество самое оптимальное, чтобы хостинг выдерживал;
  • при 1 потоке «задержка между запросами» – которую можно выставить в достаточно большое значение.

Но как бы там ни было, лучше решать проблему с хостингом не уменьшая количество потоков в генераторах Sitemap, а выбирая другой лучший хостинг :)

photo