Netpeak Spider 3.0: обзор улучшений

7
7

Наша компания выпустила новую версию инструмента Netpeak Spider 3.0 и ознаменовала его «Новой SEO-надеждой». Было внедрено более 300 различных изменений и вы уже наверняка прочли пост, в котором мы о них рассказывали. Более подробно о самых ключевых улучшениях программы рассказал CEO Netpeak Software Алекс Вайс в этом видео. Для тех, кому легче воспринимать текст, мы подготовили расшифровку. Воспользуйтесь кнопками для перехода к нужным разделам на Youtube ;)

Сравнение с Netpeak Spider 2.1

Перейти к этому разделу на Youtube

Давайте начнём со сравнения с конкурентами. Мне кажется, что один из важных конкурентов — это мы же в прошлом (версия 2.1). Мы сделали сравнение по потреблению оперативной памяти, памяти на жёстком диске и по длительности сканирования.

На небольших сайтах около 10 000 URL потребление оперативной памяти уменьшилось в 3 раза, а сканирование ускорилось «всего лишь» в 8 раз.

На больших сайтах около 100 000 страниц более интересные результаты: по оперативной памяти уменьшилось потребление примерно в 4 раза, а скорость сканирования ускорилась в 30 раз. Чем дольше сканирование, тем разрыв становится больше.

Коротко о главном

Перейти к этому разделу на Youtube

Давайте перейдём к блоку «Коротко о главном», в котором перечислены основные изменения.

Начнём с третьего пункта «Возможность продолжения сканирования после загрузки проекта». Запустим Netpeak Spider. Начнём сканирование сайта, например opera.com, потому что у него достаточно быстрый ответ сервера. К примеру, мы просканировали около 200-300 страниц. Можем остановить сканирование, продолжить расчёты, нажать «Сохранить проект».

Затем выходим из программы, запускаем её на следующий день заново, включаем и смотрим последние проекты. Вот этот сайт в проектах, которые мы сохраняли. Как видим, с трёхсотого URL сканирование продолжается дальше. Очень полезная функция, если вы сегодня заканчиваете свою работу, и нет времени пробивать дальше свой сайт. Вы можете спокойной остановить сканирование и продолжить его в любой другой день.

Эта функция ещё может быть полезна, если у вас недостаточно мощный компьютер, и вы подходите к лимиту оперативной памяти или памяти на жёстком диске. В таком случае вы можете сохранить проект, заархивировать его и передать на другой компьютер с более мощной конфигурацией и там досканировать до конца, если сайт очень большой.

Удаление URL из отчёта и перепробивка URL или спискa

Перейти к этому разделу на Youtube

Это достаточно похожие пункты, и сейчас я объясню почему. Мы пробили сайт и увидели ошибку «Дубликаты Title». Открываем эту ошибку и можем экспортировать отчёт. К примеру, мы передали отчёт разработчикам, указали в ТЗ, что именно нужно поменять. После того, как разработчики внедрили это изменение, вам скорее всего нужно перепроверить, всё ли в порядке. Так как вы только что только открыли «Дубликаты Title», есть маленький лайфхак — нажать правой кнопкой мыши на текущую таблицу и просто пересканировать всю таблицу. После этого сканирование будет именно по таблице с «Дубликатами Title». Как видим, ничего не изменилось.

Представим ситуацию, что мы проверяем 3xx редиректы и понимаем, что всё нормально — тут в принципе должны быть редиректы. Нажимаем правой кнопкой мыши «удалить URL» — и всё, он удаляется из отчёта. Также можно удалить все URL, которые есть в текущей таблице. В этом отчёте больше редиректов вообще нет.

Изменение параметров в ходе сканирования

Перейти к этому разделу на Youtube

Тут бывают две ситуации: когда нужно параметр добавить во время сканирования и когда убрать.

Давайте рассмотрим первую ситуацию, когда нужно добавить. Вы на середине пробивки, у вас 36 параметров из 52. Вдруг резко понадобились данные по параметру Keywords. Пробиваете сайт, останавливаете сканирование, после этого переходите во вкладку «Параметры», включаете Keywords и продолжаете сканировать далее. Конечно же, этот параметр не добавится к тем URL, которые уже были пробиты, но у всех остальных будет пробиваться. Давайте попробуем найти этот параметр. Как видите, у начальных URL его нет, но у тех, которые пробиваются сейчас, он есть.

Вы просканировали много страниц и понимаете, что на них не часто встречаются дубликаты Description, однако этот параметр занимает место в оперативной памяти. Вы останавливаете сканирование, заходите во вкладку «Параметры» и выбираете те, которые вам не нужны. При этом из таблицы данные исчезают, но из памяти — нет. И если в процессе работы вы включите этот параметр, то он останется у уже пробитых URL.

Сегментация данных и отчёт по структуре сайта

Перейти к этому разделу на Youtube

Два очень связанных изменения. Если вы когда-то работали в Google Analytics, то скорее всего сталкивались с понятием «сегмента».

Что делают сегменты? У вас есть определённый пул данных, он очень большой, и вы хотели бы узнать инсайты, просегментировав эти данные по определённому фильтру. Сегменты в Netpeak Spider работают точно так же.

Рассмотрим два противоположных кейса получения инсайтов с помощью Netpeak Spider.

Кейс первый

Нам нужно найти, на каких страницах сайта присутствуют критические ошибки (с уровнем «Высокая критичность»). Нажимаем на фильтр «Высокая критичность», применяем как сегмент. Таким образом, у нас в сегменте участвует 7,5% всех URL сайта. Переходим на вкладку «Структура сайта» и видим, что ошибки с высокой критичностью расположены на поддомене forums.opera.com, на основном домене сайта и т.д.

Кейс второй

Противоположный случай — когда мы хотим проанализировать исключительно поддомен forums.opera.com. Применим его, как сегмент, и увидим, что 61% URL находятся в сегменте. Переключаемся на ошибки и в итоге видим, какие именно ошибки есть в этой категории сайта.

Дашборд

Перейти к этому разделу на Youtube

По поводу дашборда интересная ситуация, ведь мы сделали два состояния. Одно в ходе сканирования показывает такие данные:

  • сколько просканировано в данном случае урлов,
  • сколько в очереди,
  • скорость сканирования,
  • информация по настройкам,
  • и ещё важная штука — режим.

В данный момент сканируется режим opera.com и его поддомены. Мы специально вывели этот режим, чтобы вы всегда были в курсе, как именно настроили сканирование. Очень часто клиенты не могут просканировать сайт, так как у них стоит определённый параметр, который блокирует сканирование (например весь сайт заблокирован в robots.txt).

Здесь вы можете увидеть:

  • режим, который используется,
  • User Agent,
  • какой анализируется контент,
  • какие правила индексации учитываются,
  • какие анализируются параметры,
  • статусы настроек, т.д.

Пока сканируется сайт, вам будет интересно знать, какие настройки применили, чтобы понимать, что получите в итоге.

Перейдём в режим окончания сканирования. Здесь мы получаем различные инсайты и диаграммы, а также другие интересные данные. К примеру, количество URL с важными ошибками (ошибки с высокой и средней критичностью) и индексируемые URL. Это новые показатели, которые дают понимание, какие именно URL принесут органический трафик на ваш сайт.

Таким образом, мы видим проиндексированные URL зелёного цвета и все остальные не-HTML URL. Дальше идёт разбивка по времени ответа сервера. Все пункты кликабельные, потому можете перейти по URL, которые отвечают очень медленно. Время ответа сервера URL больше 5 секунд — это очень плохо.

Экспорт 10 новых отчётов и 60+ отчётов об ошибках в два клика

Перейти к этому разделу на Youtube

Появилась вкладка «Экспорт», в которой вы можете в два клика выгрузить все отчёты, которые есть в программе, или отдельные отчёты о 60+ ошибках. Некоторые отчёты действительно специальные и уникальные.

Интересные отчёты: все ссылки, выгрузка ссылочной структуры у сайта, который был пробит, а также все ссылки между страницами и данные по парсингу, если вы парсили цены или комментарии. Отчёты по уникальным URL и анкорам — это отчёты, в которых сгруппированы полностью все ссылки по URL.

Специальные отчёты по каждой ошибке

Перейти к этому разделу на Youtube

Раньше вы нажимали на какой-то результат ошибки, и открывалась таблица со всеми столбиками, а сейчас — только нужные по этой ошибке столбцы, в нашем случае — «Дубликаты Title».

Если нужны все — нажмите кнопку и увидите все столбцы, которые есть. По умолчанию в «Экспорте» все ошибки выгружаются именно с такой структурой. Если хотите, можете перейти в «Настройки» → «Экспорт» → и по умолчанию не выгружать все столбцы.

Переработаны инструменты

Расчёт внутреннего PageRank

Перейти к этому разделу на Youtube

Я подготовил проект и пробил 1000 страниц сайта BBC. Запустим расчёт внутреннего PageRank. Достаточно быстро подсчитав, обнаружим, что табличка динамики сумм PageRank на нулевой итерации имеет вес 1.

После прохождения итерации мы видим, что сумма всех PageRank уже не 100%, а 84%. После следующей проходки — уже 62%. И с каждой итерацией ещё меньше. Это значит, что на сайте есть висячие узлы — URL, которые получают ссылочный вес, но не передают его дальше. Если избавиться от висячих узлов на сайте, то можно добиться суммы PageRank 100% на всех итерациях.

Валидатор XML Sitemap

Перейти к этому разделу на Youtube

Мы полностью переделали этот инструмент и сделали его отдельным. Давайте попробуем пробить карту сайта ebay.com. Это достаточно большая карта сайта — 22 000 URL. Можно поклацать по каждой ошибке и почитать в описании, что она значит. Дубликаты URL есть в одной и той же карте сайта. Для того, чтобы просканировать URL из карты сайта, перенесите их из таблицы и нажмите «Закрыть».

Анализ исходного кода и HTML-заголовков

Перейти к этому разделу на Youtube

Это тоже достаточно интересный инструмент. Теперь показывает в левой части таблички стандартную информацию. Так как приведённый URL редиректит, то мы не увидим информацию в поле «Исходный код» и «Извлечённый текст». Попробуем другой URL. Теперь у нас есть разграничения — это просто «Исходный код», по нему можно искать инсайты. И есть «Извлечённый текст» — это чистый текст, который есть на странице. Не нужно его путать с текстовой копией текста Google, мы работаем немного по-другому — показываем, какой текст есть на странице. Этот текст воспринимать намного приятнее и проще, чем в «Исходном коде».

Генератор Sitemap

Перейти к этому разделу на Youtube

Если у вас нет возможности сделать автоматическую генерацию карты сайта, или если хотите сэкономить время разработчиков, то вы можете просто просканировать сайт с помощью Netpeak Spider. Затем вы можете сгенерировать карту сайта, которая будет следовать рекомендациям Google и Яндекс. Можно указывать различные параметры, а если было пробито более 50 000 страниц, то данные будут разбиты на несколько файлов.

Кастомные шаблоны настроек, фильтров / сегментов и параметров

Перейти к этому разделу на Youtube

Наши пользователи давно просили внедрить возможность сохранять свои шаблоны. И наконец мы это сделали. Из интересных шаблонов — шаблоны настроек. Здесь у нас есть шаблоны по умолчанию, которые делаем мы. И также есть возможность сохранять свои собственные шаблоны.

Шаблоны влияют полностью на все вкладки, кроме «Экспорта», «Аутентификации» и «Прокси». Например, сделаем такой шаблон и нажмём «Сохранить». Введём название. И всё, шаблон сохранён, и его можно использовать в любой момент времени. Также мы сделали шаблоны по параметрам и преднастроенные шаблоны для максимально быстрой проверки сайта с минимальным количеством проверок. Мы рекомендуем режим «По умолчанию», потому что здесь включены все параметры, которые проверяют те ошибки, которые очень сильно влияют на продвижение сайта.

И для PageRank есть определённый набор параметров, которые влияют именно на него. Также вы можете сохранить свой шаблон и без проблем пользоваться им в любое время.

Третий вид шаблонов — в фильтрах. Если у вас есть какие-то фильтры, посвящённые определённому сайту, и вы их долго делали, то можно их спокойно сохранить и использовать в будущем. «Фильтры и сегменты» — для них существуют одни и те же шаблоны, потому что оба параметра нужны для фильтрации.

Возможность настроить виртуальный robots.txt

Перейти к этому разделу на Youtube

Если мы нажимаем галочку «Использовать виртуальный robots.txt», то вместо стандартного robots.txt, который есть на сайте в данный момент, мы используем именно этот файл. Вы можете прописать здесь любые настройки и инструкции, и они будут использоваться вместо стандартных. Может быть очень полезно, если вам нужно просто протестировать файл robots.txt.

Совмещение всех режимов сканирования в один

Перейти к этому разделу на Youtube

Очень интересное дополнение, немного сложное, но если вы привыкнете к нему, то будете очень довольны. Что мы имеем в виду: если вы в поле «Начальный URL» вводите определённый адрес сайта и нажимаете на «Старт», то вы говорите программе, что хотите просканировать этот сайт.

Если же вы, например, загружаете список URL-ов и нажимаете «Старт», то говорите программе, что просканировать нужно именно список URL-ов. Почему я сказал, что это достаточно сложно? Потому что допустим, вы сканируете один сайт, после этого хотите просканировать другой и нажимаете «Старт». И как видим, те 10 000 URL-ов, которые были предварительно просканированы, никуда не пропали из таблицы. То есть будет происходить сканирование opera.com со всеми поддоменами и ещё дополнительно списка URL-ов. Поэтому здесь нужно быть достаточно осторожными.

Таблица пропущенных при сканировании ссылок

Перейти к этому разделу на Youtube

Давайте попробуем просканировать сайт opera.com c включёнными настройками. Как видите, сразу же добавилась вкладка «Пропущенные URL». Она добавляется только тогда, когда пропущенные URL есть в отчёте. Здесь всего две колонки — URL и причина, по которой этот URL был проигнорирован программой. Например, содержит инструкцию noindex в Meta Robots.

Учёт данной инструкции был включён, то есть эта страница была проигнорирована именно из-за настройки, которая есть на вкладке «Продвинутые». Здесь может быть достаточно много причин: например, вы отключили настройку проверки какого-то типа файла, а Netpeak Spider нашёл ссылку на такой файл. Тогда он добавится в эту таблицу, и вы всегда будете в курсе, почему именно этот URL был проигнорирован.

Быстрый поиск по таблице

Перейти к этому разделу на Youtube

Если раньше для того, чтобы найти что-то в таблице, вам необходимо было постоянно вызывать «Фильтр» и выбирать URL, который содержит какое-то значение, то сейчас вы можете спокойно нажать на «Поиск», и вам будут найдены все URL, которые соответствуют запросу.

Будьте осторожны и внимательны, потому что быстрый поиск ищет по всем столбцам, которые есть в данном отчёте. Часто бывает так, что берёшь какой-то Title, и он оказывается на нескольких страницах, а не на одной.

Отложенный анализ тяжёлых данных

Перейти к этому разделу на Youtube

Очень важная вещь, благодаря которой нам получилось достичь высокой скорости сканирования. Мы убрали real-time подсчёты очень тяжёлых данных (например, «Входящие ссылки» или «Внутренний PageRank») и свели это всё в единый инструмент анализа, который запускается после продолжения сканирования. Если вдруг вам не хочется ждать, когда долго происходит подсчёт входящих ссылок после окончания сканирования или подсчёт PageRank, вы можете нажать «Отмена». Давайте попробуем. Нажимаем «Пауза» и видим, что начинаются подсчёты. Нажимаем «Отмена», и данные не добавлены в таблицу. Но после этого в любой момент времени, если вдруг вам понадобились входящие ссылки, вы просто нажимаете «Посчитать входящие ссылки», и этот анализ произойдёт отдельно, а данные появятся уже в таблице.

Новая вкладка «Параметры» с поиском и переходом к параметру в таблице

Перейти к этому разделу на Youtube

Так как мы панель «Параметры» вынесли из настроек, это теперь вообще отдельная панель, и здесь реализован поиск и разные полезные штуки. К примеру, вы можете нажать на параметр и в этой панели увидеть определённое описание того, какие ошибки будут находиться в этом параметре.

Из прикольных фишек: кроме поиска можно найти параметр и перейти к нему сразу в колонку, нажав на него. Таким образом, всегда можно поискать и получить переход к колонке. Полезная и удобная фишка :)

Мониторинг лимита памяти для сохранности данных

Перейти к этому разделу на Youtube

Новая версия программы теперь мониторит количество оперативной памяти и памяти на жёстком диске. Если вдруг вы подходите к лимиту (у нас это 128 Мбайт), то программа останавливается и выдаёт сообщение об этом. Программа посоветует сохранить проект и продолжить сканирование в другом месте или просто сохранить проект и поработать с ним позже.

Таким образом, мы сохраняем ваши данные. Если бы такого мониторинга не было, то программа могла бы вылететь, и данные бы пропали. Сейчас такого не будет происходить.

Конечно, есть и другие важные изменения, но сейчас я рассказал только о самых ключевых.

Сравнение с конкурентами

Перейти к этому разделу на Youtube

И в завершении давайте посмотрим небольшое сравнение с нашими конкурентами. Мы выделили определённых конкурентов и провели проверку на примере небольшого сайта (10 000 URL) и большого сайта (100 000 URL). На небольшом сайте, как видим, по оперативной памяти Netpeak Spider 3.0 показывает наилучший результат, а у ближайшего конкурента (SiteBulb) объём занимаемой памяти в 2 раза больше. Далее сравнили по памяти на жёстком диске, и здесь результаты некритичные. По длительности анализа примерно идём вровень с Screaming Frog SEO Spider в режиме Memory.

По большому сайту уже серьёзно видны наши преимущества. По оперативной памяти Netpeak Spider 3.0 занимает всего лишь 1014 Мбайт на 100 000 URL, а памяти на жёстком диске 259 Мбайт. У некоторых конкурентов она вообще не требуется, к примеру. По длительности анализа показали результат в 27 минут, что в 2 раза меньше, чем у ближайшего конкурента. Сравнение делали на одинаковых страницах одного и того же сайта на максимально похожих настройках, потому этот анализ достаточно честный с нашей стороны.

Спасибо за внимание, до встречи в новых выпусках, и да пребудет с вами Сила краулинга!

Читайте этот пост наанглийском языке