Netpeak Spider 2.1.1.2: Расчёт внутреннего PageRank

6
70
6
70
Netpeak Spider 2.1.1.2: Расчёт внутреннего PageRank
Обновления

Коллеги, наконец мы готовы представить вашему вниманию революционную функцию Netpeak Spider – расчёт внутреннего PageRank! От старого механизма расчёта ничего не осталось, а для внедрения нового мы были вынуждены провести предыдущий релиз, который в корне поменял алгоритм сканирования внутри программы. Мы подготовили для вас этот пост-инструкцию, к которому вы сможете вернуться прямо из интерфейса нового инструмента расчёта внутреннего PageRank.

Что такое PageRank

PageRank – это относительный вес страницы, рассчитанный по формуле:

PR (A) = (1 - d) / N + d * (PR(B) / L(B) + PR(C) / L(C) + ...)

где:

  • N – общее количество активных узлов (страниц), участвующих в расчёте;
  • d – коэффициент затухания (обычно используется значение 0,85);
  • L – количество исходящих ссылок.

Принято считать, что на нулевой (0) итерации PageRank каждой страницы одинаковый и равен 1 / N. На следующих итерациях используется вес всех входящих ссылок, который представляет собой вес с предыдущей итерации делённый на количество исходящих ссылок (в формуле – L).

Специально для вас мы подготовили несколько таблиц, которые наглядно показывают работу алгоритма:

Пример с идеальным сайтомПример с реальным сайтом

Google рассчитывает этот параметр для каждой страницы в сети Интернет, а Netpeak Spider позволяет посчитать внутренний PageRank, который ограничивается данными просканированного сайта или списка URL.

Зачем считать внутренний PageRank

Данная функция является революционной как минимум потому, что позволяет узнать настоящие инсайты о вашем проекте:

1. Понимайте, как именно распределяется ссылочный вес по сайту и где он концентрируется.

2. Определяйте, какие неважные для поискового продвижения страницы получают избыточный вес.

3. Знайте, какие страницы являются «висячими узлами» и просто-напросто «сжигают» входящий ссылочный вес.

Если предположить, что на ваш сайт ведут внешние ссылки, то только представьте себе, сколько бюджета на SEO-продвижение можно сэкономить, внедрив более эффективную схему внутренней перелинковки.

Как рассчитать внутренний PageRank

В Netpeak Spider предусмотрено 2 способа расчёта внутреннего PageRank:

1. Автоматический

Просто выберите специальный параметр «Внутренний PageRank» в настройках сканирования на вкладке «Параметры» и он будет рассчитываться автоматически во время приостановки процесса сканирования или после его успешного завершения.

Обратите внимание, что для расчёта этого показателя обязательно необходимо включить параметр «Исходящие ссылки», так как именно исходящие ссылки являются основой для получения ссылочных связей, без которых посчитать внутренний PageRank не получится.

2. Ручной (с помощью отдельного инструмента)

Для вызова специального инструмента перейдите в меню «Инструменты» → «Расчёт внутреннего PageRank».

Здесь вы увидите следующие блоки:

2.1. Настройки, которые также используются и для автоматического способа расчёта:

  • количество итераций [от 5 до 50] → большее количество итераций обеспечивает более высокую точность расчётов, однако по нашим наблюдениям около 15 итераций является наиболее подходящим значением, позволяя быстро получить необходимый результат, поэтому в Netpeak Spider установлено 15 итераций по умолчанию;
  • только внутренние ссылки → настройка, позволяющая отключить влияние всех внешних исходящих ссылок на расчёты;
  • только ссылки на вкладке [Все результаты] / [Фильтры] → настройка, позволяющая ограничить расчёты только теми ссылками, которые находятся на соответствующих вкладках: используйте [Фильтры] в тех случаях, когда вам необходимо рассчитать PageRank только внутри определённой категории анализируемого сайта;
  • режим отображения результатов → «Реальный» показывает точные значения PageRank, но может быть неудобным для сайтов с большим количеством страниц; «Адаптивный» режим даёт возможность увидеть те же данные, но умноженные на специальный коэффициент, позволяя удобно работать с большими сайтами.

Обратите внимание, что если вы одновременно отключите галочки «только внутренние ссылки» и «только ссылки на вкладке [Все результаты] / [Фильтры]», то Netpeak Spider при расчётах начнёт загружать и анализировать все исходящие ссылки со всех просканированных страниц. В этом случае в отчёте могут появиться ссылки со статус-кодом «Not Crawled» (не просканированы) – это необходимо для того, чтобы максимально правильно рассчитать внутренний PageRank, основываясь на актуальных исходящих ссылках.

2.2. Формула, по которой считается внутренний PageRank, а также вышеуказанные параметры N, d и ссылка на эту статью.

2.3. Список игнорируемых URL: вы можете добавить ссылку в этот список, что позволит полностью исключить её из анализа PageRank. Данная функция позволяет очень гибко работать с расчётами, меняя внутреннюю перелинковку прямо в программе.

Обратите внимание, что исключается не отдельная ссылка на определённой странице, а весь узел: представьте себе, что нет ни одной ссылки на эту страницу со всего сайта (входящие ссылки) и ни одной ссылки с этой страницы на другие страницы сайта (исходящие ссылки).

2.4. Экспорт данных из таблицы в файл в формате CSV / Excel.

2.5. Результирующая таблица, которая содержит следующие столбцы:

  • блок «Страницы» → порядковый номер (#) и ссылка на страницу;
  • блок «Итерации» → после запуска расчётов здесь будут появляться соответствующие столбцы с данными по каждой итерации;
  • блок «Взаимосвязи» → здесь показывается количество исходящих и входящих ссылок, которые можно открыть двойным нажатием левой кнопки мыши или вызвав контекстное меню: специально для вас был разработан удобный просмотр этих отчётов с возможностью переходить вглубь и возвращаться с помощью привычных кнопок «Назад» / «Вперёд», получая полный доступ к графу связей;
  • блок «Алгоритмический анализ» → здесь собраны параметры, которые определяются именно с помощью алгоритма PageRank, а именно «Статус ссылки» (подробнее об этом параметре читайте ниже) и «Конечная ссылка» – показывается в тех случаях, если в результате работы алгоритма было найдено перенаправление;
  • блок «Основные параметры» → позволяет увидеть код ответа сервера и тип контента соответствующих страниц;
  • блок «Параметры индексации» → объединяет параметры, которые критично влияют на распределение ссылочного веса на сайте: инструкции из Robots.txt, Canonical, X-Robots-Tag, Meta Robots, а также конечный URL редиректа и тег Refresh, если они присутствуют на странице.

В нижней части таблицы подсчитывается «Сумма всех PageRank» → на каждой итерации сумма должна быть равна 1 (в «Реальном» режиме) или 10 в соответствующей степени (в «Адаптивном» режиме). Если сумма отличается от указанных значений, значит на анализируемом сайте есть висячие узлы, на которых вы теряете ссылочный вес.

2.6. Статус-панель, которая в паре с результирующей таблицей показывает все шаги работы алгоритма, позволяя пользователям увидеть динамику расчётов.

При выходе из инструмента «Расчёт внутреннего PageRank» данные последней итерации будут автоматически помещены в главную таблицу программы в соответствующую колонку. Если до этого в главной таблице уже были какие-то данные, то более свежие затрут их.

Алгоритм расчёта

Ещё раз напомним, что для расчёта внутреннего PageRank необходимо включить параметр «Исходящие ссылки», который покрывает все взаимосвязи между страницами, позволяя учитывать основные инструкции по индексации, атрибуты ссылок и варианты перенаправления ссылочного веса.

Весь процесс состоит из 2 последовательных этапов:

1. Построение графа связей → целью данного этапа является построение взаимосвязи ссылок и установка их статуса:

1.1. Загрузка и фильтрация ссылок относительно выбранных настроек расчёта PageRank.

1.2. Начальный анализ → разбиение ссылок по статусам «OK», «Висячий узел» и «Перенаправление» (подробнее о статусах ссылок читайте ниже).

1.3. Загрузка исходящих ссылок → на данном этапе исключаются все ссылки с атрибутом nofollow, а также усекается хештег (#). В итоге остаются только уникальные ссылки.

1.4. Подсчёт входящих ссылок.

1.5. Финальный анализ → детальный анализ исходящих и входящих ссылок, а также определение «Конечных ссылок» и ссылок в статусе «Несвязанный узел».

2. Расчёт внутреннего PageRank → начиная с 0 итерации и до указанной в настройках.

Статусы ссылок

Самая интересная часть алгоритма PageRank – логически все ссылки делятся по 4 статусам:

1. OK

Это HTML-страницы c кодом ответа сервера «200 OK», которые содержат исходящие ссылки и могут быть:

  • noindex, то есть неиндексируемыми → да, вам не показалось: неиндексируемые страницы тоже проводят ссылочный вес
  • с тегом Canonical, указанным на себя
  • с тегом Refresh, указанным на себя

2. Висячий узел

Страницы, у которых количество исходящих ссылок равно 0, то есть эти страницы не передают ссылочный вес, полностью его теряя.

К этому типу относятся:

  • 2xx страницы, которые просто не содержат исходящих ссылок
  • 2xx страницы, закрытые в Robots.txt
  • 2xx страницы с nofollow в инструкциях X-Robots-Tag или Meta Robots
  • 2xx страницы, но не HTML и, соответственно, не имеющие исходящих ссылок
  • 3xx ссылки, закрытые в Robots.txt
  • 3xx ссылки с бесконечным редиректом (статус-код «3xx Redirect Loop»)
  • 4xx страницы
  • 5xx страницы
  • страницы, возвращающие любой другой код ответа сервера
  • перенаправляющие страницы (Canonical или Refresh), которые не достигли целевой страницы: в этом случае будет отображаться статус-код «Endless Redirected», то есть бесконечный редирект
  • исходящие ссылки, которых нет в таблице «Все результаты» → обратите внимание, что по умолчанию при отключённых галочках «только внутренние ссылки» и «только ссылки на вкладке [Все результаты] / [Фильтры]» Netpeak Spider будет пытаться найти все ссылки, которые есть на сайте независимо от настроек сканирования – это необходимо для того, чтобы составить полную и точную картину передачи ссылочного веса

3. Перенаправление

Ссылки, передающие весь свой вес целевой странице (её URL указан в столбце «Конечная ссылка»).

К этому типу относятся:

  • 3xx страницы
  • 2xx страницы с тегом Canonical, указанным на другую страницу
  • 2xx страницы с тегом Refresh, указанным на другую страницу

4. Несвязанный узел

Сcылки, которые не имеют входящих ссылок.

Такие ссылки могут возникнуть при:

  • сканировании сайта с выключенным учётом инструкций по индексации (Robots.txt, Canonical, Refresh, X-Robots-Tag, Meta Robots и атрибут nofollow у ссылок) → обратите внимание, что при выключении учёта данных инструкций Netpeak Spider сканирует сайт уже не так, как это делают роботы поисковых систем, однако алгоритм PageRank всегда работает с учётом данных инструкций, потому некоторые ссылки, полученные в результате сканирования, могут оказаться недостижимыми для алгоритма PageRank.
  • сканировании собственного списка URL → ссылки, которые никак не связаны между собой.

Обратите внимание, что ссылки с этим статусом не участвуют в расчёте внутреннего PageRank.

Таблица со статусами ссылок в Netpeak Spider

3 новые ошибки

Сразу после автоматического или ручного расчёта внутреннего PageRank в главный интерфейс программы попадут 3 типа ошибок, если они присутствуют на сайте:

  • PageRank: висячий узел → как было указано выше, это страницы без исходящих ссылок, которые не пропускают ссылочный вес, нарушая тем самым естественное распределение ссылочного веса по сайту;
  • PageRank: перенаправление → страницы, перенаправляющие ссылочный вес – это могут быть страницы, возвращающие 3xx редирект или содержащие теги Canonical / Refresh, указывающие на другой URL.
  • PageRank: отсутствуют связи → это недостижимые страницы, на которые не было найдено ни одной входящей ссылки.

Коротко о главном

Коллеги, нам удалось реализовать наиболее точный алгоритм расчёта внутреннего PageRank, который позволяет вам узнать ряд инсайтов об анализируемом сайте: как именно распределяется по страницам ссылочный вес, какие ненужные для SEO страницы получают избыточный вес, какие присутствуют на сайте «висячие узлы» и, наконец, как можно исправить эти ошибки.

Пробуйте новую уникальную функцию, экспериментируйте с различными настройками и внедряйте новые более эффективные схемы внутренней перелинковки! :)

Читайте этот пост наанглийском языке