ВходящиеВходящие
ВажныеВажные
ВидеоВидео
Категории
ОбновленияОбновления
МануалыМануалы
КейсыКейсы
ПодборкиПодборки
От экспертовОт экспертов
НовостиНовости
ТестыТесты
Входящие
Важные
Видео
Mark Martsun

Mark Martsun

Sales Operations Manager and fan of Scooter в Netpeak Software
Odessa, Ukraine
  • Комментарии (25)
  • Посты (4)
Сортировка:
Сортировка:
Максим Падун
1 октября 2018
а как правильно настроить анализ, чтобы выделить страницы, на которых присутствуют битые внутренние ссылки?
Здравствуйте, Максим!

Для того, чтобы увидеть какие страницы содержат битые ссылки, вам необходимо перейти в отчёт «Битые ссылки», а затем выбрать «Отчёт по ошибке» как это изображено на скриншоте: https://img.netpeaksoftware.com/mark/1M63TNO.png

Если у вас возникнут дополнительные вопросы — пишите, будем рады помочь!
Нельзя лайкать самого себя
2Нравится
Ответить
Поделиться
Скопировано
Зоря Александр
10 октября 2018
Добрый день, просканировал сайт на битые ссылки. Но некоторые найденные битые ссылки ведут на нормально работающие страницы. В чем может быть причина?
Здравствуйте, Павел!

Причин, по которым может возникнуть подобная ситуация, несколько, самая распространённая — сервер отдаёт такой код ответа, если скорость сканирования высока, и он не справляется с нагрузкой. Для подтверждения нашего предположения нам необходимо знать, какой сайт вы сканируете, чтобы провести тесты.
Нельзя лайкать самого себя
Нравится
Ответить
Поделиться
Скопировано
Leonid Semenkevych
16 октября 2018
Как с помощью этой программы найти все ссылки на удаленные видео с Ютуба или заблокированные каналы?
Здравствуйте, Леонид!

Используя встроенный инструмент «Парсинг», вы можете находить ссылки на видео с YouTube на страницах сайта. Таким образом, если на определённых страницах сайта есть встраиваемые видео с YouTube, программа будет извлекать их ссылки в удобную таблицу. Вот пример условия, которое поможет извлечь ссылку на видео: https://img.netpeaksoftware.com/mark/1O9ZQ1Z.png

Затем, вы можете скопировать все полученные ссылки, вставить список в новый проект и парсить их исходный код на наличие уведомлений об ошибке. Если ссылок окажется немного, вы можете проверить их вручную.

Условия, желательно, настраивать индивидуально. Если вы пришлёте нам ссылку на сайт, то мы постараемся подобрать необходимые настройки для вашей цели.

Вы можете связаться с нами с помощью онлайн-чата на нашем сайте или написав на почту [email protected]
Нельзя лайкать самого себя
Нравится
Ответить
Поделиться
Скопировано
Oleg Metka
9 сентября 2018
Очень часто начал встречать блокирование IP из-за того чтоб много запросов отсылается при сканировании сайта. Менял скорость сканирования, но тогда большой сайт долго парсится.
Олег, это идеальный пример случая, когда необходимо воспользоваться списком прокси, который вы можете загрузить непосредственно в Netpeak Spider, таким образом вы гораздо быстрее просканируете сайт и снизите риск получения блокировки.

Если у вас возникнут дополнительные вопросы — пишите в поддержку, мы всегда рады помочь!
Нельзя лайкать самого себя
Нравится
Ответить
Поделиться
Скопировано
Andrey Abramov
4 ноября 2018
Скажите, почему закрытие 301 редиректа в robots.txt на внешний сайт является ошибкой?
Здравствуйте, Андрей!

Редирект, который блокируется инструкциями в файле robots.txt, для роботов поисковых систем не является правильным решением. Это связано с тем, что вы перенаправляете робота на закрытую для него страницу. Если страница важна, то её необходимо открыть.

Для более детального анализа проблемы нам необходимо знать ссылку на страницу с редиректом.

Вы можете связаться с поддержкой с помощью онлайн-чата или написать нам на email — [email protected]
Нельзя лайкать самого себя
Нравится
Ответить
Поделиться
Скопировано
Marina Sa
8 ноября 2018
Что-то я совсем не поняла как с помощью вашего Парсера ПС бэклинки смотреть...
Здравствуйте, Марина!

Поиск бэклинков в Netpeak Checker выполняется следующим образом → необходимо добавить поисковый запрос в соответствующее поле в инструменте «Парсер ПС», состоящий из двух частей:
1. URL сайта, для которого мы хотим найти бэклинки;
2. Тот же URL, но с использованием минус-оператора. Это необходимо для того, чтобы получить список ссылок, исключая из выдачи результаты по этому же сайту. Чтобы уточнить, что исключить нужно именно сайт, вы также можете добавить оператор site: в комбинации с минус-оператором так, как показано на скриншоте: 

https://img.netpeaksoftware.com/mark/1RKVUVK.png
Нельзя лайкать самого себя
1Нравится
Ответить
Поделиться
Скопировано
Vladislav Pracyuk
21 декабря 2018
Подскажите, а есть ли возможность сканировать лишь субдомен у сайта? Если в настройках выбрать сканирование без субдоменов и вбить корень субдомена, то программа сканирует лишь одну страницу. Я делаю что-то не так, или такой функции просто не предусмотренно?
Здравствуйте, Владислав!

Такая возможность есть, и вы всё сделали правильно. Чтобы разобраться в причине возникновения данной проблемы, нам необходимо знать URL поддомена.

Вы можете связаться со службой поддержки через чат или написав письмо на почту [email protected] — будем рады помочь!
Нельзя лайкать самого себя
3Нравится
Ответить
Поделиться
Скопировано
Владимир Бородий
24 декабря 2018
Вопрос: в каком случае нужно снимать редиректы? или они должны работать постоянно? Спасибо
Здравствуйте, Владимир!

В определённых случаях редиректы должны быть постоянно, например, если редирект настроен с не главных зеркал на главное зеркало сайта.

Иногда настраивают и временный редирект. В таком случае — это лишь временное перенаправление на другой адрес, которое подразумевает возврат к старому варианту в неопределенном будущем (речь идёт о 302 редиректе).

Таких случаев можно привести довольно много, но если вас интересует какой-то конкретный — можете связаться с нами через чат, и мы с радостью проконсультируем вас по этому вопросу ;)
Нельзя лайкать самого себя
1Нравится
Ответить
Поделиться
Скопировано
Валентин Панарин
24 декабря 2018
Вопрос, если позволите ;) Меняю структуру сайта, товары переношу из раздела в раздел. Адрес, соответственно, меняется. Редиректы прописываю в одном известном модуле для Битрикса. Можно ли после обхода роботами ПС удалять редиректы? Если страница уже проиндексирована по новому адресу и участвует в поиске. По логике вещей ссылочный вес ей передался, в поиск попала, значит необходимости в сохранении редиректа нет?
Здравствуйте, Валентин!

В данном случае многое зависит от наличия внешних ссылок на страницы с редиректом. Если они есть и их много, то редирект убирать не стоит. В противном случае, это приведёт к автоматическому возникновению битых ссылок на всех внешних ресурсах, которые ссылаются на страницы по старому адресу.

Если же внешних ссылок нет, и был установлен временный редирект (302 или 307), то вы вполне можете его убрать, если посчитаете нужным.
Нельзя лайкать самого себя
1Нравится
Ответить
Поделиться
Скопировано
Oleh Trubitsyn
11 января 2019
Подскажите пожалуйста
Указываю в парсинге XPatch //div[@class='description']
Он парсит этот тег ровно до момента перевода строки, а мне надо весь тег, весь текст или внутренний html
Здравствуйте, Олег!

Вы пробовали парсить с помощью CSS-селектора? 
Например: CSS-селектор → .description → Весь HTML-элемент

Чтобы точно подобрать настройки парсинга данных, необходимо видеть исходный код страницы. Напишите нам, пожалуйста, в онлайн-чат или на почту [email protected] — будем рады помочь :)
Нельзя лайкать самого себя
1Нравится
Ответить
Поделиться
Скопировано
aleks sv
20 сентября 2019
В отчете программы есть пункт одинаковые канонические адреса,что это значит?
Это означает, что несколько страниц содержат ссылку на одну и ту же каноническую страницу. Необходимо убедиться, что одинаковый канонический URL задан для похожих по контенту страниц и релевантен им по содержанию.

Также отмечу, что это отчёт низкой критичности, т.е. его не нужно рассматривать как ошибку, а скорее как уведомление.
Нельзя лайкать самого себя
Нравится
Ответить
Поделиться
Скопировано
Михаил Иванищенко
27 сентября 2019
Отличный мануал по парсингу данных с помощью Netpeak Spider, спасибо за материал!
Большое спасибо, Михаил! Рад, что вам понравилась статья ;)
Нельзя лайкать самого себя
4Нравится
Ответить
Поделиться
Скопировано
Ivan Kutas
1 октября 2019
Марк, пост просто бомба! Ты крут!
Большое спасибо! Стараюсь :)
Нельзя лайкать самого себя
2Нравится
Ответить
Поделиться
Скопировано
Вячеслав Тепляков
15 октября 2019
Каждому инструменту своё назначение. parsehub делает это без всех этих танцев с бубном и ковыряния в коде страниц, с настройкой через интуитивно понятном пошаговом интерфейсе... С обходом каждой карточки товара, если это нужно и обходом страниц и при этом условно бесплатно.
Вы правы, программа ParseHub специализируется именно под эту задачу. Поэтому неудивительно, что там много разных инструментов, которые делают практически всю работу автоматически.

В Netpeak Spider парсинг — одна из многочисленных функций, которая
предоставляет возможность извлекать различные данные в процессе аудита сайта. Это удобно, так как парсинг может применяться и для SEO-задач. 

Мы сделали так, чтобы пользователям было удобно проводить аудит, парсить данные и решать многие другие задачи в одной программе — Netpeak Spider :)
Нельзя лайкать самого себя
1Нравится
Ответить
Поделиться
Скопировано
Все привет. Спасибо за крутой продукт. На моём сайте https://www.magazin-futbolok.su 
Много висяков. И вообще понимаю, что с перелинковкой что-то не так. Например, наверное, надо поставить в nofollow ссылки с главной на товары из карусели. Но не очень понимаю технически как это сделать. И поставить в nofollow, например ссылку меню "поиск". Могли бы Вы дать несколько ключевых рекомендаций именно для моего сайта? Спасибо.
Здравствуйте, Андрей!

Просканировал ваш сайт и нашёл всего 5 висячих узлов, что немного. Более того, 4 из них являются битыми ссылками. Рекомендую запускать анализ PageRank только после полного сканирования сайта, чтобы программа смогла обнаружить все ссылки и рассчитать значения PR корректно :)
Нельзя лайкать самого себя
Нравится
Ответить
Поделиться
Скопировано
Спасибо. Вот как раз вопрос - может есть какие то настройки, учитывающие роботс или еще что-то... у меня ощущение, что программа сканирует url которые закрыты от индексации. По крайней мере многие стрнаицы типа таких у меня вызывают недоумение
https://www.magazin-futbolok.su/korzina/add.html?category_id=1&product_id=715
как раз они и есть висячие.
но откуда то их программа достаёт
Да, разумеется. По умолчанию, Netpeak Spider игнорирует инструкции по индексации, кроме тега Canonical. Изменить эти настройки вы можете на вкладке «Продвинутые».
Нельзя лайкать самого себя
Нравится
Ответить
Поделиться
Скопировано
Виталий Минский
29 октября 2019
Как сейчас лучше всего закрыть внешнюю ссылку? 
Есть много партнерских ссылок на сайте, порой больше 100 на одной странице. Размечать их новыми атрибутами от гугла? Или вообще скрыть?
Здравствуйте, Виталий! Для таких ссылок рекомендуется использовать новый атрибут rel=sponsored.
Нельзя лайкать самого себя
Нравится
Ответить
Поделиться
Скопировано
Почему убрали возможность приобретения полугодовой подписки?
Мы убрали данную опцию из-за низкого спроса и для упрощения создания заказа. Вы можете приобрести 6 месячных лицензий и они будут активироваться поочерёдно, что эквивалентно покупке полугодовой лицензии.
Нельзя лайкать самого себя
1Нравится
Ответить
Поделиться
Скопировано
mql proger
5 декабря 2019
Ваша программа сканирует SVG-графику?

На странице mql5.com/ru/signals/561919 хочу спарсить это значение:

http://i.piccy.info/i9/b3b601690b40b6ce0e4cfdf2a76a2a59/1575456827/21210/1350956/1.png

Это графика SVG.

Если я нажимаю F12 в браузере, он показывает это:

http://i.piccy.info/i9/18b4128b9d47f21e4f85f549358ea9c4/1575456875/60381/1350956/2.png

Какой XPath-запрос я должен сформировать?
Здравствуйте! Да, с помощью Netpeak Spider можно извлечь ссылки на изображения из исходного кода HTML-страницы. Но я не могу найти такую ссылку в коде указанной страницы. Напишите, пожалуйста, в чат техподдержки и уточните какое изображение вы хотите извлечь, а мы поможем с XPath :)
Нельзя лайкать самого себя
2Нравится
Ответить
Поделиться
Скопировано
Сам спросил, сам и отвечу.
Нашёл. В списке с редиректами давим на F1 и получаем входящие ссылки. Там всё, что нужно.
Здравствуйте, Дмитрий!

Если вы хотите получить быстрый ответ на любой вопрос касательно продуктов Netpeak Software, рекомендую обращаться в чат технической поддержки. Там мы отвечаем в течение 2-3 минут (в рабочее время). В комментариях мы тоже обязательно ответим, но придётся чуть дольше ждать. 

Касаемо вашего вопроса — да, F1 показывает отчёт по входящим ссылкам, но только для одной страницы. Чтобы посмотреть входящие ссылки для списка страниц, вам необходимо нажать Shift + F1. Также в программе доступен отчёт, показывающий страницы, которые содержат ссылки на страницы с редиректом и конечный URL редиректа [Экспорт → Специальные отчёты по ошибкам → Редиректы: входящие ссылки и конечные URL].
Нельзя лайкать самого себя
Нравится
Ответить
Поделиться
Скопировано
У меня сейчас стоит Netpeak Spider 3.6, Версия 3.6.0.0, Лицензия Standart.
Возможно что то не увидел, но в разделе "Параметры" не обнаружил такого пункта как "Все пункты пагинации"
Здравствуйте, Валентин! Начиная с версии 3.3 эта группа параметров отсутствует —> Скриншот лога изменений (https://img.netpeaksoftware.com/mark/1PFWETY.png). Сделано это в связи с обновлениями алгоритмов Google, которые больше не учитывают пагинацию в виде ссылок rel="next" и rel="prev" [https://searchengineland.com/google-no-longer-supports-relnext-prev-314319].

Но программа может переходить по этим ссылкам, если включить эту настройку.
[Скриншот (https://img.netpeaksoftware.com/mark/1PFY5V2.png)]

Однако в таблицу в виде отдельных колонок они больше не подтягиваются. Поэтому если на сайте всё ещё присутствует пагинация старого образца, и вам необходимо собирать в таблицу ссылки на страницы пагинации в теге link, то вы можете задать их в виде параметров парсинга. Пример (https://img.netpeaksoftware.com/mark/1PFY8WW.png)
Нельзя лайкать самого себя
3Нравится
Ответить
Поделиться
Скопировано
Ирина Климанская
26 февраля 2020
Это невероятно) Я обожаю вас!) <3
Спасибо за крутой парсер и такие подробные полезные статьи!
Ирина, спасибо за тёплые слова) они мотивируют меня стараться ещё больше)
Нельзя лайкать самого себя
1Нравится
Ответить
Поделиться
Скопировано
Делал по инструкции в итоге не проучилось спросить никакие данные. Слишком сложно организовано для обычного пользователя.
Руслан, многое зависит ещё и от сайта, который вы парсите. Здесь важно смотреть, какой код ответа у страниц, и отображаются ли в программе данные, которые вы хотите парсить. Иногда нужно менять настройки, к примеру: user-agent, прокси, рендеринг JS. 

Рекомендую вам написать в чат техподдержки и показать, какие настройки парсинга вы используете и для какого сайта.

Но отмечу, что мы занимаемся подбором условий для парсинга начиная с тарифа Pro.
Нельзя лайкать самого себя
1Нравится
Ответить
Поделиться
Скопировано
Sada Gadirova
23 сентября 2020
В той части, где вы указываете ссылки для получения характеристик, явно потерян скриншот с кодом. В результате совершенно не понятно почему поисковая строка постоена именно таким образом.
Действительно, нет исходного кода. Мы обязательно исправим в ближайшее время. Большое вам спасибо, что заметили! :)
Нельзя лайкать самого себя
Нравится
Ответить
Поделиться
Скопировано
Demi Murych
15 октября 2020
Селекторы
Непонятна целевая группа статьи. 
Если она для тех кто ориентируется в том, что такое селекторы, то объяснять им что такое совершенно не нужно. Тем более когда сам в этом вопросе плаваешь.
Если это статья для людей которые НЕ понимают и НЕ знают что такое DOM дерево, то научить их языку в рамках такой статьи невозможно, можно только напугать. Что Автору прекрасно удалось сделать. 

А нужно было всего лишь подсказать СПОСОБ как любой человек без каких бы то ни было специальных знаний может получить нужный адрес, не вспоминая детали языка который им не нужен.
 
СПОСОБ ПОЛУЧЕНИЯ НУЖНОГО СЕЛЕКТОРА:
Найдя нужный вам элемент в dev tools нажмите на нем правую кнопку мыши, в открывшемся подменю выберете опцию Copy ➊ в подменю меню выберете тот формат селектора который вам удобнее: ➋ для CSS селектора и ➌ для XPath. 
В буфер обмена будет скопирован готовый селектор для доступа к этому узлу.
 
Скрин: https://drive.google.com/file/d/1wY2qEScQSmCXyVxqMrCcrW-RfStkNLqX/view

Разница между CSS и XPath в рамках работы спайдера мне не известна. Если они используют webkit для парсинга страницы, то лучше выбирать CSS - будет работать быстрее. 

Ну и по сути предмета:
>В таком случае нужно использовать XPath. Он позволяет задать порядковый номер элемента.

XPath тут не нужен. Тут нужно знать предмет - а именно CSS чтобы не городить огороды.

Селекторы позволяют нумеровать конкретные ноды ровно так же как и XPath. 
Xpath:
//table[@class="chars-t"]/tbody/tr[2]/td[2]
CSS:
table.chars-t tbody tr:nth-child(1) td:nth-child(3)

XPath нужен только в случае, когда вам нужно адресовать узел, который идентифицировать можно исключительно при реверсивном обходе дерева. То есть то чего CSS делать не умеет.
Спасибо за комментарий!

Цели научить пользователей обходить DOM-дерево у меня не было. Для этого, полагаю, уже существует масса других статей в интернете на эту тему, авторы которых способны описать это и получше чем я. Да и это не совсем формат нашего блога :)

Я написал эту статью в первую очередь с целью помочь пользователям разобраться с парсингом в нашей программе Netpeak Spider, а также с основами CSS-селекторов и / или Xpath.

Такое решение было принято из-за многочисленных тикетов в чате по поводу парсинга данных из сайтов. Я обратил внимание, что в 95% случаев это достаточно простые кейсы, потому решил продемонстрировать их в рамках этой статьи + постарался описать и нюансы работы с Netpeak Spider. И, судя по отзывам, она действительно помогает ввести в курс дела наших пользователей, которые ранее с парсингом не сталкивались.

Касаемо копирования селекторов через Dev Tools в браузере — соглашусь, этот способ самый простой и не требует каких-либо специальных знаний. И мы даже его показывали в более раней статье по парсингу [https://netpeaksoftware.com/blog/kak-parsit-tseny-iz-internet-magazinov-s-pomoschyu-netpeak-spider]. Но как показывала практика, этот способ работает не очень хорошо по двум причинам:

1. Полученный таким образом путь достаточно часто не работает или парсит не совсем то, что нужно пользователю. Нам приходило очень много обращений, что таким путём ничего не получается спарсить.
2. В большинстве случаев путь получается громоздким, и чтобы разобраться, почему не работает, необходимо потратить много времени. Проще собрать путь самостоятельно, особенно для таких кейсов, которые я описал в статье.

И также по поводу нумерации в CSS-селекторах — об этом я знал изначально, но мне показалось, что для новичка XPath будет выглядеть проще в этом случае. 

Но твёрдо соглашусь, что мне не следовало писать «В таком случае нужно использовать XPath» → это вводит в заблуждение, будто Xpath — это единственный вариант. Думаю, что мы исправим это в посте.
Нельзя лайкать самого себя
2Нравится
Ответить
Поделиться
Скопировано