Как спарсить нужные характеристики товаров из интернет-магазина с помощью Netpeak Spider
КейсыФункция парсинга в Netpeak Spider позволяет извлекать любые данные со страниц сайта. Основные детали и описание алгоритма вы можете узнать из поста «Как парсить различные данные из интернет-магазина с помощью Netpeak Spider». В этом же посте я покажу, как спарсить характеристики товаров по списку и собрать все результаты в таблице для удобной работы с ними.
1. Как найти и извлечь характеристики товаров
Как правило, характеристики хранятся в таблице — в теге table.
Открываем страницу товара, выделяем элемент и находим его в исходном коде.
Тег может быть и другим, отличительным является повторение элементов, и при привязке через XPath они будут отличаться только порядковым номером.
Первичная задача — собрать значения правой колонки, то есть все названия характеристик для списка товаров (списка URL). Для этого нужен XPath запрос, с помощью мы сможем получить доступ к первым ячейкам каждой строки конкретной таблицы. В нашем случае выражение будет таким:
Далее перейдите в Netpeak Spider и сделайте следующее:
- Откройте вкладку «Парсинг» в настройках.
- Задайте условия парсинга:
- вид поиска → XPath,
- извлечение → внутренний текст,
- поисковое выражение → наш XPath.
- На вкладке «Параметры» установите шаблон с минимальным набором параметров и отметьте чекбокс «Парсинг».
- В адресную строку вставьте URL сайта и начните сканирование.
- После того как программа закончит сканирование, откройте отчёт «Сводка по парсингу» через модуль «База данных». В нём отобразится получится таблица со всеми найденными характеристиками.
У Netpeak Spider есть бесплатная версия без ограничений по времени, в которой у вас будет возможность парсить сайты, используя до 100 условий парсинга! Во Freemium-версии также доступны и многие другие базовые функции программы.
Чтобы начать пользоваться бесплатным Netpeak Spider, просто зарегистрируйтесь, скачайте и установите программу — и вперёд! 😉
Зарегистрироваться и установить бесплатную версию
P.S. Сразу после регистрации у вас также будет возможность потестировать функционал, а затем сравнить все наши тарифы и выбрать для себя подходящий.1.1. Как преобразовать все значения характеристик в один список
Итак, мы получили значения характеристик, теперь их необходимо преобразовать в один список с уникальными значениями. Это можно сделать с помощью Google Таблиц:
- Экспортируем отчёт «Сводка по парсингу» из Netpeak Spider.
- Переносим его в Google Таблицы.
- Применяем функцию FLATTEN → она объединяет диапазоны в один список.
- После объединения необходимо удалить повторы (с помощью функции UNIQUE), и список готов.
1.2. Как собрать все значения характеристик
Далее нам необходимо составить XPath запрос, который обеспечит доступ к элементам на том же уровне, следующих за текущим. В моём примере необходимо обратиться к ячейкам, идущих следом за названием характеристик, которые мы получили на предыдущем шаге.
Для этого используем две XPath функции в запросе:
- text() — возвращает набор текстовых узлов. //div[text()='Блок1'] вернет блок div в котором содержится текст “Блок1”;
- following-sibling:: — возвращает множество элементов на том же уровне, следующих за текущим.
Например, чтобы в таблице получить значения диагонали экрана, составляем такое выражение:
Для получения всех значений необходимо сгенерировать запросы под каждую характеристику. Это можно сделать в той же таблице с помощью текстовых функций СЦЕПИТЬ или ПОДСТАВИТЬ:
Далее нужно перенести все выражения в настройки парсинга.
Запустите сканирование,и по итогу вы получите необходимый результат.
Остаётся только перенести сводку по парсингу в один файл. Чаще всего именно такой формат файла с характеристиками необходимо импортировать в CMS интернет-магазинов.
Подводим итоги
Чтобы быстро собрать характеристики товаров по списку и оформить это в структурированной таблице, необходимо:
- Спарсить названия характеристик с помощью XPath запроса в Netpeak Spider.
- Преобразовать полученные значения в Google Таблицах.
- Сгенерировать запросы под каждую характеристику.
- Извлечь значения характеристик и перенеси результаты в таблицу.