Как спарсить нужные характеристики товаров из интернет-магазина с помощью Netpeak Spider

Кейсы
5Нравится
1Комментарии
Поделиться
Как спарсить нужные характеристики товаров из интернет-магазина с помощью Netpeak Spider

Функция парсинга в Netpeak Spider позволяет извлекать любые данные со страниц сайта. Основные детали и описание алгоритма вы можете узнать из поста «Как парсить различные данные из интернет-магазина с помощью Netpeak Spider». В этом же посте я покажу, как спарсить характеристики товаров по списку и собрать все результаты в таблице для удобной работы с ними.

1. Как найти и извлечь характеристики товаров

Как правило, характеристики хранятся в таблице — в теге table.

Открываем страницу товара, выделяем элемент и находим его в исходном коде.

Как вытащить элемент из исходного кода страницы

Тег может быть и другим, отличительным является повторение элементов, и при привязке через XPath они будут отличаться только порядковым номером.

Первичная задача — собрать значения правой колонки, то есть все названия характеристик для списка товаров (списка URL). Для этого нужен XPath запрос, с помощью мы сможем получить доступ к первым ячейкам каждой строки конкретной таблицы. В нашем случае выражение будет таким:

//table[@class="attr-content"]//tr/td[1]

Далее перейдите в Netpeak Spider и сделайте следующее:

  1. Откройте вкладку «Парсинг» в настройках.

    Как парсить данные в Netpeak Spider

  2. Задайте условия парсинга:
    • вид поиска → XPath,
    • извлечение → внутренний текст,
    • поисковое выражение → наш XPath.

    Как парсить данные в Netpeak Spider

  3. На вкладке «Параметры» установите шаблон с минимальным набором параметров и отметьте чекбокс «Парсинг».

    Как парсить данные в Netpeak Spider

  4. В адресную строку вставьте URL сайта и начните сканирование.
  5. После того как программа закончит сканирование, откройте отчёт «Сводка по парсингу» через модуль «База данных». В нём отобразится получится таблица со всеми найденными характеристиками.

    Как парсить данные в Netpeak Spider

1.1. Как преобразовать все значения характеристик в один список

Итак, мы получили значения характеристик, теперь их необходимо преобразовать в один список с уникальными значениями. Это можно сделать с помощью Google Таблиц:

  1. Экспортируем отчёт «Сводка по парсингу» из Netpeak Spider.
  2. Переносим его в Google Таблицы.
  3. Применяем функцию FLATTEN → она объединяет диапазоны в один список.
  4. После объединения необходимо удалить повторы (с помощью функции UNIQUE), и список готов.

    Как парсить данные в Netpeak Spider

1.2. Как собрать все значения характеристик

Далее нам необходимо составить XPath запрос, который обеспечит доступ к элементам на том же уровне, следующих за текущим. В моём примере необходимо обратиться к ячейкам, идущих следом за названием характеристик, которые мы получили на предыдущем шаге.

Для этого используем две XPath функции в запросе:

  • text() — возвращает набор текстовых узлов. //div[text()='Блок1'] вернет блок div в котором содержится текст “Блок1”;
  • following-sibling:: — возвращает множество элементов на том же уровне, следующих за текущим.

Например, чтобы в таблице получить значения диагонали экрана, составляем такое выражение:

//table[@class="attr-content"]//tr/td[text()='Диагональ экрана']/following-sibling::*

Как собрать все значения характеристик со страницы интернет-магазина

Для получения всех значений необходимо сгенерировать запросы под каждую характеристику. Это можно сделать в той же таблице с помощью текстовых функций СЦЕПИТЬ или ПОДСТАВИТЬ:

Как собрать все значения характеристик со страницы интернет-магазина

Открыть таблицу с формулами

Далее нужно перенести все выражения в настройки парсинга.

Как спарсить все значения характеристик со страницы интернет-магазина с помощью Netpeak Spider

Запустите сканирование,и по итогу вы получите необходимый результат.

Как собрать все значения характеристик со страницы интернет-магазина с помощью Netpeak Spider

Остаётся только перенести сводку по парсингу в один файл. Чаще всего именно такой формат файла с характеристиками необходимо импортировать в CMS интернет-магазинов.

Подводим итоги

Чтобы быстро собрать характеристики товаров по списку и оформить это в структурированной таблице, необходимо:

  1. Спарсить названия характеристик с помощью XPath запроса в Netpeak Spider.
  2. Преобразовать полученные значения в Google Таблицах.
  3. Сгенерировать запросы под каждую характеристику.
  4. Извлечь значения характеристик и перенеси результаты в таблицу.
А как вы справляетесь с этой задачей? Делитесь своими методами в комментариях!

Понравился кейс? Давайте лично обсудим все детали и преимущества Netpeak Spider

Book a personal demo