перейти к содержанию

Ваше пошаговое руководство по очистке данных о продуктах Amazon

Извлечение данных о продуктах из Amazon может быть чрезвычайно ценным для целого ряда приложений, от исследования рынка до мониторинга конкурентов. Хотя у Amazon есть API для рекламы продуктов, он имеет ограничения по ставкам, требует одобрения и стоит денег. Альтернативой является сбор данных о продуктах Amazon прямо с веб-сайта.

В этом подробном руководстве мы рассмотрим ключевые шаги и соображения по извлечению информации о продуктах Amazon посредством парсинга веб-страниц.

Обзор парсинга данных о продуктах Amazon

Веб-скрапинг включает в себя программное извлечение данных с веб-сайтов. Если все сделано с соблюдением этических и юридических норм, это позволит вам собирать большие объемы данных с таких сайтов, как Amazon.

Парсинг Amazon может предоставить любую информацию о продукте, включая:

  • Название
  • URL-адрес продукта
  • Цена
  • Фотографии
  • Рейтинги и обзоры
  • Вопросы и Ответы
  • Описание
  • Особенности маркированного списка
  • Варианты (размер, цвет и т. д.)
  • Доступность
  • Имя продавца
  • Категория/дерево просмотра

Эти данные затем можно экспортировать в электронную таблицу, базу данных или аналитическую платформу. Парсинг Amazon открывает такие возможности, как:

  • Мониторинг цен конкурентов
  • Исследование рынка продуктовых тенденций
  • Обнаружение самых продаваемых товаров в нише
  • Анализ настроений по отзывам
  • Инвентаризационный мониторинг
  • Исследование продукта по дропшиппингу
  • Создание базы данных продуктов
  • И многое другое!

Важный первый вопрос: законно ли парсинг Amazon. Короткий ответ: да, в большинстве случаев.

Парсинг веб-страниц попадает в «серую зону» закона, но, как правило, разрешен при следующих условиях:

  • Вы очищаете общедоступные данные (например, не используя логин или платный доступ)
  • Вы не нарушаете Условия обслуживания целевого веб-сайта.
  • Вы не крадете интеллектуальную собственность или материалы, защищенные авторским правом.
  • Вы не перегружаете серверы сайта неоправданным количеством запросов.

Условия обслуживания Amazon прямо не запрещают парсинг веб-страниц. Если вы ответственно относитесь к парсингу и соблюдаете разумный этикет парсинга, извлечение общедоступных данных Amazon не является противозаконным.

Тем не менее, у Amazon есть технические меры для обнаружения и блокировки парсеров. Поэтому необходимо проявлять особую осторожность, чтобы эффективно очищать и не заблокироваться.

Инструменты для парсинга Amazon

Есть несколько различных инструментов, которые вы можете использовать для сбора данных с Amazon:

Библиотеки парсинга веб-страниц такие как BeautifulSoup и Scrapy Python, позволяют писать собственные парсеры, но требуют знаний программирования.

Расширения браузера такие как Octoparse и ParseHub, предлагают графические интерфейсы типа «укажи и щелкни» для извлечения данных со страниц Amazon в электронные таблицы. Однако они ограничиваются царапинами на одной странице.

Стандартные скребки как Скребок продуктов Amazon на Apify позволяют полностью автоматически очищать все каталоги Amazon без необходимости кода. Но предоставьте меньше возможностей настройки.

Коммерческие API для парсинга веб-страниц такие как ScrapeStorm и ScraperAPI, выполняют управление и ротацию прокси-серверов за вас, но платят за каждый вызов API.

В большинстве случаев готовый парсер, такой как Apify, или библиотека парсинга веб-страниц предлагают лучший баланс настройки и простоты использования при парсинге Amazon.

Шаг 1. Получите список ASIN или URL-адресов продуктов.

ASIN означает стандартный идентификационный номер Amazon. Это уникальный идентификатор Amazon, присвоенный каждому продукту.

Чтобы получить подробную информацию о продукте, вам сначала понадобится список ASIN или URL-адресов продуктов. Есть несколько способов получить это:

  • Вручную скомпилировать – Скопируйте/вставьте или экспортируйте ASIN из категорий Amazon и страниц поиска.

  • Семенные сайты – Соберите ASIN с сайтов, на которых перечислены продукты Amazon, такие как Camelcamelcamel.

  • Разобрать HTML – Очистите ASIN прямо со страниц категорий Amazon.

Для крупных проектов парсинга Amazon лучшим подходом является анализ ASIN непосредственно со страниц категорий Amazon. Это означает очистку URL-адресов категорий и извлечение ASIN или ссылок на продукты из HTML.

Большинство URL-адресов продуктов Amazon имеют следующую структуру:

https://www.amazon.com/dp/ASIN

Таким образом, вы можете проанализировать ASIN на пути к продукту, а затем просмотреть страницы категорий с разбивкой на страницы, чтобы создать базовый список URL-адресов/ASIN.

Шаг 2. Очистите страницы товаров

Имея под рукой список ASIN или URL-адресов продуктов, вы можете просмотреть каждый из них и извлечь нужные данные с каждой страницы продукта.

Используйте такой инструмент, как Apify, или библиотеку Python, например BeautifulSoup, для анализа HTML и извлечения таких сведений о продукте, как:

  • Название
  • Описание
  • Особенности маркированного списка
  • Цены
  • Рейтинги
  • Фотографии
  • Доступность
  • Варианты вариантов

Чтобы определить цену, обязательно извлеките фактическое числовое значение, например 29.99, а не форматированную цену, например 29.99 доллара США. Это облегчит дальнейший анализ и сравнение.

Изображения можно загрузить на ваш сервер или сохранить URL-ссылки Amazon S3 в электронной таблице.

Чтобы получить отзывы, очистите раздел отзывов или количество отзывов, но не собирайте личную информацию рецензента, например имена.

Шаг 3. Сохраните очищенные данные Amazon.

Поскольку ваш парсер извлекает нужную информацию с каждой страницы продукта, вам захочется где-нибудь сохранить эти данные для дальнейшего анализа и использования.

JSON — хороший стандартный формат для сохранения очищенных данных Amazon. Оттуда его можно загрузить в базу данных или открыть в Excel.

Для больших наборов данных используется такая база данных, как MongoDB более эффективно, чем загрузка в электронные таблицы.

Ковши S3 облачные платформы, такие как AWS, предоставляют доступное хранилище для очищенных наборов данных, размер которых может достигать терабайт.

Шаг 4. Очистите и структурируйте данные.

Необработанные данные неизбежно содержат несоответствия, проблемы с форматированием, пропущенные значения и т. д.

Чтобы создать удобную базу данных продуктов Amazon:

  • Удалить повторяющиеся записи
  • Стандартизируйте цены в едином числовом формате.
  • Проверка и форматирование полей, таких как ASIN и URL-адреса продуктов.
  • Разделить комбинированные поля, такие как количество оценок и средний рейтинг.
  • Заполните или удалите недостающие поля

Используйте библиотеку Python Pandas или OpenRefine для сценариев очистки и преобразования данных.

Для упрощения анализа в Excel убедитесь, что данные о продуктах Amazon очищены:

  • Имеет один товар в строке
  • Использует отдельные столбцы для всех атрибутов (название, рейтинг, цена и т. д.).
  • Удаляет лишние пробелы, запятые и символы из ячеек.

Хорошо структурированные данные облегчают сортировку, фильтрацию и сводку набора данных Amazon для получения ценной информации.

Шаг 5. Анализируйте и отслеживайте данные Amazon.

Теперь самое интересное… что можно сделать с базой данных структурированных данных о продуктах Amazon?

Отслеживание цен – График цен с течением времени для выявления скидок и тенденций.

Мониторинг конкурентов – Проверьте цены и уровень запасов конкурентов.

Amazon SEO – Определите продукты с высоким рейтингом в вашей нише.

Исследование рынка – Фильтруйте самые популярные и самые продаваемые товары по категориям.

Прогнозирование спроса – Прогнозируйте продажи на основе количества отзывов и рейтингов.

Исследование ключевых слов – Анализ названий, характеристик и описаний продуктов.

Регулярное повторное сканирование и обновление набора данных Amazon позволяет получать все виды важной аналитики электронной коммерции.

Расширенные советы по эффективному парсингу Amazon

Вот несколько профессиональных советов, как избежать блокировок и эффективно извлекать данные из Amazon:

  • Ограничить частоту запросов – Относитесь к парсингу ответственно и избегайте бомбардировки серверов.

  • Мониторинг производительности – Проверьте ограничение скорости и CAPTCHA.

  • Используйте прокси – Ротация разных IP-адресов для распределения запросов.

  • Рандомизировать пользовательские агенты – Используйте различные заголовки для настольных компьютеров и мобильных устройств.

  • Повторить неудачные запросы – Грамотно обрабатывать ошибки и повторные попытки.

  • Распараллелить парсинг – Откройте несколько соединений, чтобы ускорить извлечение данных.

  • Применить фильтры – Собирайте только соответствующие данные, чтобы свести к минимуму обработку.

  • Разбить результаты на страницы – Пройдитесь по каждой странице со списком продуктов.

  • Использовать кеширование – Временно сохраните очищенные данные, чтобы избежать повторного очистки.

Получите максимальную отдачу от парсера и создайте надежные и эффективные рабочие процессы для извлечения данных Amazon.

Хотя сбор данных о продуктах Amazon в большинстве случаев является законным, вам все равно следует соблюдать ответственные правила очистки веб-страниц:

  • Уважайте robots.txt – Избегайте очистки страниц, заблокированных robots.txt.

  • Проверьте Условия использования – Подтвердите, что ваш вариант использования разрешен.

  • Ограничить частоту очистки – Распределяйте запросы на более длительные сроки.

  • Очистка выборочно – Не извлекайте больше данных, чем необходимо.

  • Данные атрибута – Укажите Amazon в качестве источника.

  • Защитите данные – Безопасно храните и обрабатывайте данные.

Перед любым крупномасштабным проектом по очистке веб-страниц разумно проконсультироваться с опытным юристом. Но соблюдение разумных ограничений и этики будет иметь большое значение для того, чтобы ваш Amazon оставался честным.

Заключение

Сбор списков продуктов на Amazon обеспечивает доступ к золотой жиле данных электронной торговли. Выполнение шагов, описанных в этом руководстве, поможет вам успешно извлекать информацию из Amazon для исследований, мониторинга, приложений для обработки данных и многого другого — и все это без необходимости использования официального API продуктов Amazon.

Как всегда при парсинге веб-страниц, соблюдайте этические нормы, отслеживайте производительность и используйте такие методы, как прокси-серверы, чтобы избежать блокировок. Обладая некоторыми техническими навыками и передовым опытом, каталог Amazon станет вашим.

Теперь у вас есть все инструменты и знания, необходимые для сбора и использования данных о продуктах Amazon в больших масштабах. Так что иди и царапай!

Присоединяйтесь к беседе

Ваш электронный адрес не будет опубликован. Обязательные поля помечены * *