перейти к содержанию

Наиболее распространенные пользовательские агенты для сбора цен

Эй друг! Хотите начать работу с ценами? Как опытный специалист по парсингу веб-страниц, я рад поделиться своими инсайдерскими знаниями, которые помогут вам добиться успеха. Одна из самых сложных частей любого проекта парсинга — правильная настройка пользовательских агентов.

Я знаю, что поначалу пользовательские агенты могут показаться запутанными — вам, наверное, интересно, что вообще такое пользовательский агент? Позвольте мне объяснить, что это такое и почему они так важны для сбора цен.

Что такое пользовательский агент?

Всякий раз, когда ваш браузер отправляет запрос на веб-сайт, он включает в себя небольшой фрагмент текста, называемый пользовательским агентом. Здесь указаны сведения о браузере и операционной системе, которые вы используете. Вот пример строки пользовательского агента из Chrome в Windows 10:

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36

Как видите, он содержит имя браузера (Chrome), номер версии (74.0.3729.169), информацию о платформе (Windows NT 10.0) и механизм компоновки (WebKit/Blink).

Пользовательские агенты предоставляют всю эту информацию, чтобы помочь веб-сайтам адаптировать свой контент для разных браузеров и устройств. Например, сайты могут показывать более легкие страницы, оптимизированные для мобильных устройств, для телефонов, а не полноценные сайты для настольных компьютеров на ноутбуках.

Краткая история пользовательских агентов

Браузеры включали строки пользовательского агента с первых дней существования Интернета. Первый браузер под названием Mosaic, созданный в Национальном центре суперкомпьютерных приложений (NCSA), имел простой пользовательский агент:

NCSA_Mosaic/2.0 (Windows 3.1)

Когда в 1994 году появился Netscape Navigator, начались войны браузеров. Компании боролись за создание максимально совместимого со стандартами браузера с лучшими функциями. Более подробные строки пользовательского агента помогли веб-сайтам обнаружить разные браузеры.

Internet Explorer и Firefox продолжали войну на протяжении 2000-х годов. Их пользовательские агенты выделили запатентованные технологии, чтобы попытаться оптимизировать сайты под них. Сегодня Chrome доминирует, но пользовательский агент продолжает жить.

Изменение пользовательских агентов для парсинга

Так как же пользовательские агенты вписываются в парсинг веб-страниц? Сайты часто блокируют парсеры и ботов, основанные на подозрительных пользовательских агентах. Обычный инструмент парсинга может иметь пользовательский агент, например:

ScraperBot/3.0

Сайтам легко идентифицировать и заблокировать эту информацию. Вот почему нам нужно подделывать настоящие пользовательские агенты браузера при парсинге!

Расширения браузера, такие как User-Agent Switcher, упрощают тестирование различных пользовательских агентов. Инструменты прокси, такие как Oxylabs, также позволяют настраивать резидентные прокси с мобильными, настольными и настраиваемыми пользовательскими агентами.

Смена наиболее распространенных реальных пользовательских агентов браузера является ключом к любому успешному парсеру. Давайте поговорим о том, какие пользовательские агенты вы, скорее всего, увидите.

Наиболее распространенные пользовательские агенты для настольных компьютеров

Сегодня в мире настольных браузеров доминируют браузеры, использующие движок Chromium (Chrome, Edge, Brave, Opera и т. д.). Вот некоторые из их последних пользовательских агентов:

Chrome: 
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36

Edge:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36 Edg/108.0.1462.54

Opera:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36 OPR/94.0.0.0

Firefox — основной альтернативный браузерный движок, который до сих пор широко используется:

Firefox:  
Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:107.0) Gecko/20100101 Firefox/107.0
БраузерДоля рынкаДвигатель
Chrome65.4%Блинк (Chromium)
Safari 18.7%WebKit
Firefox7.2%Геккон
Edge4.2%Блинк (Chromium)

Как видите, сегодня движки Chromium доминируют в браузере на настольных компьютерах!

Наиболее распространенные мобильные пользовательские агенты

В мобильном просмотре преобладают платформы iOS от Apple и Android от Google. Вот примеры их пользовательских агентов:

iOS:

Mozilla/5.0 (iPhone; CPU iPhone OS 15_4 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/15.4 Mobile/15E148 Safari/604.1

Android:

Mozilla/5.0 (Linux; Android 10) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Mobile Safari/537.36

Android имеет более фрагментированную долю рынка по выпускам версий:

ВерсияКодовое имяДоля рынка
12Snow Cone26.5%
11Краснобархатный пирог24.2%
10Айвовый пирог22.9%

Это дает вам представление об основных мобильных пользовательских агентах, которые можно имитировать для парсинга.

Почему пользовательские агенты важны для парсинга цен

Скольжение цен часто требует интенсивного трафика, что повышает вероятность блокировки. Сайты электронной коммерции активно пытаются обнаружить скраперы, перехватывающие данные о ценах у конкурентов.

Использование аутентичных, постоянно меняющихся пользовательских агентов имеет решающее значение для предотвращения блокировок при сборе цен. Это помогает вашим парсерам маскироваться под реальную активность браузера по сравнению с ботами.

Еще один полезный совет: некоторые сайты могут предоставлять мобильные пользовательские агенты по специальным ценам со скидкой, доступным только для мобильных приложений! Таким образом, использование мобильных пользовательских агентов может дать вам более точные данные о ценах.

Постоянно тестируйте новые пользовательские агенты

Сайты постоянно обновляют свои правила обнаружения ботов, поэтому нам приходится постоянно тестировать новые пользовательские агенты в наших парсерах. Я предпочитаю начинать с небольших тестовых объемов, чтобы увидеть, не заблокируется ли новый агент, прежде чем наращивать объемы. Это предотвращает потерю трафика.

Прокси-инструменты, такие как Oxylabs, упрощают тестирование, предоставляя тысячи домашних IP-адресов с соответствующими пользовательскими агентами. Я могу просто выбрать новую случайную выборку для каждой царапины.

Лучше всего всегда иметь в наличии разнообразные обновленные, аутентичные пользовательские агенты, готовые к использованию. Эта игра в кошки-мышки — всего лишь часть работы для нас, парсеров!

Я надеюсь, что эти советы по пользовательским агентам помогут вам в ваших приключениях по сбору цен. Дайте мне знать, если у вас есть еще вопросы!

Присоединяйтесь к беседе

Ваш электронный адрес не будет опубликован. Обязательные поля помечены * *