Ir al contenido

Agentes de usuario más comunes para el raspado de precios

¡Hola amigo! ¿Está buscando comenzar con la reducción de precios? Como profesional experimentado en web scraping, me complace compartir mis conocimientos internos para ayudarle a tener éxito. Una de las partes más complicadas de cualquier proyecto de scraping es configurar correctamente los agentes de usuario.

Sé que los agentes de usuario pueden parecer confusos al principio; probablemente te estés preguntando: ¿qué es un agente de usuario? Permítanme explicarles qué son y por qué son tan importantes para la reducción de precios.

¿Qué es un agente de usuario?

Cada vez que su navegador envía una solicitud a un sitio web, incluye un breve fragmento de texto llamado agente de usuario. Esto identifica detalles sobre el navegador y el sistema operativo que estás utilizando. Aquí hay un ejemplo de cadena de agente de usuario de Chrome en Windows 10:

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36

Como puede ver, contiene el nombre del navegador (Chrome), el número de versión (74.0.3729.169), la información de la plataforma (Windows NT 10.0) y el motor de diseño (WebKit/Blink).

Los agentes de usuario proporcionan toda esta información para ayudar a los sitios web a adaptar su contenido a diferentes navegadores y dispositivos. Por ejemplo, los sitios pueden ofrecer páginas más ligeras y optimizadas para dispositivos móviles a teléfonos en lugar de sitios completos de escritorio en computadoras portátiles.

Una breve historia de los agentes de usuario

Los navegadores han incluido cadenas de agentes de usuario desde los primeros días de la web. El primer navegador creado en el Centro Nacional de Aplicaciones de Supercomputación (NCSA) llamado Mosaic tenía un agente de usuario simple:

NCSA_Mosaic/2.0 (Windows 3.1)

Cuando llegó Netscape Navigator en 1994, comenzó la guerra de los navegadores. Las empresas lucharon para crear el navegador más compatible con los estándares y con las mejores funciones. Cadenas de agentes de usuario más detalladas ayudaron a los sitios web a detectar diferentes navegadores.

Internet Explorer y Firefox continuaron la guerra durante la década de 2000. Sus agentes de usuario destacaron tecnologías patentadas para intentar que los sitios se optimizaran para ellos. Hoy Chrome domina, pero el agente de usuario sigue vivo.

Cambiar agentes de usuario para scraping

Entonces, ¿cómo encajan los agentes de usuario en el web scraping? Los sitios a menudo bloquean scrapers y bots basándose en agentes de usuario sospechosos. Una herramienta de scraping común podría tener un agente de usuario como:

ScraperBot/3.0

Esto es fácil de identificar y bloquear para los sitios. ¡Es por eso que necesitamos falsificar agentes de usuario de navegador reales al realizar scraping!

Las extensiones del navegador como User-Agent Switcher facilitan la prueba de diferentes agentes de usuario. Las herramientas de proxy como Oxylabs también le permiten configurar servidores proxy residenciales con agentes de usuario móviles, de escritorio y personalizados.

Rotar entre los agentes de usuario de navegadores reales más comunes es clave para cualquier scraper exitoso. Hablemos de qué agentes de usuario es probable que vea.

Agentes de usuario de escritorio más comunes

El panorama actual de los navegadores de escritorio está dominado por los navegadores que utilizan el motor Chromium (Chrome, Edge, Brave, Opera, etc.). Estos son algunos de sus últimos agentes de usuario:

Chrome: 
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36

Edge:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36 Edg/108.0.1462.54

Opera:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36 OPR/94.0.0.0

Firefox es el principal motor de navegador alternativo que todavía tiene un uso significativo:

Firefox:  
Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:107.0) Gecko/20100101 Firefox/107.0
NavegadorCuota de mercadoMotor
Chrome65.4%Parpadeo (cromo)
Safari18.7%WebKit
Firefox7.2%Geco
Southern Implants4.2%Parpadeo (cromo)

Como puede ver, ¡los motores Chromium dominan la navegación de escritorio en la actualidad!

Agentes de usuarios móviles más comunes

La navegación móvil está dominada por las plataformas iOS de Apple y Android de Google. A continuación se muestran ejemplos de sus agentes de usuario:

iOS:

Mozilla/5.0 (iPhone; CPU iPhone OS 15_4 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/15.4 Mobile/15E148 Safari/604.1

Android:

Mozilla/5.0 (Linux; Android 10) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Mobile Safari/537.36

Android tiene una cuota de mercado más fragmentada dividida entre los lanzamientos de sus versiones:

VersiónNombre claveCuota de mercado
12Cono de nieve26.5%
11Pastel de terciopelo rojo24.2%
10Tarta de membrillo22.9%

Esto le da una idea de los principales agentes de usuario móviles que debe imitar para el scraping.

Por qué los agentes de usuario son importantes para la reducción de precios

El raspado de precios a menudo requiere mucho tráfico, lo que aumenta la probabilidad de bloqueos. Los sitios de comercio electrónico intentan agresivamente detectar a los raspadores que obtienen datos de precios de los competidores.

El uso de agentes de usuario auténticos y en constante cambio es crucial para evitar bloqueos al reducir los precios. Ayuda a sus raspadores a disfrazarse de actividad real del navegador frente a bots.

Otro consejo interesante: algunos sitios pueden ofrecer agentes de usuarios móviles con precios especiales con descuento que solo están disponibles en aplicaciones móviles. Por lo tanto, aprovechar los agentes de usuarios móviles podría brindarle mejores datos sobre precios.

Pruebe continuamente nuevos agentes de usuario

Los sitios siempre actualizan sus reglas de detección de bots, por lo que tenemos que probar continuamente nuevos agentes de usuario en nuestros raspadores. Me gusta comenzar con pequeños volúmenes de prueba para ver si se bloquea un nuevo agente antes de aumentar. Esto evita el desperdicio de tráfico.

Las herramientas proxy como Oxylabs facilitan las pruebas al proporcionar miles de IP residenciales con agentes de usuario asociados. Simplemente puedo seleccionar una nueva muestra aleatoria para cada raspado.

La mejor práctica es tener siempre una rotación diversa de agentes de usuario auténticos y actualizados, listos para usar. ¡Este juego del gato y el ratón es solo parte del trabajo para nosotros, los web scrapers!

Espero que estos consejos para agentes de usuario le ayuden en sus aventuras de búsqueda de precios. ¡Déjame saber si tienes alguna otra pregunta!

Únase a la conversación

Su dirección de correo electrónico no será publicada. Las areas obligatorias están marcadas como requeridas *