Salta al contenuto

Agenti utente più comuni per il price scraping

Ehi amico! Stai cercando di iniziare con la riduzione dei prezzi? In qualità di professionista esperto di web scraping, sono entusiasta di condividere le mie conoscenze privilegiate per aiutarti ad avere successo. Una delle parti più complicate di qualsiasi progetto di scraping è configurare correttamente gli user agent.

So che all'inizio gli user agent possono sembrare confusi: probabilmente ti starai chiedendo, cos'è un user agent? Lascia che ti spieghi cosa sono e perché sono così importanti per la riduzione dei prezzi.

Cos'è un agente utente?

Ogni volta che il tuo browser invia una richiesta a un sito web, include un breve pezzo di testo chiamato user agent. Ciò identifica i dettagli sul browser e sul sistema operativo che stai utilizzando. Ecco un esempio di stringa dell'agente utente di Chrome su Windows 10:

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36

Come puoi vedere, contiene il nome del browser (Chrome), il numero di versione (74.0.3729.169), le informazioni sulla piattaforma (Windows NT 10.0) e il motore di layout (WebKit/Blink).

Gli user agent forniscono tutte queste informazioni per aiutare i siti Web ad adattare i propri contenuti a diversi browser e dispositivi. Ad esempio, i siti potrebbero offrire pagine più leggere e ottimizzate per dispositivi mobili sui telefoni anziché siti desktop completi sui laptop.

Una breve storia degli agenti utente

I browser hanno incluso stringhe di user agent fin dagli albori del web. Il primo browser creato presso il National Center for Supercomputing Applications (NCSA) chiamato Mosaic aveva un semplice user agent:

NCSA_Mosaic/2.0 (Windows 3.1)

Quando nel 1994 arrivò Netscape Navigator, iniziarono le guerre dei browser. Le aziende hanno combattuto per creare il browser più compatibile con gli standard e con le migliori funzionalità. Stringhe dell'agente utente più dettagliate hanno aiutato i siti Web a rilevare browser diversi.

Internet Explorer e Firefox hanno continuato la guerra negli anni 2000. I loro agenti utente hanno evidenziato tecnologie proprietarie per cercare di ottenere l'ottimizzazione dei siti per loro. Oggi Chrome domina, ma lo user agent sopravvive.

Modifica degli agenti utente per lo scraping

Quindi come si inseriscono gli user agent nel web scraping? I siti spesso bloccano scraper e bot sulla base di user agent sospetti. Uno strumento di scraping comune potrebbe avere un agente utente come:

ScraperBot/3.0

Questo è facile da identificare e bloccare per i siti. Ecco perché dobbiamo falsificare i veri agenti utente del browser durante lo scraping!

Le estensioni del browser come User-Agent Switcher semplificano il test di diversi user agent. Strumenti proxy come Oxylabs ti consentono anche di configurare proxy residenziali con agenti utente mobili, desktop e personalizzati.

La rotazione tra gli user agent del browser reale più comuni è la chiave per qualsiasi scraper di successo. Parliamo di quali user agent probabilmente vedrai.

Agenti utente desktop più comuni

Il panorama dei browser desktop oggi è dominato dai browser che utilizzano il motore Chromium (Chrome, Edge, Brave, Opera, ecc.). Ecco alcuni dei loro ultimi user agent:

Chrome: 
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36

Edge:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36 Edg/108.0.1462.54

Opera:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36 OPR/94.0.0.0

Firefox è il principale motore di browser alternativo che continua ad essere utilizzato in modo significativo:

Firefox:  
Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:107.0) Gecko/20100101 Firefox/107.0
BrowserQuota di mercatomotore
Chrome65.4%Lampeggia (cromato)
Safari18.7%WebKit
Firefox7.2%Geco
bordo4.2%Lampeggia (cromato)

Come puoi vedere, i motori Chromium dominano oggi la navigazione desktop!

Agenti utente mobili più comuni

La navigazione mobile è dominata dalle piattaforme iOS di Apple e Android di Google. Ecco alcuni esempi dei loro user agent:

iOS:

Mozilla/5.0 (iPhone; CPU iPhone OS 15_4 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/15.4 Mobile/15E148 Safari/604.1

Android:

Mozilla/5.0 (Linux; Android 10) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Mobile Safari/537.36

Android ha una quota di mercato più frammentata suddivisa tra le versioni rilasciate:

VersioneNome in codiceQuota di mercato
12Cono di neve26.5%
11Torta di velluto rosso24.2%
10Crostata Di Mele Cotogne22.9%

Questo ti dà un'idea dei principali user agent mobili da imitare per lo scraping.

Perché gli user agent sono importanti per la riduzione dei prezzi

La riduzione dei prezzi spesso richiede un traffico intenso che rende più probabili i blocchi. I siti di e-commerce cercano in modo aggressivo di rilevare i raschiatori che catturano i dati sui prezzi dai concorrenti.

Utilizzare agenti utente autentici e in continua evoluzione è fondamentale per evitare blocchi durante la riduzione dei prezzi. Aiuta i tuoi scraper a mascherarsi da vera attività del browser rispetto ai bot.

Un altro consiglio interessante: alcuni siti potrebbero offrire agli user agent mobili prezzi scontati speciali disponibili solo sulle app mobili! Pertanto, sfruttare gli agenti utente mobili potrebbe fornirti dati sui prezzi migliori.

Testare continuamente nuovi agenti utente

I siti aggiornano continuamente le regole di rilevamento dei bot, quindi dobbiamo testare continuamente nuovi agenti utente nei nostri scraper. Mi piace iniziare con piccoli volumi di test per vedere se un nuovo agente viene bloccato prima di aumentare. Ciò impedisce lo spreco di traffico.

Strumenti proxy come Oxylabs semplificano i test fornendo migliaia di IP residenziali con user agent associati. Posso semplicemente selezionare un nuovo campione casuale per ogni graffio.

La pratica migliore è avere sempre una rotazione diversificata di agenti utente aggiornati e autentici pronti all'uso. Questo gioco del gatto e del topo è solo una parte del lavoro per noi web scraper!

Spero che questi suggerimenti sugli user agent ti aiutino nelle tue avventure di raschiatura dei prezzi. Fatemi sapere se avete altre domande!

Partecipa alla conversazione

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati con *