Meteen naar de inhoud

Meest voorkomende user-agents voor prijsschrapen

Hallo vriend! Wilt u aan de slag met prijsschrapen? Als ervaren webscraping-professional deel ik graag mijn voorkennis om u te helpen slagen. Een van de lastigste onderdelen van elk scrapingproject is het correct configureren van de user-agents.

Ik weet dat user-agents in eerste instantie verwarrend kunnen lijken. Je vraagt ​​je waarschijnlijk af: wat is een user-agent eigenlijk? Laat me uitleggen wat ze zijn en waarom ze zo belangrijk zijn voor het schrappen van de prijzen.

Wat is een user-agent?

Wanneer uw browser een verzoek naar een website verzendt, bevat deze een kort stukje tekst dat de user-agent wordt genoemd. Hiermee worden details geïdentificeerd over de browser en het besturingssysteem dat u gebruikt. Hier is een voorbeeld van een gebruikersagentreeks van Chrome op Windows 10:

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36

Zoals u kunt zien, bevat het de browsernaam (Chrome), versienummer (74.0.3729.169), platforminformatie (Windows NT 10.0) en de layout-engine (WebKit/Blink).

User Agents leveren al deze informatie om websites te helpen hun inhoud aan te passen voor verschillende browsers en apparaten. Sites kunnen bijvoorbeeld lichtere, voor mobiel geoptimaliseerde pagina's weergeven op telefoons, in plaats van volledige desktopsites op laptops.

Een korte geschiedenis van user-agents

Browsers hebben vanaf de begindagen van het internet user-agentstrings opgenomen. De eerste browser gemaakt door het National Center for Supercomputing Applications (NCSA), genaamd Mozaïek, had een eenvoudige user-agent:

NCSA_Mosaic/2.0 (Windows 3.1)

Toen Netscape Navigator in 1994 uitkwam, begonnen de browseroorlogen. Bedrijven hebben gestreden om de meest standaard-compatibele browser met de beste functies te maken. Gedetailleerdere user-agentreeksen hielpen websites verschillende browsers te detecteren.

Internet Explorer en Firefox zetten de oorlog voort tot in de jaren 2000. Hun user agents benadrukten propriëtaire technologieën om te proberen sites voor hen te optimaliseren. Tegenwoordig domineert Chrome, maar de user-agent leeft voort.

Gebruikersagenten wijzigen voor scrapen

Dus hoe passen user agents in webscraping? Sites blokkeren vaak scrapers en bots op basis van verdachte user-agents. Een veelgebruikte scrapingtool kan een user-agent hebben zoals:

ScraperBot/3.0

Dit is voor sites gemakkelijk te identificeren en te blokkeren. Daarom moeten we bij het scrapen echte browsergebruikersagenten spoofen!

Browserextensies zoals User-Agent Switcher maken het eenvoudig om verschillende user-agents te testen. Met proxytools zoals Oxylabs kunt u ook residentiële proxy's configureren met mobiele, desktop- en aangepaste user-agents.

Roteren tussen de meest voorkomende echte browsergebruikersagenten is de sleutel voor elke succesvolle scraper. Laten we eens kijken welke user-agents u waarschijnlijk zult tegenkomen.

Meest voorkomende desktopgebruikersagenten

Het desktopbrowserlandschap wordt tegenwoordig gedomineerd door browsers die de Chromium-engine gebruiken (Chrome, Edge, Brave, Opera, enz.). Hier zijn enkele van hun nieuwste user-agents:

Chrome: 
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36

Edge:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36 Edg/108.0.1462.54

Opera:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36 OPR/94.0.0.0

Firefox is de belangrijkste alternatieve browser-engine die nog steeds veel wordt gebruikt:

Firefox:  
Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:107.0) Gecko/20100101 Firefox/107.0
browserMarktaandeelMotor
Chrome65.4%Knipperen (chroom)
Safari18.7%WebKit
Firefox7.2%Gekko
rand4.2%Knipperen (chroom)

Zoals u kunt zien, domineren Chromium-engines tegenwoordig het browsen op het bureaublad!

Meest voorkomende mobiele user-agents

Mobiel browsen wordt gedomineerd door Apple's iOS- en Google's Android-platforms. Hier zijn voorbeelden van hun user-agents:

iOS:

Mozilla/5.0 (iPhone; CPU iPhone OS 15_4 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/15.4 Mobile/15E148 Safari/604.1

Android:

Mozilla/5.0 (Linux; Android 10) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Mobile Safari/537.36

Android heeft een meer gefragmenteerd marktaandeel verdeeld over de versiereleases:

VersieCodenaamMarktaandeel
12Ijshoorntje26.5%
11Rode fluweeltaart24.2%
10Kweepeer Taart22.9%

Dit geeft u een idee van de belangrijkste mobiele user-agents die u kunt nabootsen voor scraping.

Waarom User Agents belangrijk zijn voor prijsschrapen

Prijsschrapen vereist vaak veel verkeer, waardoor blokkades waarschijnlijker worden. E-commercesites proberen op agressieve wijze scrapers te detecteren die prijsgegevens van concurrenten bemachtigen.

Het gebruik van authentieke, voortdurend veranderende user agents is cruciaal om blokkades bij prijsschrapen te voorkomen. Het helpt uw ​​scrapers zich voor te doen als echte browseractiviteit versus bots.

Nog een leuke tip: sommige sites bieden speciale kortingsprijzen voor mobiele user agents die alleen beschikbaar zijn in mobiele apps! Door gebruik te maken van mobiele user agents kunt u dus betere prijsgegevens verkrijgen.

Test voortdurend nieuwe user-agents

Sites werken hun botdetectieregels voortdurend bij, dus we moeten voortdurend nieuwe user-agents in onze scrapers testen. Ik begin graag met kleine testvolumes om te zien of een nieuwe agent wordt geblokkeerd voordat deze wordt opgevoerd. Dit voorkomt verspilling van verkeer.

Proxytools zoals Oxylabs maken het testen eenvoudiger door duizenden residentiële IP's aan te bieden met bijbehorende user agents. Voor elk schraapje kan ik eenvoudig een nieuw willekeurig monster selecteren.

De beste praktijk is om altijd een gevarieerde rotatie van bijgewerkte, authentieke user agents klaar te hebben voor gebruik. Dit kat-en-muisspel is slechts een deel van het werk voor ons webschrapers!

Ik hoop dat deze tips voor gebruikersagenten je helpen bij je avonturen met het schrappen van prijzen. Laat het me weten als je nog vragen hebt!

Doe mee aan het gesprek

Uw e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd *