Zum Inhalt

Die gebräuchlichsten Benutzeragenten für Price Scraping

Hallo Freund! Möchten Sie mit dem Price Scraping beginnen? Als erfahrener Web-Scraping-Profi teile ich gerne mein Insiderwissen, um Ihnen zum Erfolg zu verhelfen. Einer der schwierigsten Teile eines Scraping-Projekts besteht darin, die Benutzeragenten richtig zu konfigurieren.

Ich weiß, dass Benutzeragenten auf den ersten Blick verwirrend wirken können – Sie fragen sich wahrscheinlich, was überhaupt ein Benutzeragent ist? Lassen Sie mich erklären, was sie sind und warum sie für das Price Scraping so wichtig sind.

Was ist ein Benutzeragent?

Immer wenn Ihr Browser eine Anfrage an eine Website sendet, enthält er einen kurzen Text, den sogenannten User Agent. Dadurch werden Details über den von Ihnen verwendeten Browser und das Betriebssystem identifiziert. Hier ist ein Beispiel für eine Benutzeragentenzeichenfolge von Chrome unter Windows 10:

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36

Wie Sie sehen können, enthält es den Browsernamen (Chrome), die Versionsnummer (74.0.3729.169), Plattforminformationen (Windows NT 10.0) und die Layout-Engine (WebKit/Blink).

Benutzeragenten stellen all diese Informationen bereit, um Websites dabei zu helfen, ihre Inhalte für verschiedene Browser und Geräte anzupassen. Beispielsweise könnten Websites kleinere, für Mobilgeräte optimierte Seiten auf Mobiltelefonen bereitstellen, statt vollständige Desktop-Websites auf Laptops.

Eine kurze Geschichte der Benutzeragenten

Schon in den Anfängen des Webs haben Browser User-Agent-Strings integriert. Der erste am National Center for Supercomputing Applications (NCSA) entwickelte Browser namens „Mosaik“ hatte einen einfachen Benutzeragenten:

NCSA_Mosaic/2.0 (Windows 3.1)

Als Netscape Navigator 1994 auf den Markt kam, begannen die Browserkriege. Die Unternehmen kämpften darum, den Browser mit den besten Standards und den besten Funktionen zu entwickeln. Detailliertere User-Agent-Strings halfen Websites dabei, verschiedene Browser zu erkennen.

Internet Explorer und Firefox setzten den Krieg bis in die 2000er Jahre fort. Ihre Benutzeragenten hoben proprietäre Technologien hervor, um zu versuchen, Websites für sie zu optimieren. Heute dominiert Chrome, aber der Benutzeragent lebt weiter.

Benutzeragenten für Scraping ändern

Wie passen Benutzeragenten also zum Web Scraping? Websites blockieren Scraper und Bots häufig auf der Grundlage verdächtiger Benutzeragenten. Ein gängiges Scraping-Tool könnte einen Benutzeragenten wie den folgenden haben:

ScraperBot/3.0

Dies ist für Websites leicht zu identifizieren und zu blockieren. Deshalb müssen wir beim Scraping echte Browser-Benutzeragenten fälschen!

Browsererweiterungen wie User-Agent Switcher erleichtern das Testen verschiedener Benutzeragenten. Mit Proxy-Tools wie Oxylabs können Sie auch private Proxys mit mobilen, Desktop- und benutzerdefinierten Benutzeragenten konfigurieren.

Der Wechsel zwischen den gängigsten echten Browser-Benutzeragenten ist der Schlüssel für jeden erfolgreichen Scraper. Lassen Sie uns darüber sprechen, welche Benutzeragenten Sie wahrscheinlich sehen werden.

Die gängigsten Desktop-Benutzeragenten

Die Desktop-Browserlandschaft wird heute von Browsern dominiert, die die Chromium-Engine verwenden (Chrome, Edge, Brave, Opera usw.). Hier sind einige ihrer neuesten Benutzeragenten:

Chrome: 
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36

Edge:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36 Edg/108.0.1462.54

Opera:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36 OPR/94.0.0.0

Firefox ist die wichtigste alternative Browser-Engine, die immer noch in großem Umfang genutzt wird:

Firefox:  
Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:107.0) Gecko/20100101 Firefox/107.0
BrowserMarktanteilMotor
Chrome65.4%Blink (Chrom)
Safari18.7%WebKit
Firefox7.2%Gecko
Edge4.2%Blink (Chrom)

Wie Sie sehen, dominieren Chromium-Engines heute das Desktop-Browsing!

Die gebräuchlichsten mobilen Benutzeragenten

Mobiles Surfen wird von Apples iOS- und Googles Android-Plattformen dominiert. Hier sind Beispiele ihrer Benutzeragenten:

iOS:

Mozilla/5.0 (iPhone; CPU iPhone OS 15_4 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/15.4 Mobile/15E148 Safari/604.1

Android:

Mozilla/5.0 (Linux; Android 10) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Mobile Safari/537.36

Android hat bei seinen Versionsveröffentlichungen eine stärker fragmentierte Marktanteilsverteilung:

VersionCode NameMarktanteil
12Schnee-Kegel26.5%
11Roter Samtkuchen24.2%
10Quittenkuchen22.9%

Dies gibt Ihnen eine Vorstellung von den wichtigsten mobilen Benutzeragenten, die Sie beim Scraping nachahmen können.

Warum Benutzeragenten beim Price Scraping wichtig sind

Beim Price Scraping ist häufig viel Verkehr erforderlich, was die Wahrscheinlichkeit von Blockaden erhöht. E-Commerce-Websites versuchen aggressiv, Scraper aufzuspüren, die Preisdaten von Wettbewerbern abgreifen.

Der Einsatz authentischer, sich ständig ändernder Benutzeragenten ist entscheidend, um Blockaden beim Price Scraping zu vermeiden. Es hilft Ihren Scrapern dabei, sich als echte Browseraktivität gegenüber Bots auszugeben.

Noch ein cooler Tipp: Einige Websites bieten mobile Benutzeragenten möglicherweise zu ermäßigten Preisen an, die nur für mobile Apps verfügbar sind! Durch den Einsatz mobiler Benutzeragenten könnten Sie also bessere Preisdaten erhalten.

Testen Sie kontinuierlich neue Benutzeragenten

Websites aktualisieren ständig ihre Bot-Erkennungsregeln, daher müssen wir ständig neue Benutzeragenten in unseren Scrapern testen. Ich beginne gerne mit kleinen Testvolumina, um zu sehen, ob ein neuer Agent blockiert wird, bevor ich hochfahre. Dadurch wird verhindert, dass Traffic verschwendet wird.

Proxy-Tools wie Oxylabs erleichtern das Testen, indem sie Tausende von Privat-IPs mit zugehörigen Benutzeragenten bereitstellen. Ich kann einfach für jeden Kratzer eine neue Zufallsstichprobe auswählen.

Die beste Vorgehensweise besteht darin, immer eine vielfältige Rotation aktualisierter, authentischer Benutzeragenten zur Verfügung zu haben. Dieses Katz-und-Maus-Spiel gehört für uns Web-Scraper einfach zum Job!

Ich hoffe, diese User-Agent-Tipps helfen Ihnen bei Ihren Abenteuern beim Preiskratzen. Lassen Sie mich wissen, wenn Sie weitere Fragen haben!

Stichworte:

Mitreden

E-Mail-Adresse wird nicht veröffentlicht. Pflichtfelder sind MIT * gekennzeichnet. *