跳到内容

最常见的抄价用户代理

你好朋友! 您想开始进行价格抓取吗? 作为一名经验丰富的网络抓取专家,我很高兴分享我的内部知识以帮助您取得成功。 任何抓取项目中最棘手的部分之一就是正确配置用户代理。

我知道用户代理一开始可能会让人感到困惑——您可能想知道,用户代理到底是什么? 让我解释一下它们是什么以及为什么它们对于价格抓取如此重要。

什么是用户代理?

每当您的浏览器向网站发送请求时,它都会包含一段称为用户代理的短文本。 这标识了有关您正在使用的浏览器和操作系统的详细信息。 以下是 Windows 10 上 Chrome 的用户代理字符串示例:

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36

如您所见,它包含浏览器名称(Chrome)、版本号(74.0.3729.169)、平台信息(Windows NT 10.0)和布局引擎(WebKit/Blink)。

用户代理提供所有这些信息,以帮助网站针对不同的浏览器和设备调整其内容。 例如,网站可能会为手机提供更轻量、针对移动设备优化的页面,而不是在笔记本电脑上提供完整的桌面网站。

用户代理简史

从网络早期开始,浏览器就包含了用户代理字符串。 第一个由国家超级计算应用中心 (NCSA) 创建的名为 Mosaic 的浏览器有一个简单的用户代理:

NCSA_Mosaic/2.0 (Windows 3.1)

当 Netscape Navigator 于 1994 年问世时,浏览器之战就开始了。 各家公司都在努力打造最兼容标准、具有最佳功能的浏览器。 更详细的用户代理字符串可以帮助网站检测不同的浏览器。

Internet Explorer 和 Firefox 的战争持续到了 2000 年代。 他们的用户代理强调了专有技术,试图让网站针对他们进行优化。 如今,Chrome 占据主导地位,但用户代理仍然存在。

更改用户代理以进行抓取

那么用户代理如何适应网络抓取呢? 网站通常会根据可疑的用户代理来阻止抓取工具和机器人。 常见的抓取工具可能有一个用户代理,例如:

ScraperBot/3.0

这很容易被网站识别和阻止。 这就是为什么我们在抓取时需要欺骗真实的浏览器用户代理!

像 User-Agent Switcher 这样的浏览器扩展可以轻松测试不同的用户代理。 Oxylabs 等代理工具还允许您使用移动、桌面和自定义用户代理配置住宅代理。

在最常见的真实浏览器用户代理之间轮换是任何成功抓取工具的关键。 让我们谈谈您可能会看到哪些用户代理。

最常见的桌面用户代理

当今的桌面浏览器格局由使用 Chromium 引擎的浏览器(Chrome、Edge、Brave、Opera 等)主导。 以下是他们的一些最新的用户代理:

Chrome: 
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36

Edge:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36 Edg/108.0.1462.54

Opera:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36 OPR/94.0.0.0

Firefox 是主要的替代浏览器引擎,仍然得到广泛使用:

Firefox:  
Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:107.0) Gecko/20100101 Firefox/107.0
浏览器市场份额发动机
65.4%闪烁(铬)
Safari18.7%WebKit的
火狐7.2%壁虎
边缘4.2%闪烁(铬)

如您所见,Chromium 引擎主导了当今的桌面浏览!

最常见的移动用户代理

移动浏览主要由苹果的 iOS 和谷歌的 Android 平台主导。 以下是他们的用户代理的示例:

iOS:

Mozilla/5.0 (iPhone; CPU iPhone OS 15_4 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/15.4 Mobile/15E148 Safari/604.1

Android:

Mozilla/5.0 (Linux; Android 10) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Mobile Safari/537.36

Android 的各个版本的市场份额分布更加分散:

版本代码名称市场份额
12雪锥26.5%
11红色天鹅绒蛋糕24.2%
10木瓜T22.9%

这让您了解模仿抓取的主要移动用户代理。

为什么用户代理对于价格抓取很重要

价格爬取通常需要大量流量,这使得封锁的可能性更大。 电子商务网站积极尝试检测抓取竞争对手价格数据的爬虫。

使用真实的、不断变化的用户代理对于避免价格抓取时的阻塞至关重要。 它可以帮助您的抓取工具伪装成真实的浏览器活动而不是机器人。

另一个很酷的提示 - 某些网站可能会为移动用户代理提供仅在移动应用程序上提供的特别折扣价格! 因此,利用移动用户代理可以获得更好的定价数据。

不断测试新的用户代理

网站总是在更新他们的机器人检测规则,因此我们必须不断在我们的抓取工具中测试新的用户代理。 我喜欢从小测试量开始,看看新的代理在增加量之前是否会被阻止。 这可以防止浪费流量。

Oxylabs 等代理工具通过提供数千个住宅 IP 和关联的用户代理,使测试变得更加容易。 我可以简单地为每次刮擦选择一个新的随机样本。

最佳实践是始终拥有多种可供使用的更新的、真实的用户代理。 这个猫捉老鼠的游戏只是我们网络爬虫工作的一部分!

我希望这些用户代理提示对您的价格抓取冒险有所帮助。 如果您还有其他问题,请告诉我!

标签:

加入谈话

您的电邮地址不会被公开。 必填带 *