Bỏ để qua phần nội dung

Tác nhân người dùng phổ biến nhất để quét giá

Này bạn! Bạn đang muốn bắt đầu với việc cạo giá? Là một chuyên gia quét web có kinh nghiệm, tôi rất vui được chia sẻ kiến ​​thức nội bộ của mình để giúp bạn thành công. Một trong những phần khó nhất của bất kỳ dự án thu thập dữ liệu nào là cấu hình chính xác các tác nhân người dùng.

Tôi biết tác nhân người dùng ban đầu có vẻ khó hiểu – có thể bạn đang thắc mắc, tác nhân người dùng là gì? Hãy để tôi giải thích chúng là gì và tại sao chúng lại quan trọng đối với việc tăng giá.

Tác nhân người dùng là gì?

Bất cứ khi nào trình duyệt của bạn gửi yêu cầu đến một trang web, nó sẽ bao gồm một đoạn văn bản ngắn được gọi là tác nhân người dùng. Điều này xác định chi tiết về trình duyệt và hệ điều hành bạn đang sử dụng. Dưới đây là chuỗi tác nhân người dùng mẫu từ Chrome trên Windows 10:

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36

Như bạn có thể thấy, nó chứa tên trình duyệt (Chrome), số phiên bản (74.0.3729.169), thông tin nền tảng (Windows NT 10.0) và công cụ bố cục (WebKit/Blink).

Tác nhân người dùng cung cấp tất cả thông tin này để giúp các trang web điều chỉnh nội dung của chúng cho phù hợp với các trình duyệt và thiết bị khác nhau. Ví dụ: các trang web có thể phân phát các trang nhẹ hơn, được tối ưu hóa cho thiết bị di động cho điện thoại so với các trang web dành cho máy tính để bàn hoàn chỉnh trên máy tính xách tay.

Tóm tắt lịch sử của tác nhân người dùng

Các trình duyệt đã bao gồm các chuỗi tác nhân người dùng ngay từ những ngày đầu của web. Trình duyệt đầu tiên được tạo tại Trung tâm ứng dụng siêu máy tính quốc gia (NCSA) có tên là Khảm có một tác nhân người dùng đơn giản:

NCSA_Mosaic/2.0 (Windows 3.1)

Khi Netscape Navigator xuất hiện vào năm 1994, cuộc chiến trình duyệt bắt đầu. Các công ty đã đấu tranh để tạo ra trình duyệt tương thích với tiêu chuẩn nhất với các tính năng tốt nhất. Chuỗi tác nhân người dùng chi tiết hơn đã giúp các trang web phát hiện các trình duyệt khác nhau.

Internet Explorer và Firefox tiếp tục cuộc chiến kéo dài suốt những năm 2000. Tác nhân người dùng của họ nêu bật các công nghệ độc quyền để cố gắng có được các trang web tối ưu hóa cho họ. Ngày nay Chrome thống trị nhưng tác nhân người dùng vẫn tồn tại.

Thay đổi tác nhân người dùng để quét

Vậy làm thế nào để tác nhân người dùng phù hợp với việc quét web? Các trang web thường chặn các trình dọn dẹp và bot dựa trên tác nhân người dùng đáng ngờ. Một công cụ cạo phổ biến có thể có tác nhân người dùng như:

ScraperBot/3.0

Điều này rất dễ dàng để các trang web xác định và chặn. Đó là lý do tại sao chúng ta cần giả mạo các tác nhân người dùng trình duyệt thực sự khi thu thập dữ liệu!

Các tiện ích mở rộng của trình duyệt như Trình chuyển đổi tác nhân người dùng giúp việc kiểm tra các tác nhân người dùng khác nhau trở nên dễ dàng. Các công cụ proxy như Oxylabs cũng cho phép bạn định cấu hình proxy dân dụng với các tác nhân người dùng di động, máy tính để bàn và tùy chỉnh.

Luân chuyển giữa các tác nhân người dùng trình duyệt thực phổ biến nhất là chìa khóa cho bất kỳ trình quét thành công nào. Hãy nói về tác nhân người dùng nào bạn có thể nhìn thấy.

Tác nhân người dùng máy tính để bàn phổ biến nhất

Bối cảnh trình duyệt trên máy tính để bàn ngày nay bị chi phối bởi các trình duyệt sử dụng công cụ Chrome (Chrome, Edge, Brave, Opera, v.v.). Dưới đây là một số tác nhân người dùng mới nhất của họ:

Chrome: 
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36

Edge:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36 Edg/108.0.1462.54

Opera:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36 OPR/94.0.0.0

Firefox là công cụ trình duyệt thay thế chính vẫn được sử dụng đáng kể:

Firefox:  
Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:107.0) Gecko/20100101 Firefox/107.0
trình duyệtChia sẻ thị trườngĐộng cơ
cơ rôm65.4%Nhấp nháy (Chromium)
Safari18.7%WebKit
Firefox7.2%Con cắc kè
Cạnh4.2%Nhấp nháy (Chromium)

Như bạn có thể thấy, công cụ Chrome thống trị trình duyệt trên máy tính để bàn ngày nay!

Tác nhân người dùng di động phổ biến nhất

Trình duyệt trên thiết bị di động bị chi phối bởi nền tảng iOS của Apple và Android của Google. Dưới đây là ví dụ về tác nhân người dùng của họ:

iOS:

Mozilla/5.0 (iPhone; CPU iPhone OS 15_4 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/15.4 Mobile/15E148 Safari/604.1

Android:

Mozilla/5.0 (Linux; Android 10) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Mobile Safari/537.36

Android có thị phần bị phân mảnh hơn giữa các phiên bản phát hành:

phiên bảnTên mãChia sẻ thị trường
12Nón tuyết26.5%
11Bánh nhung đỏ24.2%
10quince tart22.9%

Điều này cung cấp cho bạn ý tưởng về các tác nhân người dùng di động chính có thể bắt chước để thu thập dữ liệu.

Tại sao tác nhân người dùng lại quan trọng đối với việc thu thập giá

Việc cào giá thường đòi hỏi lưu lượng truy cập lớn khiến khả năng bị chặn cao hơn. Các trang web thương mại điện tử tích cực cố gắng phát hiện những kẻ phá hoại lấy dữ liệu về giá từ các đối thủ cạnh tranh.

Sử dụng tác nhân người dùng xác thực, thay đổi liên tục là rất quan trọng để tránh bị chặn khi tăng giá. Nó giúp người dọn dẹp của bạn giả trang thành hoạt động thực sự của trình duyệt so với bot.

Một mẹo thú vị khác - một số trang web có thể cung cấp cho đại lý người dùng thiết bị di động mức giá chiết khấu đặc biệt chỉ có trên ứng dụng di động! Vì vậy, việc tận dụng tác nhân người dùng di động có thể giúp bạn có được dữ liệu về giá tốt hơn.

Liên tục thử nghiệm tác nhân người dùng mới

Các trang web luôn cập nhật các quy tắc phát hiện bot của họ, vì vậy chúng tôi phải liên tục kiểm tra các tác nhân người dùng mới trong trình dọn dẹp của mình. Tôi muốn bắt đầu với số lượng thử nghiệm nhỏ để xem liệu tác nhân mới có bị chặn hay không trước khi tăng tốc. Điều này ngăn ngừa lãng phí lưu lượng truy cập.

Các công cụ proxy như Oxylabs giúp việc kiểm tra dễ dàng hơn bằng cách cung cấp hàng nghìn IP dân cư cùng với các tác nhân người dùng được liên kết. Tôi có thể chỉ cần chọn một mẫu ngẫu nhiên mới cho mỗi lần trích xuất.

Cách thực hành tốt nhất là luôn có sẵn một loạt các tác nhân người dùng xác thực, được cập nhật và sẵn sàng để sử dụng. Trò chơi mèo vờn chuột này chỉ là một phần công việc của những người quét web như chúng tôi!

Tôi hy vọng những mẹo về tác nhân người dùng này sẽ giúp bạn trong cuộc phiêu lưu tìm kiếm giá của mình. Hãy cho tôi biết nếu bạn có bất kì câu hỏi nào khác!

Tham gia vào cuộc đối thoại

Chúng tôi sẽ không công khai email của bạn. Các ô đánh dấu * là bắt buộc *