Bỏ để qua phần nội dung

Những API tìm kiếm hàng đầu của Google năm 2024

Tìm kiếm trên web là nền tảng cho cuộc sống trực tuyến của chúng ta. Và khi nói đến tìm kiếm, Google chiếm ưu thế – hơn 92% lưu lượng tìm kiếm trên máy tính để bàn đi qua chúng theo Netmarketshare.

Đó là con số đáng kinh ngạc là 63 tỷ lượt tìm kiếm mỗi tháng được cung cấp bởi hệ thống của Google. Quyền truy cập vào dữ liệu tìm kiếm ở quy mô đó giống như vàng kỹ thuật số đối với các nhà phát triển và doanh nghiệp. Nhưng không giống như đối thủ cạnh tranh Bing, Google không cung cấp quyền truy cập trực tiếp vào chỉ mục của họ thông qua API.

Trong những năm qua, nhiều người đã muốn khai thác kho dữ liệu tìm kiếm của Google. Trong hướng dẫn này, chúng tôi sẽ đề cập đến những lựa chọn hiện có vào năm 2024 để truy cập vào kết quả của Google theo chương trình. Hãy coi nó như một cái nhìn tổng quan về bối cảnh "API tìm kiếm của Google".

Chúng ta sẽ khám phá cụ thể:

  • Việc cung cấp API tìm kiếm tùy chỉnh của riêng Google
  • Các phương pháp quét web để trích xuất dữ liệu của Google
  • Dịch vụ của bên thứ ba cung cấp API tìm kiếm

Hãy đi sâu vào!

API tìm kiếm tùy chỉnh bị ràng buộc của Google

Với sự thống trị của Google trong tìm kiếm, bạn có thể mong đợi họ cung cấp API cấp quyền truy cập vào chỉ mục và kết quả đầy đủ của họ. Nhưng đó không phải là trường hợp.

Google có cung cấp API tìm kiếm tùy chỉnh, nhưng đây là không API tìm kiếm truyền thống:

API tìm kiếm tùy chỉnh cho phép bạn tạo công cụ tìm kiếm cho trang web của bạn hoặc một bộ sưu tập các trang web. Bạn có thể định cấu hình công cụ tìm kiếm của mình với các cài đặt như trang web nào sẽ tìm kiếm, nhãn hiệu tùy chỉnh, giao diện, v.v.

Một số hạn chế chính trên API tìm kiếm tùy chỉnh:

  • Nó chỉ tìm kiếm trên các trang/trang cụ thể mà bạn xác định chứ không phải toàn bộ trang web.
  • Bạn phải định cấu hình thủ công từng trang web bạn muốn để có thể tìm kiếm.
  • Kết quả đến từ chỉ mục của Google nhưng bạn kiểm soát các tiêu chí lọc và xếp hạng.
  • Bậc sử dụng miễn phí áp đặt giới hạn nghiêm ngặt là 100 truy vấn mỗi ngày.
  • Chi phí sử dụng trả phí là 5 USD cho mỗi 1000 truy vấn, với tối đa 10 nghìn truy vấn mỗi ngày.

API tìm kiếm tùy chỉnh mang lại giá trị bằng cách cho phép bạn nhúng tìm kiếm tùy chỉnh của Google vào trang web hoặc công cụ nội bộ. Nhưng những hạn chế khiến nó không thể sử dụng được như một cách để truy cập dữ liệu tìm kiếm rộng hơn của Google.

Ví dụ, giả sử bạn muốn phân tích kết quả tìm kiếm cho truy vấn "máy tính xách tay tốt nhất". Với API tìm kiếm tùy chỉnh, bạn chỉ có thể xem kết quả cho truy vấn đó trên các trang web mà bạn đã định cấu hình cụ thể. Không có cách nào dễ dàng để có được cái nhìn toàn cảnh về Google.

Điều này thúc đẩy nhiều nhà phát triển tìm kiếm các phương pháp thay thế để khai thác kết quả tìm kiếm của Google. Hãy thảo luận về những điều đó tiếp theo.

Quét kết quả tìm kiếm của Google

Quét web (còn được gọi là trích xuất dữ liệu web hoặc thu thập web) đã trở thành một kỹ thuật phổ biến để lấy dữ liệu tìm kiếm của Google.

Cách tiếp cận cơ bản là tự động hóa các truy vấn tới Google theo chương trình, tìm nạp các trang kết quả HTML, sau đó trích xuất dữ liệu mong muốn – tiêu đề, liên kết, đoạn trích, v.v. Theo một cách nào đó, bạn đang tạo "API Google Tìm kiếm" tùy chỉnh của riêng mình.

Một số công cụ và ngôn ngữ lập trình phổ biến được sử dụng để quét web bao gồm:

  • Ngôn ngữ có mục đích chung: Python (Súp đẹp, Scrapy), Javascript/Node.js (Người múa rối, Nhà viết kịch), Ruby (Cơ giới hóa, Watir)
  • Công cụ trực quan: Apify, ParseHub, Octoparse
  • Dịch vụ điện toán đám mây: ScrapingBee, Đám mây vụn, Đám mây ParseHub

Với tính năng quét web, bạn có thể truy xuất dữ liệu có cấu trúc rất phong phú từ kết quả tìm kiếm của Google. Điêu nay bao gôm:

  • Kết quả tìm kiếm không phải trả tiền
  • quảng cáo
  • Các truy vấn liên quan
  • Đoạn trích nổi bật
  • Thông tin sơ đồ tri thức
  • Hình ảnh
  • Nội dung tab tin tức
  • Và nhiều hơn nữa

Tuy nhiên, việc quét web trên quy mô lớn của Google đặt ra một số thách thức:

  • Google sử dụng tính năng phát hiện bot và CAPTCHA tinh vi để chặn việc thu thập thông tin. Người cào phải sử dụng chiến thuật trốn tránh.
  • Việc quét phân tán trên quá nhiều IP có nguy cơ bị chặn hoàn toàn. Cần sự phối hợp cẩn thận.
  • Về mặt kỹ thuật, trái với Điều khoản dịch vụ của Google (mặc dù hiếm khi được thực thi).
  • Google thường xuyên điều chỉnh thiết kế trang kết quả, loại bỏ các phần còn sót lại cho đến khi chúng được cập nhật.

Vì vậy, mặc dù bạn có được sự linh hoạt và quyền truy cập vào dữ liệu phong phú, nhưng việc quét web đòi hỏi nhiều kỹ năng kỹ thuật và bảo trì hơn so với API chính thức. Sự đánh đổi để xem xét.

Cạo Gotchas

Hãy tìm hiểu sâu hơn một chút về một số khó khăn chính phát sinh khi tìm kiếm trên web trên Google:

  • CAPTCHA – Google rất nhanh chóng hiển thị CAPTCHA cho những người tìm kiếm, thậm chí đôi khi ngay cả ở yêu cầu đầu tiên. Máy cạp cần chạy logic để phân tích, giải quyết và vượt qua các thử thách.

  • Chặn IP – Việc quét quá mạnh từ một IP sẽ khiến hệ thống của Google gắn cờ và chặn nó. Vì vậy, bạn cần sắp xếp một nhóm IP lớn hơn và luân chuyển chúng.

  • Thay đổi bố cục – Google thường xuyên điều chỉnh thiết kế trang kết quả tìm kiếm một chút. Bất kỳ thay đổi nào cũng có thể phá vỡ trình quét dựa trên phân tích cú pháp HTML được mã hóa cứng. Scrapers phải được cập nhật liên tục.

  • Các biến thể truy vấn – Việc loại bỏ nhiều truy vấn duy nhất sẽ an toàn hơn việc lặp đi lặp lại cùng một truy vấn. Tần suất gây ra sự nghi ngờ.

  • Tác nhân người dùng – Yêu cầu của trình thu thập dữ liệu phải bắt chước chuỗi tác nhân người dùng trình duyệt thực càng nhiều càng tốt và xoay vòng chúng thường xuyên.

Mặc dù những vấn đề này khiến việc thu thập dữ liệu của Google không hề đơn giản nhưng chúng có thể được khắc phục nếu có đủ chuyên môn kỹ thuật và cơ sở hạ tầng. Đối với nhu cầu dữ liệu thương mại quy mô lớn, khoản đầu tư đó thường có giá trị.

Tận dụng API tìm kiếm của bên thứ ba

Việc xây dựng và duy trì giải pháp thu thập dữ liệu của Google cấp doanh nghiệp rất phức tạp. Nhiều người chọn cách tránh chi phí đó bằng cách sử dụng dịch vụ thương mại của bên thứ ba cung cấp API tìm kiếm được quản lý của Google.

Các nhà cung cấp này vận hành trình dọn dẹp Google của riêng họ trên cơ sở hạ tầng mạnh mẽ, sau đó hiển thị dữ liệu tổng hợp thông qua giao diện trang tổng quan và API sạch hơn. Một số lựa chọn hàng đầu:

SerpApi

SerpApi chỉ tập trung vào việc cung cấp API tìm kiếm Google mạnh mẽ. Các tính năng bao gồm:

  • Phản hồi JSON với dữ liệu có cấu trúc đầy đủ cho các tìm kiếm không phải trả tiền, quảng cáo, tìm kiếm có liên quan, v.v.
  • Nhắm mục tiêu theo vị trí trên toàn thế giới.
  • Tác nhân người dùng tùy chỉnh và xoay proxy để tránh bị chặn.
  • Tự động hoàn thành của Google và các API tìm kiếm có liên quan.
  • Tích hợp cho Algolia và ElasticSearch.
  • 99.5% thời gian hoạt động SLA.

Giá bắt đầu từ $49/tháng cho tối đa 5 nghìn truy vấn. Các gói có thể lên tới 200 nghìn truy vấn với giá 999 USD/tháng.

API nhanh

Ngoài thị trường API khổng lồ của họ, RapidAPI còn cung cấp API tìm kiếm Google chuyên dụng với các khả năng sau:

  • Phản hồi JSON với các trường phổ biến như tiêu đề, liên kết, đoạn trích.
  • Thông số vị trí và ngôn ngữ.
  • Các tìm kiếm có liên quan, tra cứu từ điển và API tự động hoàn thành.
  • Cấp miễn phí 500 yêu cầu mỗi tháng.
  • Thanh toán theo mức giá bắt đầu từ $15/tháng cho 5 nghìn truy vấn.

RapidAPI đã đầu tư rất nhiều vào cơ sở hạ tầng, cân bằng tải và hỗ trợ nhà phát triển.

CạoBee

ScrapingBee cung cấp dịch vụ quét web dưới dạng dịch vụ được quản lý. Việc cung cấp tìm kiếm Google của họ bao gồm:

  • Kết quả JSON có tiêu đề, liên kết, đoạn trích, hình ảnh, v.v. được trích xuất.
  • IP khu dân cư và trung tâm dữ liệu toàn cầu để tránh bị chặn.
  • Dùng thử miễn phí 1,000 lượt tìm kiếm.
  • Gói giá bắt đầu từ $29/tháng cho 10 nghìn truy vấn.

ScrapingBee tập trung vào quản lý proxy và tự động hóa.

Apify

Apify cung cấp công cụ tìm kiếm Google như một phần của nền tảng trích xuất dữ liệu web lớn hơn của họ. Điểm nổi bật:

  • Kết quả JSON có cấu trúc (tiêu đề, liên kết, đoạn trích, xếp hạng, hình ảnh, v.v.).
  • Nhắm mục tiêu theo vị trí có thể định cấu hình và lựa chọn ngôn ngữ.
  • Tích hợp xoay proxy và giải mã xác thực.
  • 30 ngày dùng thử miễn phí.
  • Các gói từ $49/tháng bao gồm cơ sở hạ tầng proxy.

Apify cung cấp các công cụ tự động hóa, lưu trữ và phân phối dữ liệu ngoài tìm kiếm của Google.

Các dịch vụ này hoạt động như thế nào?

Về cốt lõi, các dịch vụ như SerpApi, RapidAPI, ScrapingBee và Apify hoạt động bằng cách:

  1. Tiếp nhận các yêu cầu API đến từ khách hàng.
  2. Chuyển tiếp những yêu cầu đó vào bộ thu thập dữ liệu nội bộ của Google.
  3. Chạy truy vấn trên quy mô lớn trên nhiều proxy và IP.
  4. Cấu trúc dữ liệu đã được cạo.
  5. Trả về kết quả JSON sạch cho khách hàng.

Bằng cách tổng hợp các yêu cầu thu thập dữ liệu trên cơ sở khách hàng lớn, họ có thể khấu hao chi phí cơ sở hạ tầng trong khi cung cấp giao diện thân thiện hơn so với thu thập dữ liệu web trực tiếp.

So sánh các gói và giá cả

Giá cả và gói khác nhau giữa các nhà cung cấp, nhưng có một số điểm chung:

  • Bậc miễn phí từ 500-1000 truy vấn để thử API.
  • Gói trả phí ban đầu khoảng $30/tháng cho ~10 nghìn truy vấn.
  • Kế hoạch chuyên nghiệp trong phạm vi $50-100/tháng cho hơn 100 nghìn truy vấn.
  • kế hoạch doanh nghiệp dành cho các công ty cần hơn 500K truy vấn.

Ví dụ: đây là cách định giá cho 50,000 lượt tìm kiếm trên Google mỗi tháng:

ProviderGiá cả
SerpApi$ 349 / tháng
API nhanh$ 750 / tháng
CạoBee$ 179 / tháng
Apify$ 245 / tháng

Vì vậy, mặc dù công nghệ cơ bản tương tự nhau, hãy tìm kiếm sự khác biệt trong Truy vấn truy vấn và cuộc gọi Một cụm từ tìm kiếm hoặc yêu cầu riêng lẻ được gửi tới Google Truy vấn theo chương trình trên quy mô lớn có nghĩa là gọi API tìm kiếm (hoặc trang web) của Google bằng một loạt truy vấn và truy xuất kết quả. Vì vậy, số truy vấn tối đa cho biết khối lượng tìm kiếm được hỗ trợ mỗi tháng ở một mức giá nhất định. Gói & bậc giá Hầu hết các API tìm kiếm của Google đều cung cấp nhiều gói hoặc bậc giá. Các cấp thấp hơn cho phép ít truy vấn hàng tháng hơn với mức giá cơ bản rẻ hơn. Các cấp cao hơn có giá cao hơn nhưng đi kèm với các khoản phụ cấp tìm kiếm lớn hơn và các lợi ích bổ sung như hỗ trợ ưu tiên. Chi phí hoạt động Nhà cung cấp phải chịu chi phí liên tục về cơ sở hạ tầng, nhân sự và hệ thống để duy trì hoạt động của API. Khối lượng truy vấn cao hơn thúc đẩy nhiều máy chủ, băng thông, v.v. Các gói được định giá để bù đắp những chi phí đó trên quy mô lớn cho các khách hàng. Bậc miễn phí Hầu hết các API đều cung cấp một số bậc miễn phí để cho phép thử nghiệm dịch vụ trước khi thanh toán. Thông thường có khoảng 500 – 1000 truy vấn miễn phí mỗi tháng. cấu trúc giá, trợ cấp truy vấn và các tính năng độc đáo.

Tương lai của API tìm kiếm của Google

Với tính ưu việt của Google trong tìm kiếm, chúng ta có thể thấy sự phát triển liên tục trong cách các nhà phát triển có thể truy cập dữ liệu này. Dưới đây là một số phát triển có thể xảy ra trong tương lai:

  • API trả phí mạnh mẽ hơn – Google có thể mở rộng Tìm kiếm tùy chỉnh thành API trả phí với quyền truy cập tìm kiếm rộng hơn, tương tự như API tìm kiếm của Google cũ. Điều này sẽ làm giảm động cơ cạo.

  • Quan hệ đối tác – Google có thể hợp tác sâu hơn với các công cụ tổng hợp tìm kiếm theo chiều dọc cụ thể, như họ có trong Mua sắm và Chuyến bay.

  • Tự phục vụ cạo – Các nền tảng như Apify có thể cho phép Google tự phục vụ toàn bộ quá trình quét dữ liệu để giúp nó dễ truy cập hơn.

  • API trình duyệt – Dữ liệu có cấu trúc có thể được hiển thị thông qua API trình duyệt chính thức cho các trang tìm kiếm của Google.

  • API sơ đồ tri thức – Biểu đồ tri thức của Google chứa dữ liệu thực thể khổng lồ và có thể được mở cho các truy vấn có cấu trúc.

Hiện tại, việc quét web và API của bên thứ ba dường như đã sẵn sàng thống trị quyền truy cập dữ liệu tìm kiếm của Google vào năm 2024. Nhưng địa hình vẫn tiếp tục phát triển, vì vậy hãy chú ý theo dõi!

Trích xuất giá trị từ Chỉ mục tìm kiếm rộng lớn của Google

Hy vọng rằng hướng dẫn này đã cung cấp cái nhìn tổng quan hữu ích về bối cảnh hiện tại để tận dụng các kết quả tìm kiếm của Google theo chương trình. Các tùy chọn hiện có ngày nay giúp dữ liệu của Google dễ truy cập hơn bao giờ hết.

Đối với nhu cầu cá nhân và quy mô nhỏ, việc quét web trực tiếp có thể phù hợp nhất. Nhưng đối với các ứng dụng sản xuất lớn hơn, các API của bên thứ ba như SerpApi, RapidAPI, ScrapingBee hoặc Apify mang lại giá trị lớn thông qua các dịch vụ được quản lý của họ.

Cho dù bạn chọn phương pháp tiếp cận nào, việc tích hợp kiến ​​thức được lập chỉ mục của Google có thể nâng cao đáng kể hoạt động kinh doanh, ứng dụng và nghiên cứu. Chúng ta chỉ mới bắt đầu khai thác giá trị tiềm ẩn trong 63 tỷ lượt tìm kiếm hàng tháng đó.

Cảm ơn vì đã đọc! Hãy cho tôi biết nếu bạn có bất kì câu hỏi nào khác.

Tham gia vào cuộc đối thoại

Chúng tôi sẽ không công khai email của bạn. Các ô đánh dấu * là bắt buộc *