ウェブ検索は私たちのオンライン生活の基礎です。そして、検索に関しては Google が圧倒的です。調査によると、デスクトップ検索トラフィックの 92% 以上が Google を経由しています。 NetMarketShare.
これは、Google のシステムを利用した月間 63 億件という驚異的な検索数です。この規模の検索データへのアクセスは、開発者や企業にとってデジタル ゴールドのようなものです。しかし、競合他社の Bing とは異なり、Google は API を介してインデックスに直接アクセスすることはできません。
長年にわたり、多くの人が Google の検索データの消防ホースを利用したいと考えてきました。このガイドでは、2024 年の現在、プログラムで Google の検索結果にアクセスするためにどのようなオプションが存在するかについて説明します。これは、「Google Search API」の状況の概要であると考えてください。
具体的には次のことを検討します。
- Google 独自のカスタム検索 API サービス
- Google データを抽出するための Web スクレイピング アプローチ
- 検索 API を提供するサードパーティ サービス
飛び込んでみましょう!
Google の制約付きカスタム検索 API
Google の検索における優位性を考えると、Google が完全なインデックスと結果へのアクセスを許可する API を提供することを期待するかもしれません。しかしそうではありません。
Google は Custom Search API を提供していますが、これは 従来の検索 API:
Custom Search API を使用すると、検索エンジンを作成できます あなたのウェブサイト用 またはウェブサイトのコレクション。検索するサイト、カスタム ブランド、外観などの設定を使用して検索エンジンを構成できます。
Custom Search API には次のような重要な制限があります。
- Web 全体ではなく、定義した特定のサイト/ページのみを検索します。
- 検索できるようにする各サイトを手動で構成する必要があります。
- 結果は Google のインデックスから取得されますが、フィルタリングとランキング基準はユーザーが制御します。
- 無料使用枠では、100 日あたり XNUMX クエリという厳しい制限が課されます。
- 有料使用の料金は 5 クエリあたり 1000 ドルで、10 日あたり最大 XNUMX クエリまでです。
Custom Search API は、カスタマイズされた Google 検索を Web サイトまたは内部ツールに埋め込むことができるようにすることで価値を提供します。しかし、制約により、広範な Google 検索データにアクセスする方法としては使用できなくなります。
例えば、、「最高のラップトップ」というクエリの検索結果を分析したいとします。 Custom Search API を使用すると、特別に設定したサイトでのみそのクエリの結果が表示されます。 Google の全体像を把握する簡単な方法はありません。
このため、多くの開発者は Google の検索結果を利用するための代替方法を模索しています。次にそれらについて説明しましょう。
Googleの検索結果をスクレイピング
Web スクレイピング (Web データ抽出または Web ハーベスティングとも呼ばれる) は、Google 検索データを取得するための一般的な手法となっています。
基本的なアプローチは次のとおりです Google へのクエリをプログラムで自動化し、HTML 結果ページを取得して、必要なデータを抽出します。 – タイトル、リンク、スニペットなど。ある意味、独自のカスタム「Google Search API」を作成していることになります。
Web スクレイピングに使用される一般的なツールとプログラミング言語には次のようなものがあります。
- 汎用言語: Python (Beautiful Soup、Scrapy)、JavaScript/Node.js (Puppeteer、Playwright)、Ruby (Mechanize、Watir)
- ビジュアルツール: Apify、ParseHub、Octoparse
- クラウド サービス: ScrapingBee、Scrapy クラウド、ParseHub クラウド
Web スクレイピングを使用すると、Google 検索結果から非常に豊富な構造化データを取得できます。これも:
- オーガニック検索結果
- 広告
- 関連するクエリ
- 注目のスニペット
- ナレッジグラフ情報
- 画像
- 「ニュース」タブのコンテンツ
- もっと見る
ただし、Google を大規模に Web スクレイピングすると、いくつかの課題が生じます。
- Google は高度なボット検出と CAPTCHA を採用してスクレイピングをブロックします。スクレイパーは回避戦術を使用する必要があります。
- あまりにも多くの IP に分散されたスクレイピングは、完全にブロックされる危険性があります。慎重な調整が必要です。
- 技術的には Google の利用規約に違反します (ただし、強制されることはほとんどありません)。
- Google は定期的に結果ページのデザインを調整し、更新されるまでスクレイパーを無効にします。
したがって、柔軟性と豊富なデータへのアクセスが得られる一方で、Web スクレイピングには公式 API よりも多くの技術スキルとメンテナンスが必要になります。考慮すべきトレードオフ。
落とし穴のスクレイピング
Google 検索を Web スクレイピングするときに発生する主な問題について、もう少し詳しく見てみましょう。
キャプチャ – Google は非常に迅速に CAPTCHA をスクレーパーに表示し、場合によっては最初のリクエストでも表示します。スクレイパーは、課題を分析、解決、回避するためのロジックを実行する必要があります。
IPブロッキング – 1 つの IP からのスクレイピングが強すぎると、その IP にフラグが立てられ、Google のシステムによってブロックされます。したがって、より大きな IP プールを調整し、それらをローテーションする必要があります。
レイアウトの変更 – Google は検索結果ページのデザインを頻繁に微調整します。変更を加えると、ハードコーディングされた HTML 解析に依存するスクレイパーが機能しなくなる可能性があります。スクレーパーは継続的に更新する必要があります。
クエリのバリエーション – 広範囲にわたる固有のクエリをスクレイピングすることは、同じクエリを何度も繰り返すより安全です。頻度が疑念を引き起こします。
ユーザーエージェント – スクレイパーリクエストは、実際のブラウザーのユーザーエージェント文字列を可能な限り模倣し、頻繁にローテーションする必要があります。
これらの問題により Google のスクレイピングは簡単ではなくなりますが、十分な技術的専門知識とインフラストラクチャがあれば克服できます。大規模な商用データのニーズの場合、多くの場合、その投資は価値があります。
サードパーティの検索 API の活用
エンタープライズ グレードの Google スクレイピング ソリューションの構築と維持は複雑です。多くの人は、次のようにしてそのオーバーヘッドを回避することを選択します。 商用サードパーティサービス マネージド Google 検索 API を提供します。
これらのプロバイダーは、堅牢なインフラストラクチャ上で独自の Google スクレイパーを運用し、よりクリーンな API とダッシュボード インターフェイスを通じて集約されたデータを公開します。いくつかの主要なオプション:
セルパピ
SerpApi は、強力な Google 検索 API を提供することだけに重点を置いています。特徴は次のとおりです。
- オーガニック検索、広告、関連検索などの完全な構造化データを含む JSON 応答。
- 世界中の地域ターゲティング。
- ブロックを回避するためのカスタム ユーザー エージェントとプロキシ ローテーション。
- Google オートコンプリートおよび関連検索 API。
- Algolia と ElasticSearch の統合。
- 99.5% の稼働時間 SLA。
料金は、最大 49 クエリに対して月額 5 ドルからです。プランは月額 200 ドルで最大 999 クエリまで可能です。
ラピッドAPI
RapidAPI は、大規模な API マーケットプレイスに加えて、次の機能を備えた専用の Google 検索 API を提供します。
- タイトル、リンク、スニペットなどの一般的なフィールドを含む JSON 応答。
- 場所と言語のパラメータ。
- 関連検索、辞書検索、オートコンプリート API。
- 毎月 500 件のリクエストの無料枠。
- 従量課金制の料金は、15 クエリに対して月額 5 ドルからです。
RapidAPI は、インフラストラクチャ、負荷分散、開発者サポートに多額の投資を行ってきました。
スクレイピングビー
ScrapingBee は Web スクレイピングをマネージド サービスとして提供します。 Google 検索サービスには次のものが含まれます。
- タイトル、リンク、スニペット、画像などが抽出された JSON 結果。
- ブロックを回避するためのグローバルな住宅およびデータセンター IP。
- 1,000 件の検索を無料で試用できます。
- 料金プランは、29 クエリに対して月額 10 ドルから。
ScrapingBee はプロキシ管理と自動化に重点を置いています。
アピファイ
Apify は、大規模な Web データ抽出プラットフォームの一部として Google 検索スクレーパーを提供しています。ハイライト:
- 構造化された JSON 結果 (タイトル、リンク、スニペット、評価、画像など)。
- 構成可能な地域ターゲティングと言語の選択。
- 統合されたプロキシ ローテーションとキャプチャ解決。
- 30日間の無料トライアル。
- プロキシ インフラストラクチャを含むプランは月額 49 ドルから。
Apify は、Google 検索だけでなく、自動化、ストレージ、データ配信のためのツールを提供します。
これらのサービスはどのように機能しますか?
SerpApi、RapidAPI、ScrapingBee、Apify などのサービスは、中核的に次のように機能します。
- 顧客からの API リクエストを受信します。
- これらのリクエストを独自の内部 Google スクレーパーに転送します。
- 複数のプロキシと IP にわたってクエリを大規模に実行します。
- スクレイピングしたデータを構造化します。
- クリーンな JSON 結果を顧客に返します。
大規模な顧客ベース全体でスクレイピング リクエストを集約することで、直接 Web スクレイピングよりも使いやすいインターフェイスを提供しながら、インフラストラクチャのコストを償却できます。
プランと料金の比較
価格とプランはプロバイダーによって異なりますが、いくつかの共通点があります。
- 無料枠 API を試すには 500 ~ 1000 のクエリが必要です。
- スターター有料プラン 約 30 件のクエリに対して月額約 10 ドル。
- プロプラン 50 件以上のクエリの場合、月額 100 ~ 100 ドルの範囲です。
- エンタープライズプラン 500万以上のクエリを必要とする企業向け。
たとえば、Google 検索が 50,000 か月あたり XNUMX 件の場合の料金体系は次のとおりです。
プロバイダー | 価格 |
---|---|
セルパピ | $ 349 /月 |
ラピッドAPI | $ 750 /月 |
スクレイピングビー | $ 179 /月 |
アピファイ | $ 245 /月 |
したがって、基盤となるテクノロジーは似ていますが、クエリと呼び出しの違いを探してください。 クエリ Google に送信される個々の検索用語またはリクエスト。プログラムによって大規模に Google にクエリを実行することは、一連のクエリで検索 API (または Web ページ) を呼び出し、結果を取得することを意味します。したがって、最大クエリ数は、特定の価格レベルで毎月サポートされる検索ボリュームを示します。 料金プランとレベル ほとんどの Google 検索 API は、複数の料金プランまたはレベルを提供しています。階層が低いほど、月々のクエリが少なくなり、基本料金が安くなります。階層が高くなるほどコストは高くなりますが、検索許容量が増加し、優先サポートなどの追加特典が提供されます。運用コスト プロバイダーは、API の運用を維持するためのインフラストラクチャ、人員配置、システムに継続的なコストがかかります。クエリの量が増えると、サーバーや帯域幅などが増加します。プランの価格は、顧客全体にわたって大規模にそれらのコストを回収できるように設定されています。無料枠 ほとんどの API には、料金を支払う前にサービスをテストできるように、ある程度の無料枠が用意されています。一般的には、500 か月あたり 1000 ~ XNUMX 件の無料クエリが発生します。価格体系、クエリ許容量、および独自の機能。
Google 検索 API の将来
検索における Google の優位性を考えると、開発者がこのデータにアクセスする方法は今後も進化すると思われます。今後の展開の可能性としては次のようなものがあります。
より堅牢な有料 API – Google はカスタム検索を、古い Google Search API と同様に、より広範な検索アクセスを備えた有料 API に拡張する可能性があります。これにより、スクレイピングのインセンティブが減少します。
パートナーシップ – Googleは、ショッピングやフライトで行っているように、特定の垂直検索アグリゲーターとより深く提携する可能性があります。
セルフサービススクレイピング – Apify のようなプラットフォームにより、完全なセルフサービスの Google スクレイピングが可能になり、よりアクセスしやすくなる可能性があります。
ブラウザAPI – 構造化データは、Google 検索ページの公式ブラウザ API を通じて公開される可能性があります。
ナレッジグラフAPI – Google のナレッジ グラフには膨大なエンティティ データが含まれており、構造化クエリに対して開くことができます。
現時点では、Web スクレイピングとサードパーティ API が 2024 年に Google 検索データ アクセスを独占する準備ができているようです。しかし、状況は進化し続けているため、注目してください。
Google の膨大な検索インデックスから価値を抽出する
このガイドが、Google の検索結果をプログラムで活用するための現在の状況について有益な概要を提供できれば幸いです。現在利用可能なオプションにより、Google のデータにこれまで以上にアクセスしやすくなります。
個人および小規模のニーズには、直接 Web スクレイピングが最適である可能性があります。ただし、大規模な運用アプリケーションの場合、SerpApi、RapidAPI、ScrapingBee、Apify などのサードパーティ API は、マネージド サービスを通じて大きな価値を提供します。
どのアプローチを選択する場合でも、Google のインデックス化された知識を統合することで、ビジネス、アプリケーション、研究を大幅に強化できます。私たちは、月間 63 億件の検索に隠れている潜在的な価値を活用し始めたばかりです。
読んでくれてありがとう!他にご質問がございましたらお知らせください。