перейти к содержанию

Поиск в Интернете является краеугольным камнем нашей онлайн-жизни. А когда дело доходит до поиска, Google доминирует: через них проходит более 92% поискового трафика на ПК. NetMarketShare.

Это поразительные 63 миллиарда поисковых запросов в месяц, обеспечиваемые системами Google. Доступ к поисковым данным такого масштаба — это цифровое золото для разработчиков и бизнеса. Но в отличие от своего конкурента Bing, Google не предоставляет прямого доступа к своему индексу через API.

На протяжении многих лет многие хотели подключиться к потоку поисковых данных Google. В этом руководстве мы расскажем, какие варианты существуют сегодня в 2024 году для программного доступа к результатам Google. Думайте об этом как об обзоре ландшафта «API поиска Google».

Мы специально изучим:

  • Собственный API пользовательского поиска Google.
  • Подходы к парсингу веб-страниц для извлечения данных Google
  • Сторонние службы, предоставляющие API поиска.

Давайте погрузимся!

API ограниченного пользовательского поиска Google

Учитывая доминирование Google в поиске, можно ожидать, что они предоставят API, предоставляющий доступ к их полному индексу и результатам. Но это не тот случай.

Google предлагает API пользовательского поиска, но это не традиционный поисковый API:

API пользовательского поиска позволяет создать поисковую систему. для вашего сайта или набор веб-сайтов. Вы можете настроить свою поисковую систему, указав такие параметры, как сайты для поиска, индивидуальный брендинг, внешний вид и т. д.

Некоторые ключевые ограничения API пользовательского поиска:

  • Он выполняет поиск только по определенным вами сайтам/страницам, а не по всей сети.
  • Вам необходимо вручную настроить каждый сайт, на котором вы хотите иметь возможность осуществлять поиск.
  • Результаты поступают из индекса Google, но вы сами контролируете критерии фильтрации и ранжирования.
  • Уровень бесплатного использования накладывает строгий лимит в 100 запросов в день.
  • Платное использование стоит 5 долларов США за 1000 запросов, максимум 10 тысяч запросов в день.

API пользовательского поиска предлагает свою ценность, позволяя встроить персонализированный поиск Google в веб-сайт или внутренний инструмент. Но ограничения делают его непригодным для доступа к более широким данным поиска Google.

НапримерПредположим, вы хотите проанализировать результаты поиска по запросу «лучшие ноутбуки». С помощью API пользовательского поиска вы могли видеть результаты по этому запросу только на сайтах, которые вы специально настроили. Нет простого способа получить полное представление о Google.

Это заставляет многих разработчиков искать альтернативные методы использования результатов поиска Google. Давайте обсудим их дальше.

Парсинг результатов поиска Google

Веб-скрейпинг (также называемый извлечением веб-данных или веб-сбором данных) стал популярным методом получения данных поиска Google.

Основной подход заключается в программно автоматизировать запросы к Google, получать страницы результатов HTML, а затем извлекать нужные данные – заголовок, ссылки, фрагменты и т. д. В каком-то смысле вы создаете свой собственный «API поиска Google».

Некоторые распространенные инструменты и языки программирования, используемые для парсинга веб-страниц, включают:

  • Языки общего назначения: Python (Beautiful Soup, Scrapy), Javascript/Node.js (Кукловод, Драматург), Ruby (Механизация, Watir)
  • Визуальные инструменты: Apify, ParseHub, Octoparse
  • Облачные сервисы: ScrapingBee, Scrapy Cloud, Облако ParseHub

С помощью парсинга веб-страниц вы можете получить очень обширные структурированные данные из результатов поиска Google. Это включает в себя:

  • Органические результаты поиска
  • объявления
  • Похожие запросы
  • Избранные фрагменты
  • Информация о графике знаний
  • Фотографии
  • Содержимое вкладки новостей
  • И многое другое

Тем не менее, масштабный парсинг Google действительно создает некоторые проблемы:

  • Google использует сложное обнаружение ботов и CAPTCHA для блокировки парсинга. Скребки должны использовать тактику уклонения.
  • Парсинг, распределенный по слишком большому количеству IP-адресов, рискует быть полностью заблокированным. Требует тщательной оркестровки.
  • Технически противоречит Условиям использования Google (хотя они редко соблюдаются).
  • Google регулярно меняет дизайн страниц результатов, ломая парсеры до тех пор, пока они не обновятся.

Таким образом, хотя вы получаете гибкость и доступ к обширным данным, парсинг веб-страниц требует больше технических навыков и обслуживания, чем официальный API. Компромиссы, которые следует учитывать.

Выскабливание ошибок

Давайте углубимся в некоторые ключевые трудности, которые возникают при парсинге веб-поиска Google:

  • CAPTCHAs – Google очень быстро показывает CAPTCHA парсерам, иногда даже по первому запросу. Парсеру необходимо использовать логику для анализа, решения и обхода проблем.

  • Блокировка IP – Слишком интенсивный сбор данных с одного IP-адреса приведет к его пометке и блокировке системами Google. Поэтому вам необходимо организовать больший пул IP-адресов и чередовать их.

  • Сдвиги макета – Google часто немного меняет дизайн страницы результатов поиска. Любое изменение может сломать парсер, основанный на жестко закодированном анализе HTML. Скребки необходимо постоянно обновлять.

  • Варианты запроса – Парсинг широкого спектра уникальных запросов безопаснее, чем повторение одних и тех же снова и снова. Частота вызывает подозрения.

  • Агенты пользователей – Запросы парсера должны максимально имитировать реальные строки пользовательского агента браузера и часто их чередовать.

Хотя эти проблемы делают парсинг Google нетривиальным, их можно преодолеть при наличии достаточного технического опыта и инфраструктуры. Для крупномасштабных коммерческих потребностей в данных эти инвестиции часто оправдывают себя.

Использование сторонних API поиска

Создание и поддержка решения для парсинга Google корпоративного уровня — сложная задача. Многие предпочитают избежать этих накладных расходов, используя коммерческие сторонние услуги которые предлагают управляемые API поиска Google.

Эти провайдеры используют собственные парсеры Google в надежной инфраструктуре, а затем предоставляют агрегированные данные через более чистые API и интерфейсы информационной панели. Некоторые ведущие варианты:

СерпАпи

SerpApi фокусируется исключительно на предоставлении мощного API поиска Google. Особенности включают в себя:

  • Ответы в формате JSON с полными структурированными данными для органического поиска, рекламы, связанных запросов и т. д.
  • Геотаргетинг по всему миру.
  • Пользовательские пользовательские агенты и ротация прокси-серверов во избежание блокировок.
  • API автозаполнения Google и связанных поисковых запросов.
  • Интеграция Algolia и ElasticSearch.
  • SLA со 99.5% безотказной работой.

Цены начинаются от 49 долларов США в месяц для запросов до 5 тыс. Планы доходят до 200 тысяч запросов за 999 долларов в месяц.

РапидAPI

В дополнение к огромному рынку API RapidAPI предлагает специальный API поиска Google со следующими возможностями:

  • Ответы в формате JSON с общими полями, такими как заголовок, ссылка и фрагмент.
  • Местоположение и языковые параметры.
  • Связанные запросы, поиск по словарю и API автозаполнения.
  • Бесплатный уровень 500 запросов в месяц.
  • Платите по мере использования, цена начинается от 15 долларов США в месяц за 5 XNUMX запросов.

RapidAPI вложил значительные средства в инфраструктуру, балансировку нагрузки и поддержку разработчиков.

Соскоб

ScrapingBee предоставляет парсинг веб-страниц как управляемую услугу. Их предложение поиска Google включает в себя:

  • Результаты JSON с извлеченными заголовками, ссылками, фрагментами, изображениями и т. д.
  • Глобальные IP-адреса жилых домов и центров обработки данных, чтобы избежать блокировок.
  • Бесплатная пробная версия на 1,000 поисков.
  • Ценовые планы от 29 долларов США в месяц за 10 тысяч запросов.

ScrapingBee фокусируется на управлении и автоматизации прокси.

апифай

Apify предлагает парсер поиска Google как часть своей более крупной платформы для извлечения веб-данных. Основные моменты:

  • Структурированные результаты JSON (заголовок, ссылка, фрагмент, рейтинги, изображения и т. д.).
  • Настраиваемый геотаргетинг и выбор языка.
  • Интегрированная ротация прокси и решение капчи.
  • 30-дневная бесплатная пробная версия.
  • Планы от 49 долларов в месяц, включая прокси-инфраструктуру.

Apify предоставляет инструменты для автоматизации, хранения и доставки данных, помимо поиска в Google.

Как работают эти услуги?

По своей сути такие сервисы, как SerpApi, RapidAPI, ScrapingBee и Apify, работают следующим образом:

  1. Прием входящих запросов API от клиентов.
  2. Пересылка этих запросов в собственные внутренние парсеры Google.
  3. Выполнение запросов в масштабе между несколькими прокси и IP-адресами.
  4. Структурирование очищенных данных.
  5. Возврат чистых результатов JSON клиенту.

Агрегируя запросы на парсинг по большой клиентской базе, они могут амортизировать затраты на инфраструктуру, обеспечивая при этом более дружественный интерфейс, чем прямой парсинг веб-страниц.

Сравнение планов и цен

Цены и планы различаются у разных поставщиков, но есть некоторые общие черты:

  • Бесплатные уровни от 500 до 1000 запросов, чтобы попробовать API.
  • Стартовые платные планы около 30 долларов в месяц за ~ 10 тыс. запросов.
  • Про планы в диапазоне 50-100 долларов США в месяц для более 100 тысяч запросов.
  • Корпоративные планы для компаний, которым нужно более 500 тыс. запросов.

Например, вот как меняется цена за 50,000 XNUMX поисковых запросов в Google в месяц:

ПоставщикЦена
СерпАпи$ 349 / месяц
РапидAPI$ 750 / месяц
Соскоб$ 179 / месяц
апифай$ 245 / месяц

Таким образом, хотя базовая технология аналогична, ищите различия в запросах и вызовах. Индивидуальный поисковый запрос или запрос, отправленный в Google. Программный запрос Google в масштабе означает вызов его поискового API (или веб-страницы) с серией запросов и получение результатов. Таким образом, максимальное количество запросов указывает на объем поиска, поддерживаемый каждый месяц для данной ценовой категории. Ценовые планы и уровни Большинство поисковых API Google предлагают несколько тарифных планов или уровней. Более низкие уровни позволяют выполнять меньше ежемесячных запросов по более низкой базовой цене. Более высокие уровни стоят дороже, но предоставляют более широкие возможности поиска и дополнительные преимущества, такие как приоритетная поддержка. Эксплуатационные затраты Поставщики несут постоянные расходы на инфраструктуру, персонал и системы для поддержания работоспособности своих API. Более высокие объемы запросов требуют большего количества серверов, пропускной способности и т. д. Цены на планы окупают эти затраты в масштабе для всех клиентов. Уровни бесплатного пользования Большинство API предлагают некоторый уровень бесплатного пользования, позволяющий протестировать службу перед оплатой. Обычно от 500 до 1000 бесплатных запросов в месяц. структура ценообразования, разрешения на запросы и уникальные функции.

Будущее API поиска Google

Учитывая первенство Google в поиске, мы, вероятно, увидим дальнейшее развитие того, как разработчики могут получить доступ к этим данным. Вот некоторые возможные варианты развития событий на горизонте:

  • Более надежный платный API – Google может расширить пользовательский поиск до платного API с более широким доступом к поиску, аналогично старому API поиска Google. Это уменьшит стимулы к очистке.

  • Партнерство – Google может более тесно сотрудничать с конкретными агрегаторами вертикального поиска, как они это сделали в сфере «Покупки» и «Авиабилеты».

  • Парсинг самообслуживания – Такие платформы, как Apify, могут обеспечить полностью самообслуживание парсинга Google, чтобы сделать его более доступным.

  • API браузера – Структурированные данные могут быть доступны через официальный API браузера для страниц поиска Google.

  • API графа знаний – Граф знаний Google содержит огромные данные об объектах и ​​может быть открыт для структурированных запросов.

На данный момент парсинг веб-страниц и сторонние API, похоже, будут доминировать в доступе к данным поиска Google в 2024 году. Но ситуация продолжает меняться, так что следите за обновлениями!

Извлечение ценности из обширного поискового индекса Google

Надеемся, что это руководство предоставило полезный обзор текущей ситуации по программному использованию результатов поиска Google. Доступные сегодня опции делают данные Google более доступными, чем когда-либо прежде.

Для личных и небольших нужд лучше всего подойдет прямой парсинг веб-страниц. Но для более крупных производственных приложений сторонние API, такие как SerpApi, RapidAPI, ScrapingBee или Apify, предлагают большую ценность благодаря своим управляемым сервисам.

Независимо от того, какой подход вы выберете, интеграция индексированных знаний Google может значительно улучшить бизнес, приложения и исследования. Мы только начинаем осознавать потенциальную ценность, скрывающуюся в этих 63 миллиардах ежемесячных поисковых запросов.

Спасибо за прочтение! Дайте мне знать, если у вас есть еще вопросы.

Теги:

Присоединяйтесь к беседе

Ваш электронный адрес не будет опубликован. Обязательные поля помечены * *