перейти к содержанию

Используйте специальный скребок, чтобы разблокировать золотую жилу данных Dun & Bradstreet

Dun & Bradstreet (D&B) поддерживает крупнейшую в мире коммерческую базу данных, содержащую более 330 миллионов деловых записей по всему миру. К сожалению, доступ к этой золотой жиле данных через официальные каналы D&B может оказаться непомерно дорогим для многих компаний.

Вот тут-то и приходит на помощь создание собственного веб-парсера. При правильном подходе вы можете получить от D&B огромные объемы рыночной информации для принятия бизнес-решений без огромных затрат.

Как опытный специалист по парсингу веб-страниц, который часто использует прокси-серверы для извлечения данных в больших масштабах, я помог нескольким предприятиям создать парсеры, чтобы разблокировать сокровищницу данных D&B.

В этом подробном руководстве я поделюсь своими инсайдерскими знаниями, которые помогут вам успешно использовать парсинг веб-страниц D&B, в том числе:

Высокие затраты на закрытую экосистему данных D&B

Во-первых, давайте выясним, почему данные D&B так ценны, но в то же время так дорого обходятся официальным путем.

Жемчужиной компании D&B является база данных D&B Hoovers. Он содержит подробные профили более чем 330 миллионов государственных и частных компаний по всему миру, в том числе:

  • Финансовые показатели фирмы
  • Корпоративные семейные связи
  • Руководители и директора
  • Новости, события и судебные процессы
  • Иерархические отраслевые коды
  • Анализ конкурентной среды
  • Оценки и рейтинги рисков

Эти данные могут предоставить невероятную информацию о рынке для поиска продаж, KYC, комплексной проверки и других приложений.

Однако D&B использует подход закрытого, огороженного сада, вынуждая клиентов платить непомерные цены за доступ к базе данных.

Некоторые примеры затрат на D&B:

  • API D&B Hoover – Минимум 60,000 5 долларов США в год за XNUMX миллионов записей.

  • Кредитные отчеты D&B – $199-$600+ за отдельный отчет

  • Отчет об обновлении компании D&B – $169 за один отчет

При таких ценах доступ к данным D&B недоступен для многих компаний. Вот здесь-то и приходит на помощь создание собственного скрапера.

Преимущества создания собственного веб-скребка D&B

Хотя D&B активно не поощряет парсинг, создание собственного парсера D&B может дать огромные преимущества, такие как:

1. Экономия затрат

Инструменты парсинга веб-страниц и облачные серверы для парсеров стоят всего копейки за каждый фрагмент по сравнению с дорогостоящим доступом к данным D&B.

2. Контроль данных

Вы владеете очищенными данными и можете использовать их по своему усмотрению, без каких-либо ограничительных лицензий или проприетарных API.

3. Настройка

Извлекайте из обширной базы данных D&B только те данные, которые вам нужны.

4. Масштабируемость

Масштабируйте сбор данных с помощью параллельного парсинга в соответствии с потребностями вашего бизнеса.

5. Уклонение от ограничений

Получите доступ к данным D&B без ограничений, регулирования или выборки, предусмотренных официальными API.

Давайте теперь углубимся в то, как вы можете создать свой собственный парсер D&B, чтобы реализовать эти преимущества.

Краткое описание структуры веб-сайта Dun & Bradstreet

Чтобы создать эффективный парсер, вам необходимо понять, как D&B структурирует свои онлайн-ресурсы данных.

На высоком уровне D&B делит свои данные на три основных раздела:

1. Профили компании

Подробные профили более чем 330 миллионов компаний по всему миру с такими дескрипторами, как:

  • Ключевые контакты
  • Фирмография
  • Корпоративное генеалогическое древо
  • Финансы
  • Конкуренты
  • Сертификаты
  • Банкротства, залоги, судебные иски
  • Иерархические отраслевые коды

2. Бизнес-справочник

Списки более 330 миллионов компаний с возможностью поиска по ключевым словам, местоположению, отрасли, размеру и другим фильтрам. Содержит основные данные, такие как:

  • Контакты
  • Отраслевые коды
  • Размер сотрудника
  • Расчетный доход

3. Новости и исследования

Собственные отчеты об исследованиях рынка, анализ рисков и освещение деловых новостей.

Понимание этой структуры помогает понять, куда нацелить ваш парсер. Далее давайте рассмотрим проверенные архитектуры скраперов.

Выберите свое оружие: оценка подходов D&B Scraper

При создании веб-скребка сначала необходимо выбрать платформу. Вот наиболее распространенные варианты парсинга D&B с плюсами и минусами:

Скребки для автоматизации браузера

Такие платформы, как Puppeteer, Playwright и Selenium, позволяют реальным браузерам нажимать кнопки и программно заполнять формы.

Плюсы:

  • Может точно имитировать действия человека, чтобы выглядеть не как робот

  • Встроенные инструменты, такие как автономные браузеры, прокси и скрытые настройки.

Минусы:

  • Ресурсоемкий, плохо масштабируется

  • Склонен к CAPTCHA и блокировкам без тщательной настройки.

Парсеры HTTP-запросов

Такие инструменты, как Scrapy и web-scraper.js, отправляют прямые HTTP-запросы для получения и анализа данных.

Плюсы:

  • Легкий, отлично подходит для очистки больших объемов.

  • Быстрая скорость экстракции

Минусы:

  • Может быть легче обнаружить активность ботов без мер предосторожности.

  • Нет встроенного браузера или возможностей прокси-сервера.

Услуги управляемого парсинга

Такие платформы, как ScrapingBee, ScraperAPI и Octoparse, предоставляют хостинг парсеров, прокси и решение CAPTCHA.

Плюсы:

  • Быстро начните парсинг без написания кода

  • Управляйте прокси, браузерами и CAPTCHA за вас

Минусы:

  • Меньше возможностей настройки

  • Текущая абонентская плата в больших масштабах

Так какой же подход лучше всего подходит для D&B? Вот мои рекомендации…

Для большинства скребков автоматизация браузера балансирует надежность и масштаб. Для максимального контроля Scrapy и Puppeteer — отличный выбор.

Теперь давайте рассмотрим обязательные функции эффективного парсера D&B.

Критические возможности оптимизированного скрепера D&B

Основываясь на моем опыте, вот некоторые ключевые функции, которые должен обеспечивать любой специальный парсер D&B:

Экстрактор профиля компании

Жемчужиной короны являются подробные профили компаний D&B. Настройте поиск по таким критериям, как название компании, местоположение и отрасль, чтобы получать полные профили.

Поисковый робот по бизнес-каталогам

Извлекайте сокращенные списки из каталога D&B, включающего более 330 миллионов компаний по всему миру. Полезно для LeadGen.

Поиск по ключевым словам

Гибкий поиск компаний по ключевым словам и извлечение соответствующих профилей или списков.

Обработка страниц

Автоматически обнаруживайте ссылки «следующая страница» и переходите по ним для сканирования полных наборов результатов по страницам.

Прокси-ротация

Меняйте IP-адреса прокси-серверов, чтобы распределять запросы и избегать блокировок.

Параметры экспорта

Настраиваемые форматы вывода, такие как JSON, XML, CSV и т. д., для интеграции собранных данных с другими системами.

Далее я приведу фрагменты кода и примеры ключевых возможностей использования Puppeteer, одного из моих любимых инструментов парсинга D&B.

Извлечение профилей компаний

Вот пример кода Puppeteer для поиска D&B по названию компании и извлечения полных профилей:

// Search for company
await page.type(‘#searchbox‘, ‘Walmart‘);
await page.click(‘#search-button‘);

// Extract name, description, etc. from result
const name = await page.$eval(‘.company-title‘, el => el.innerText); 

// Navigate to full profile
const url = await page.$eval(‘.company-title a‘, el => el.href);
await page.goto(url);

// On profile page, extract further data 
const description = await page.$eval(‘.company-description‘, el => el.innerText);
const financials = await page.$$eval(‘table tr‘, rows => {
  return rows.map(row => {
    const cells = row.querySelectorAll(‘td‘);
    return {
      metric: cells[0].innerText, 
      value: cells[1].innerText
    }
  });
});

Это позволяет собирать подробные данные из профилей D&B.

Сканирование бизнес-каталога

Вот пример кода для извлечения сокращенных списков из поиска по каталогу D&B:

// Search for "software companies in Texas" 
await page.type(‘#searchinput‘, ‘software companies in texas‘);
await page.click(‘#search-button‘);

// Extract data from each result  
const results = await page.$$eval(‘.search-results li‘, listings => {
  return listings.map(listing => {
    return {
      name: listing.querySelector(‘.company-name‘).innerText,
      url: listing.querySelector(‘.company-name a‘).href,
      location: listing.querySelector(‘.location‘).innerText,
      // etc...
    }
  });
});

// Follow pagination
while (hasNextPage(page)) {
  const nextLink = await page.$eval(‘.pagination .next-page‘, el => el.href);
  await page.goto(nextLink);

  // Extract next page results
  const moreResults = //...
}

При этом результаты поиска в каталоге перебираются по страницам для извлечения списков компаний.

Обработка CAPTCHA и блоков

Вот несколько методов, которые я использую, чтобы избежать блокировки царапин:

  • Ротация прокси – Используйте библиотеки, такие как прокси-цепочка, для автоматической ротации IP-адресов.

  • Запросы дроссельной заслонки – Вставьте задержки между загрузками страниц, чтобы имитировать шаблоны просмотра людьми:

// Scrape page
await scrapePage(page); 

// Wait 5-10 seconds  
await page.waitForTimeout(5000 + Math.random() * 5000);
  • Решайте CAPTCHA – Интегрируйте такие службы, как AntiCaptcha, для решения CAPTCHA при их обнаружении.

Соблюдая эти меры предосторожности, вы сможете выполнять очистку ответственно, сводя при этом к минимуму помехи.

При парсинге веб-страниц также важно учитывать следующие юридические рекомендации:

  • Соблюдайте Условия обслуживания сайтов и любые запросы о прекращении использования.
  • Не перегружайте сайты слишком большим количеством запросов в секунду.
  • Собирайте только те данные, которые планируете использовать, а не целые сайты.
  • Не распространяйте очищенные данные исключительно для внутреннего использования.

Это гарантирует, что ваши усилия останутся на высоте.

Альтернативные источники данных

В заключение, вот несколько дополнительных источников помимо D&B, которые помогут обогатить ваши бизнес-данные:

  • Брокеры данных – Такие поставщики, как Acxiom, продают собственные наборы бизнес-данных.
  • Расширенные базы данных – Такие инструменты, как Clearbit, добавляют фирменные атрибуты к деловым контактам.
  • Торговые площадки данных – Биржи, такие как Snowflake Data Marketplace, предлагают сторонние данные.
  • Реестры предприятий – Базы данных государственной регистрации содержат полезную информацию о государственном бизнесе.

Сочетание парсинга D&B с другими источниками может действительно расширить ваши возможности по изучению рынка.

Заключение

Парсинг Dun & Bradstreet с помощью специального веб-парсера открывает доступ к их непревзойденной глобальной бизнес-базе данных за небольшую часть официальных затрат. При правильном подходе и мерах предосторожности вы можете использовать данные D&B, чтобы вывести свою конкурентную разведку и поиск потенциальных клиентов на новый уровень.

В этом руководстве я поделился практическими советами из своего опыта использования прокси и парсеров для извлечения огромной выгоды из D&B экономически эффективно и легально. Я надеюсь, что эти советы помогут вам воспользоваться этой золотой жилой данных и улучшить свои бизнес-решения и стратегию.

Дайте мне знать, если у вас есть еще вопросы! Я всегда рад поговорить о передовых методах парсинга веб-страниц.

Присоединяйтесь к беседе

Ваш электронный адрес не будет опубликован. Обязательные поля помечены * *