Dun & Bradstreet (D&B) поддерживает крупнейшую в мире коммерческую базу данных, содержащую более 330 миллионов деловых записей по всему миру. К сожалению, доступ к этой золотой жиле данных через официальные каналы D&B может оказаться непомерно дорогим для многих компаний.
Вот тут-то и приходит на помощь создание собственного веб-парсера. При правильном подходе вы можете получить от D&B огромные объемы рыночной информации для принятия бизнес-решений без огромных затрат.
Как опытный специалист по парсингу веб-страниц, который часто использует прокси-серверы для извлечения данных в больших масштабах, я помог нескольким предприятиям создать парсеры, чтобы разблокировать сокровищницу данных D&B.
В этом подробном руководстве я поделюсь своими инсайдерскими знаниями, которые помогут вам успешно использовать парсинг веб-страниц D&B, в том числе:
Высокие затраты на закрытую экосистему данных D&B
Во-первых, давайте выясним, почему данные D&B так ценны, но в то же время так дорого обходятся официальным путем.
Жемчужиной компании D&B является база данных D&B Hoovers. Он содержит подробные профили более чем 330 миллионов государственных и частных компаний по всему миру, в том числе:
- Финансовые показатели фирмы
- Корпоративные семейные связи
- Руководители и директора
- Новости, события и судебные процессы
- Иерархические отраслевые коды
- Анализ конкурентной среды
- Оценки и рейтинги рисков
Эти данные могут предоставить невероятную информацию о рынке для поиска продаж, KYC, комплексной проверки и других приложений.
Однако D&B использует подход закрытого, огороженного сада, вынуждая клиентов платить непомерные цены за доступ к базе данных.
Некоторые примеры затрат на D&B:
API D&B Hoover – Минимум 60,000 5 долларов США в год за XNUMX миллионов записей.
Кредитные отчеты D&B – $199-$600+ за отдельный отчет
Отчет об обновлении компании D&B – $169 за один отчет
При таких ценах доступ к данным D&B недоступен для многих компаний. Вот здесь-то и приходит на помощь создание собственного скрапера.
Преимущества создания собственного веб-скребка D&B
Хотя D&B активно не поощряет парсинг, создание собственного парсера D&B может дать огромные преимущества, такие как:
1. Экономия затрат
Инструменты парсинга веб-страниц и облачные серверы для парсеров стоят всего копейки за каждый фрагмент по сравнению с дорогостоящим доступом к данным D&B.
2. Контроль данных
Вы владеете очищенными данными и можете использовать их по своему усмотрению, без каких-либо ограничительных лицензий или проприетарных API.
3. Настройка
Извлекайте из обширной базы данных D&B только те данные, которые вам нужны.
4. Масштабируемость
Масштабируйте сбор данных с помощью параллельного парсинга в соответствии с потребностями вашего бизнеса.
5. Уклонение от ограничений
Получите доступ к данным D&B без ограничений, регулирования или выборки, предусмотренных официальными API.
Давайте теперь углубимся в то, как вы можете создать свой собственный парсер D&B, чтобы реализовать эти преимущества.
Краткое описание структуры веб-сайта Dun & Bradstreet
Чтобы создать эффективный парсер, вам необходимо понять, как D&B структурирует свои онлайн-ресурсы данных.
На высоком уровне D&B делит свои данные на три основных раздела:
1. Профили компании
Подробные профили более чем 330 миллионов компаний по всему миру с такими дескрипторами, как:
- Ключевые контакты
- Фирмография
- Корпоративное генеалогическое древо
- Финансы
- Конкуренты
- Сертификаты
- Банкротства, залоги, судебные иски
- Иерархические отраслевые коды
2. Бизнес-справочник
Списки более 330 миллионов компаний с возможностью поиска по ключевым словам, местоположению, отрасли, размеру и другим фильтрам. Содержит основные данные, такие как:
- Контакты
- Отраслевые коды
- Размер сотрудника
- Расчетный доход
3. Новости и исследования
Собственные отчеты об исследованиях рынка, анализ рисков и освещение деловых новостей.
Понимание этой структуры помогает понять, куда нацелить ваш парсер. Далее давайте рассмотрим проверенные архитектуры скраперов.
Выберите свое оружие: оценка подходов D&B Scraper
При создании веб-скребка сначала необходимо выбрать платформу. Вот наиболее распространенные варианты парсинга D&B с плюсами и минусами:
Скребки для автоматизации браузера
Такие платформы, как Puppeteer, Playwright и Selenium, позволяют реальным браузерам нажимать кнопки и программно заполнять формы.
Плюсы:
Может точно имитировать действия человека, чтобы выглядеть не как робот
Встроенные инструменты, такие как автономные браузеры, прокси и скрытые настройки.
Минусы:
Ресурсоемкий, плохо масштабируется
Склонен к CAPTCHA и блокировкам без тщательной настройки.
Парсеры HTTP-запросов
Такие инструменты, как Scrapy и web-scraper.js, отправляют прямые HTTP-запросы для получения и анализа данных.
Плюсы:
Легкий, отлично подходит для очистки больших объемов.
Быстрая скорость экстракции
Минусы:
Может быть легче обнаружить активность ботов без мер предосторожности.
Нет встроенного браузера или возможностей прокси-сервера.
Услуги управляемого парсинга
Такие платформы, как ScrapingBee, ScraperAPI и Octoparse, предоставляют хостинг парсеров, прокси и решение CAPTCHA.
Плюсы:
Быстро начните парсинг без написания кода
Управляйте прокси, браузерами и CAPTCHA за вас
Минусы:
Меньше возможностей настройки
Текущая абонентская плата в больших масштабах
Так какой же подход лучше всего подходит для D&B? Вот мои рекомендации…
Для большинства скребков автоматизация браузера балансирует надежность и масштаб. Для максимального контроля Scrapy и Puppeteer — отличный выбор.
Теперь давайте рассмотрим обязательные функции эффективного парсера D&B.
Критические возможности оптимизированного скрепера D&B
Основываясь на моем опыте, вот некоторые ключевые функции, которые должен обеспечивать любой специальный парсер D&B:
Экстрактор профиля компании
Жемчужиной короны являются подробные профили компаний D&B. Настройте поиск по таким критериям, как название компании, местоположение и отрасль, чтобы получать полные профили.
Поисковый робот по бизнес-каталогам
Извлекайте сокращенные списки из каталога D&B, включающего более 330 миллионов компаний по всему миру. Полезно для LeadGen.
Поиск по ключевым словам
Гибкий поиск компаний по ключевым словам и извлечение соответствующих профилей или списков.
Обработка страниц
Автоматически обнаруживайте ссылки «следующая страница» и переходите по ним для сканирования полных наборов результатов по страницам.
Прокси-ротация
Меняйте IP-адреса прокси-серверов, чтобы распределять запросы и избегать блокировок.
Параметры экспорта
Настраиваемые форматы вывода, такие как JSON, XML, CSV и т. д., для интеграции собранных данных с другими системами.
Далее я приведу фрагменты кода и примеры ключевых возможностей использования Puppeteer, одного из моих любимых инструментов парсинга D&B.
Извлечение профилей компаний
Вот пример кода Puppeteer для поиска D&B по названию компании и извлечения полных профилей:
// Search for company
await page.type(‘#searchbox‘, ‘Walmart‘);
await page.click(‘#search-button‘);
// Extract name, description, etc. from result
const name = await page.$eval(‘.company-title‘, el => el.innerText);
// Navigate to full profile
const url = await page.$eval(‘.company-title a‘, el => el.href);
await page.goto(url);
// On profile page, extract further data
const description = await page.$eval(‘.company-description‘, el => el.innerText);
const financials = await page.$$eval(‘table tr‘, rows => {
return rows.map(row => {
const cells = row.querySelectorAll(‘td‘);
return {
metric: cells[0].innerText,
value: cells[1].innerText
}
});
});
Это позволяет собирать подробные данные из профилей D&B.
Сканирование бизнес-каталога
Вот пример кода для извлечения сокращенных списков из поиска по каталогу D&B:
// Search for "software companies in Texas"
await page.type(‘#searchinput‘, ‘software companies in texas‘);
await page.click(‘#search-button‘);
// Extract data from each result
const results = await page.$$eval(‘.search-results li‘, listings => {
return listings.map(listing => {
return {
name: listing.querySelector(‘.company-name‘).innerText,
url: listing.querySelector(‘.company-name a‘).href,
location: listing.querySelector(‘.location‘).innerText,
// etc...
}
});
});
// Follow pagination
while (hasNextPage(page)) {
const nextLink = await page.$eval(‘.pagination .next-page‘, el => el.href);
await page.goto(nextLink);
// Extract next page results
const moreResults = //...
}
При этом результаты поиска в каталоге перебираются по страницам для извлечения списков компаний.
Обработка CAPTCHA и блоков
Вот несколько методов, которые я использую, чтобы избежать блокировки царапин:
Ротация прокси – Используйте библиотеки, такие как прокси-цепочка, для автоматической ротации IP-адресов.
Запросы дроссельной заслонки – Вставьте задержки между загрузками страниц, чтобы имитировать шаблоны просмотра людьми:
// Scrape page
await scrapePage(page);
// Wait 5-10 seconds
await page.waitForTimeout(5000 + Math.random() * 5000);
- Решайте CAPTCHA – Интегрируйте такие службы, как AntiCaptcha, для решения CAPTCHA при их обнаружении.
Соблюдая эти меры предосторожности, вы сможете выполнять очистку ответственно, сводя при этом к минимуму помехи.
Юридические меры предосторожности
При парсинге веб-страниц также важно учитывать следующие юридические рекомендации:
- Соблюдайте Условия обслуживания сайтов и любые запросы о прекращении использования.
- Не перегружайте сайты слишком большим количеством запросов в секунду.
- Собирайте только те данные, которые планируете использовать, а не целые сайты.
- Не распространяйте очищенные данные исключительно для внутреннего использования.
Это гарантирует, что ваши усилия останутся на высоте.
Альтернативные источники данных
В заключение, вот несколько дополнительных источников помимо D&B, которые помогут обогатить ваши бизнес-данные:
- Брокеры данных – Такие поставщики, как Acxiom, продают собственные наборы бизнес-данных.
- Расширенные базы данных – Такие инструменты, как Clearbit, добавляют фирменные атрибуты к деловым контактам.
- Торговые площадки данных – Биржи, такие как Snowflake Data Marketplace, предлагают сторонние данные.
- Реестры предприятий – Базы данных государственной регистрации содержат полезную информацию о государственном бизнесе.
Сочетание парсинга D&B с другими источниками может действительно расширить ваши возможности по изучению рынка.
Заключение
Парсинг Dun & Bradstreet с помощью специального веб-парсера открывает доступ к их непревзойденной глобальной бизнес-базе данных за небольшую часть официальных затрат. При правильном подходе и мерах предосторожности вы можете использовать данные D&B, чтобы вывести свою конкурентную разведку и поиск потенциальных клиентов на новый уровень.
В этом руководстве я поделился практическими советами из своего опыта использования прокси и парсеров для извлечения огромной выгоды из D&B экономически эффективно и легально. Я надеюсь, что эти советы помогут вам воспользоваться этой золотой жилой данных и улучшить свои бизнес-решения и стратегию.
Дайте мне знать, если у вас есть еще вопросы! Я всегда рад поговорить о передовых методах парсинга веб-страниц.