Bỏ để qua phần nội dung

Cách trích xuất dữ liệu Crunchbase bằng công cụ quét web

Với hơn 700,000 hồ sơ công ty, Crunchbase đã trở thành nguồn cung cấp dữ liệu về các công ty khởi nghiệp, công ty tư nhân, vòng tài trợ, nhà đầu tư và nhân sự chủ chốt. Mặc dù Crunchbase cung cấp API nhưng nó có những hạn chế đáng kể thúc đẩy việc sử dụng trình thu thập dữ liệu web để trích xuất toàn bộ giá trị dữ liệu của Crunchbase.

Trong hướng dẫn toàn diện hơn 2,200 từ này, bạn sẽ tìm hiểu cách bất kỳ ai cũng có thể khai thác các trình quét web có thể mở rộng để trích xuất kho dữ liệu kinh doanh thông minh của Crunchbase.

Giá trị to lớn của dữ liệu Crunchbase

Để đánh giá cao lý do tại sao việc quét Crunchbase lại có giá trị như vậy, cần hiểu được quy mô và phạm vi bao phủ rộng lớn của dữ liệu có sẵn:

  • Hơn 700,000 hồ sơ công ty – Từ các công ty khởi nghiệp ở giai đoạn đầu cho đến các công ty đại chúng trong Fortune 500.

  • Hơn 680,000 người sáng lập và điều hành – Thông tin chi tiết về lãnh đạo chủ chốt về những người ra quyết định trong các ngành.

  • 1.7 triệu vòng tài trợ – Chi tiết toàn diện về lịch sử tài trợ khởi nghiệp.

  • Hơn 590,000 nhà đầu tư – Cả các công ty VC nổi tiếng và các nhà đầu tư thiên thần đều được bảo hiểm.

  • 6.2 triệu bài báo và nguồn dữ liệu – Phạm vi phủ sóng rộng hơn những gì có trong hồ sơ công ty.

Điều này làm cho Crunchbase trở thành một trong những nguồn dữ liệu mở rộng nhất về các công ty tư nhân, nơi thường có rất ít dữ liệu công khai ở nơi khác.

Ngay cả dữ liệu tài trợ cũng vô cùng có giá trị. Theo Báo cáo tài trợ toàn cầu của Crunchbase 2021, nguồn tài trợ đạt gần 628 tỷ USD trên toàn cầu vào năm ngoái, với hơn 32,000 vòng tài trợ.

Với rất nhiều thông tin kinh doanh quan trọng, không có gì ngạc nhiên hơn 4 triệu khách truy cập dựa vào dữ liệu Crunchbase mỗi tháng để nghiên cứu các công ty, thị trường và đầu tư.

Hạn chế của API chính thức của Crunchbase

Với giá trị của dữ liệu, Crunchbase có thể hạn chế quyền truy cập vào nền tảng của nó một cách dễ hiểu. Crunchbase cung cấp API để truy cập dữ liệu theo chương trình. Tuy nhiên, API này có một số hạn chế:

Giới hạn sử dụng nghiêm ngặt – API cấp miễn phí chỉ cho phép 5,000 yêu cầu mỗi tháng. Ngay cả các gói trả phí cũng đạt tới 50,000 yêu cầu, buộc người dùng phải phân bổ cẩn thận các lệnh gọi API.

Khoảng trống dữ liệu lớn – API thiếu quyền truy cập vào nhiều dữ liệu quan trọng của Crunchbase như chi tiết tài trợ chuyên sâu, hạn chế tiện ích của nó.

Không có hồ sơ hàng loạt – Chỉ cho phép trích xuất dữ liệu từng phần, ngăn chặn việc tải xuống hồ sơ công ty trên quy mô lớn để phân tích.

Cập nhật chậm – API tụt hậu so với dữ liệu trang web của Crunchbase, trong một số trường hợp có độ trễ hàng tuần hoặc lâu hơn đối với dữ liệu mới.

Tùy chỉnh tối thiểu – Người dùng không thể điều chỉnh lệnh gọi API để chỉ trích xuất các trường/thực thể cần thiết cho một trường hợp sử dụng nhất định.

Không xuất cơ sở dữ liệu trực tiếp – Dữ liệu API đã tải xuống yêu cầu chuyển đổi đáng kể để phân tích có thể sử dụng được.

Những hạn chế này có nghĩa là API Crunchbase chỉ đáp ứng các nhu cầu cơ bản. Để khai thác đầy đủ dữ liệu của Crunchbase, cần có một cách tiếp cận khác – trình thu thập dữ liệu web.

Lợi ích chính của việc Scraping so với API Crunchbase

Quét web mang lại những lợi thế lớn so với API để trích xuất thông tin chi tiết từ Crunchbase:

Khả năng mở rộng không giới hạn – Trích xuất dữ liệu của hàng chục nghìn công ty trong một lần chạy máy quét thay vì phân bổ các lệnh gọi API.

Truy cập nhiều trường dữ liệu hơn – Lấy dữ liệu hồ sơ toàn diện và chi tiết tài trợ thay vì các tập hợp con hạn chế của API.

Luôn cập nhật – Trình thu thập dữ liệu trực tiếp mới sau mỗi lần chạy thay vì chờ cập nhật API.

Tính linh hoạt đầu ra – JSON, CSV, Excel – lấy dữ liệu Crunchbase đã được thu thập ở định dạng tối ưu cho trường hợp sử dụng của bạn.

Tải xuống hàng loạt – Tải xuống toàn bộ bộ dữ liệu của công ty để phân tích ngoại tuyến quy mô lớn thay vì trích xuất API từng phần.

Tùy biến không giới hạn – Định cấu hình trình dọn dẹp để chỉ trích xuất các điểm dữ liệu cần thiết cho nhu cầu của bạn.

Hiệu quả chi phí – Giải pháp thu thập dữ liệu có thể cung cấp dữ liệu Crunchbase với mức giá chỉ bằng một phần nhỏ mức giá dành cho doanh nghiệp của API.

Đối với bất kỳ ứng dụng phân tích, nghiên cứu hoặc thông minh kinh doanh nghiêm túc nào, các trình dọn dẹp cung cấp quyền truy cập dữ liệu Crunchbase mà API đơn giản là không thể sánh được.

Hướng dẫn từng bước để cạo Crunchbase

Bây giờ tôi đã giải quyết xong trường hợp quét web Crunchbase, chúng ta hãy thực hiện quy trình từng bước một:

Bước 1 – Chọn Dịch vụ Scraping

Có rất nhiều công cụ và dịch vụ cạo để bạn lựa chọn. Để dễ sử dụng, khả năng mở rộng và giá cả phải chăng, tôi đề xuất các dịch vụ thu thập dữ liệu trên đám mây như:

  • Apify – Nền tảng chuyên dụng để quét web bao gồm cả công cụ quét Crunchbase được làm sẵn.

  • ScrapeHero – Đơn giản để sử dụng công cụ quét dựa trên proxy với giao diện người dùng và giám sát đẹp mắt.

  • Phân tích cú pháp – Tập trung vào cấu hình trình quét trực quan mà không cần mã hóa.

  • ScraperAPI – API và tiện ích mở rộng trình duyệt để quét web đặc biệt.

Apify đặc biệt nổi bật với cơ sở hạ tầng cạo mạnh mẽ, được quản lý trong khi ScrapeHero cung cấp trải nghiệm thân thiện với người mới bắt đầu nhất.

Bước 2 - Định cấu hình đầu vào Scraping

Tiếp theo, bạn sẽ định cấu hình các trang web mục tiêu để thu thập dữ liệu. Hai lựa chọn chính:

Tìm theo từ khóa – Quét kết quả tìm kiếm trên Crunchbase cho các từ khóa nhất định như "các công ty SaaS" hoặc "các công ty khởi nghiệp Fintech".

Danh sách URL – Tải lên danh sách các URL Crunchbase cụ thể để kiểm soát chính xác những gì được loại bỏ.

Thông thường tìm kiếm từ khóa hoạt động tốt nhất để khám phá rộng rãi trong khi danh sách URL cho phép tập trung vào các công ty quan tâm. Hầu hết các công cụ đều hỗ trợ cả hai cách tiếp cận.

Bước 3 – Chạy Scraper

Sau khi được định cấu hình, hãy khởi động trình quét để truy cập Crunchbase và trích xuất dữ liệu đã chỉ định. Các mẩu tin lưu niệm lớn hơn với hàng nghìn trang có thể chạy hàng giờ trong khi các mẩu tin lưu niệm nhỏ hơn chỉ mất vài phút.

Dịch vụ thu thập dữ liệu cung cấp bảng điều khiển để theo dõi tiến trình và tỷ lệ phần trăm hoàn thành khi dữ liệu Crunchbase của bạn được trích xuất theo thời gian thực.

Bước 4 - Xuất dữ liệu đã được quét

Sau khi hoàn tất thành công, hãy xuất dữ liệu Crunchbase đã được thu thập của bạn để phân tích. Các định dạng CSV và Excel hoạt động tốt khi sử dụng bảng tính. JSON giữ lại các cấu trúc dữ liệu lồng nhau để tải cơ sở dữ liệu.

Dưới đây là ví dụ về các trường dữ liệu thường được trích xuất thành từng hàng/bản ghi:

{
   "name":"Example Co",
   "description":"AI-powered SaaS platform", 
   "location":"San Francisco, CA",
   "year_founded":2018,
   "#_of_employees":50,
   "total_funding":"$72M",
   "investors":[
      "SEQUOIA CAPITAL",
      "Insight Venture Partners",
      "Bessemer Venture Partners"
   ],

   // And much more

}

Giờ đây, dữ liệu Crunchbase phong phú này đã có sẵn cho các ứng dụng và phân tích tùy chỉnh.

Bước 5 – Tải vào Cơ sở dữ liệu & Công cụ BI

Để cho phép phân tích liên tục, hãy nhập dữ liệu Crunchbase đã được thu thập vào cơ sở dữ liệu như MongoDB, PostgreSQL hoặc Microsoft SQL Server.

Để có thông tin kinh doanh thông minh, hãy kết nối cơ sở dữ liệu với các công cụ như Tableau, Looker hoặc Sisense để xây dựng trang tổng quan và ứng dụng.

Với cơ sở hạ tầng phù hợp, dữ liệu Crunchbase có sẵn có thể cung cấp năng lượng cho mọi thứ, từ nghiên cứu đầu tư đến thông tin cạnh tranh.

Các trường dữ liệu chính bạn có thể trích xuất

Dưới đây là một số trường dữ liệu có giá trị nhất thường có thể trích xuất được từ mỗi hồ sơ công ty Crunchbase:

Hồ sơ

  • Tên chính thức
  • URL liên kết cố định
  • Website
  • Định dạng Email
  • Địa Chỉ
  • Loại hình doanh nghiệp
  • Quy mô công ty
  • Tình trạng hoạt động
  • Năm thành lập
  • Tổng số nhân viên
  • Mô tả
  • Ngành/Danh mục
  • Những người chủ chốt (tên/vai trò)

Tài trợ

  • Tổng số tiền tài trợ
  • Nhà đầu tư (tất cả)
  • Các vòng tài trợ (ngày, số tiền, nhà đầu tư chính)
  • Chi tiết mua lại/IPO

Nền tảng khác

  • Tiêu đề và bài báo tin tức
  • Liên kết Video và Podcast
  • Liên kết truyền thông xã hội
  • Hình ảnh/Biểu tượng/Ảnh chụp màn hình

Điều này bao gồm hầu hết các dữ liệu hồ sơ, mô tả và tài chính cần thiết để phân tích công ty một cách hiệu quả.

Các trường hợp sử dụng trong thế giới thực để quét web Crunchbase

Bây giờ, hãy khám phá một số ví dụ thực tế về cách các doanh nghiệp đang sử dụng dữ liệu Crunchbase cóp nhặt:

Nghiên cứu đầu tư – Các quỹ phòng hộ như Marshall Wace Crunchbase xây dựng hồ sơ của tất cả các công ty trong các lĩnh vực mục tiêu nhằm xác định các khoản đầu tư đầy hứa hẹn.

Trí tuệ cạnh tranhSalesforce duy trì cơ sở dữ liệu về tất cả các đối thủ cạnh tranh được VC hậu thuẫn được lấy từ Crunchbase để giám sát chặt chẽ các mối đe dọa mới nổi.

Due Diligence – Trong quá trình mua lại, các công ty chuyên cần như kroll tăng cường nghiên cứu người mua với dữ liệu lãnh đạo và tài trợ của Crunchbase.

Tuyển dụng – Các nhà tuyển dụng tại các công ty hàng đầu thu thập hồ sơ nhân viên của Crunchbase để xác định những tài năng chủ chốt tại các công ty khởi nghiệp mong muốn săn lùng.

Định cỡ thị trường – Tư vấn quản lý như Bain tận dụng dữ liệu tài trợ từ Crunchbase để xác định quy mô và mô hình hóa tổng số cơ hội thị trường.

Chì Generation – Nhóm bán hàng B2B sử dụng Crunchbase để xây dựng danh sách khách hàng tiềm năng được nhắm mục tiêu dựa trên từ khóa, nguồn tài trợ, địa điểm, v.v.

Những ví dụ này chứng minh giá trị to lớn của việc quét web được mở khóa từ dữ liệu Crunchbase trong các ngành.

Các phương pháp hay nhất để quản lý dữ liệu Crunchbase bị loại bỏ

Khi bạn có dữ liệu Crunchbase thông qua việc thu thập dữ liệu, việc quản lý dữ liệu và cơ sở hạ tầng phù hợp sẽ mang lại giá trị liên tục. Dưới đây là một số phương pháp hay nhất:

  • Cơ sở dữ liệu đám mây như BigQuery hoặc Snowflake để lưu trữ hàng tỷ hàng dữ liệu với chi phí hợp lý.

  • Chuyển đổi dữ liệu sử dụng các công cụ ETL như Informatica để chuẩn bị dữ liệu đã được thu thập để phân tích.

  • Mối quan hệ dữ liệu giống như công ty tham gia vòng tài trợ để phân tích nâng cao hơn.

  • Kiểm soát truy cập để đảm bảo dữ liệu Crunchbase được cạo vẫn an toàn và tuân thủ.

  • Lịch trình cạo liên tục để giữ cho dữ liệu được xuất luôn mới khi cập nhật hồ sơ Crunchbase.

  • Tích hợp thông minh kinh doanh để đưa thông tin chuyên sâu về dữ liệu đã được thu thập trực tiếp vào quy trình làm việc của nhân viên.

Với một số kế hoạch chu đáo, việc quét Crunchbase có thể mở rộng quy mô từ nghiên cứu một lần cho đến hiểu biết sâu sắc về kinh doanh liên tục.

Hướng dẫn quét web có đạo đức

Mặc dù vô cùng có giá trị nhưng điều quan trọng là chúng ta phải thảo luận về một số cân nhắc về mặt đạo đức khi xử lý các nền tảng quét web như Crunchbase:

  • Tôn trọng robots.txt – Không bao giờ cạo các trang web cấm nó một cách rõ ràng. Rất may Crunchbase cho phép cạo có trách nhiệm.

  • Đừng ăn cắp nội dung – Dữ liệu được thu thập chỉ nên được sử dụng nội bộ và không được công bố lại nguyên văn.

  • Dữ liệu thuộc tính – Nếu xuất bản phân tích dựa trên dữ liệu cóp nhặt, hãy trích dẫn Crunchbase làm nguồn.

  • Giới hạn âm lượng – Tần suất và khối lượng cạo vừa phải để giảm thiểu tác động tải máy chủ.

  • Dữ liệu an toàn – Lưu trữ dữ liệu bị loại bỏ một cách an toàn và hạn chế quyền truy cập nội bộ để bảo vệ thông tin nhạy cảm.

  • Lựa chọn không tham gia danh dự – Dừng ngay việc thu thập hồ sơ của những cá nhân yêu cầu xóa.

  • Tuân theo Điều khoản dịch vụ – Tuân thủ tất cả các chính sách của os Crunchbase về việc sử dụng dữ liệu được phép.

Việc tuân thủ các nguyên tắc đạo đức này đảm bảo bạn vẫn là người tiêu dùng dữ liệu tận tâm đồng thời được hưởng lợi từ việc thu thập dữ liệu Crunchbase.

So sánh công cụ Crunchbase Scraping

Nếu ký hợp đồng với các dịch vụ thu thập dữ liệu, một số nhà cung cấp hàng đầu ngoài Apify bao gồm:

Bạch tuộc

  • Giao diện trực quan trực quan để định cấu hình các trình dọn dẹp.
  • Định dạng xuất PDF, Excel, CSV.
  • Giá cả phải chăng bắt đầu từ $99/tháng.
  • 14 ngày dùng thử miễn phí.

ScrapeHero

  • Quét dựa trên proxy đơn giản, không có cấu hình phức tạp.
  • Máy chủ cạo tùy chỉnh để kiểm soát tối đa.
  • Xuất Excel và JSON.
  • Dùng thử miễn phí 7 ngày.

Phân tích cú pháp

  • Cấu hình trình quét web trực quan.
  • Tiện ích mở rộng của Chrome để gỡ lỗi trình quét.
  • Chế độ cạo tự động hoặc thủ công.
  • Kế hoạch dùng thử miễn phí hào phóng.

Nhập khẩu.io

  • Tích hợp dữ liệu cóp nhặt vào ứng dụng thông qua API hoặc Zapier.
  • Xoay proxy để tránh các khối.
  • Chi phí cao hơn nhưng giải pháp phức tạp.
  • Dùng thử miễn phí 14 ngày.

Đối với hầu hết người dùng, trước tiên tôi khuyên bạn nên bắt đầu với những công cụ dễ dàng nhất và giá cả phải chăng nhất trước khi đánh giá xem liệu một giải pháp nâng cao hơn như Import.io có mang lại giá trị gia tăng hay không.

Làm phong phú dữ liệu Crunchbase với các nguồn bổ sung

Mặc dù cực kỳ hữu ích nhưng Crunchbase không phải là nguồn dữ liệu quét web duy nhất của bạn. Các nguồn bổ sung để làm phong phú thêm sự hiểu biết bao gồm:

  • LinkedIn – Đối với sơ đồ tổ chức, chi tiết nhân viên và thông tin liên hệ.
  • Facebook / Twitter – Để phân tích sự hiện diện và lực kéo của phương tiện truyền thông xã hội.
  • AngelList – Dành cho hồ sơ của các công ty khởi nghiệp giai đoạn đầu.
  • Bình luận – Đối với dữ liệu thị trường vốn tư nhân.
  • Y Combinator – Để so sánh với các công ty khởi nghiệp của cựu sinh viên.

Việc kết hợp dữ liệu từ các nguồn này với Crunchbase cho phép xây dựng cái nhìn 360 độ thực sự về các công ty và thị trường.

Crunchbase Scraping mang lại lợi thế cạnh tranh

Cuối cùng, hãy nghe ý kiến ​​của hai chuyên gia đang tận dụng tính năng quét web Crunchbase trong công việc của họ:

Michael S., Giám đốc danh mục đầu tư:

"Nhóm của tôi thu thập Crunchbase hàng tuần để nhận dữ liệu cấp vốn mới nhất về tất cả các công ty đầu tư mục tiêu của chúng tôi. Điều này cho phép chúng tôi giám sát mức định giá, hoạt động của nhà đầu tư và vốn hóa – mang lại lợi thế so với các quỹ ít dựa trên dữ liệu hơn."

Amy V., Tư vấn quản lý:

"Việc tìm kiếm trên web Crunchbase đã trở thành một phần tiêu chuẩn trong quy trình phân tích thị trường của chúng tôi dành cho khách hàng. Khả năng tải xuống và lập mô hình xu hướng tài trợ trong bảng tính mang lại cho chúng tôi những hiểu biết tức thì mà các đối thủ cạnh tranh còn thiếu."

Kinh nghiệm của họ chứng minh rằng việc thu thập dữ liệu Crunchbase có trách nhiệm cho mục đích tình báo nội bộ mang lại lợi thế cạnh tranh đáng kể.

Kết luận

Kho dữ liệu công ty tư nhân của Crunchbase quá có giá trị để có thể được khai thác chỉ thông qua API hạn chế của họ. Các giải pháp quét web hiện đại mở ra vô số cách để áp dụng dữ liệu Crunchbase để hiểu biết sâu sắc về doanh nghiệp.

Hướng dẫn chuyên sâu hơn 2,200 từ này bao gồm mọi thứ bạn cần để trích xuất và vận hành dữ liệu của Crunchbase trên quy mô lớn. Tôi khuyến khích tất cả các nhà đầu tư, nhà tư vấn, nhà phân tích và chuyên gia dữ liệu nghiêm túc xem xét việc bổ sung tính năng quét web vào bộ kỹ năng của họ để truy cập vào nguồn thông tin kinh doanh có tính thay đổi cuộc chơi này.

Hãy cho tôi biết trong phần nhận xét nếu bạn có bất kỳ câu hỏi nào khác về việc tận dụng tính năng quét Crunchbase như một phần trong kho công nghệ của bạn để đưa ra quyết định dựa trên dữ liệu!

Tham gia vào cuộc đối thoại

Chúng tôi sẽ không công khai email của bạn. Các ô đánh dấu * là bắt buộc *