跳到内容

2024 年最佳互联网档案刮刀:像专业人士一样刮取 Archive.org

您想从 Internet Archive 中抓取书籍、视频、音频文件、文本和网页等数据吗? 本文旨在提供帮助。 本文为您提供了最好的 Internet 存档抓取工具,以简化您的数据提取过程。

利用称为网络抓取工具的计算机机器人从 Internet 档案网站检索数据(例如网页、文本甚至整个网站)的做法称为 Internet 档案抓取。 即使您没有太多时间从archive.org 手动提取数据,这也是最佳选择。

完成该过程后,您可以使用网络抓取工具来自动化该过程,从长远来看可以节省时间和金钱。 Archive.org 网络爬虫可以非常简单,但可以完成工作,但有些需要更复杂并包含更高级的功能。

档案馆 可用于抓取您可能感兴趣的网站和历史文档。 一些网站严格的反抓取机制使得一些营销人员和初学者难以获得信息。 从这些网站抓取内容时,请使用 archive.com,而不是费力地尝试抓取一个拒绝抓取的网站,如果您抓取的内容对时间不敏感。

Internet Archive Wayback Machine 具有可抓取的优势。 根据它自己声明的抓取网站的目标,当你抓取它的网站时,互联网档案馆没有发现任何不当之处。 它甚至为各种抓取操作提供了一个 API,使您的抓取过程更容易。

抓取archive.org 不需要Wayback Machine 的抓取器。 这是因为市场上已经存在专门为此目的设计的在线爬虫。 Archive.org 可以借助一些最强大的网络爬虫来进行爬取,我将在本文的这一部分进行讨论。 使用其中一些工具不需要编写一个代码,但其他工具是专门为程序员设计的。


5 年 2024 个最佳互联网档案刮刀


1. 八度分析 — 用于抓取 Internet 档案网页的最佳 Internet 档案刮刀

  • 价格: 每月 75 美元起
  • 数据格式: SQLServer、MySQL、JSON、Excel、CSV
  • 免费选项 (14天免费试用版)
  • 平台支持: 桌面、云

如果您在 archive.org 网页上搜索相关数据点,也可以使用 Octoparse 网络爬虫。 Octoparse 是一个简单易用的网络抓取工具,当您想要提取 Internet 档案时效果更好。

使用 Octoparse 比抓取传统网站更容易,传统网站具有阻止和检测您必须解决的抓取工具的反抓取系统。 Octoparse 具有云服务器支持,可用于保留您的抓取作业、计划抓取等功能。 这是一个免费工具,但新用户可以免费使用 14 天。


2. 刮风风暴 — 最佳 Internet 档案刮刀,可有效地从 Internet 档案中刮取音频文件和网页

  • 价格: 每月 9.99 美元起
  • 数据格式: 谷歌表格、MySQL、JSON、Excel、CSV、TXT
  • 免费选项 (免费入门计划,但有一些限制)
  • 平台支持: 云、桌面

ScrapeStorm 是备受推崇的在线抓取工具之一,最近收到了很多正面评价。 我推荐的网络抓取工具列表包括它,因为它能够为各种不同类型的媒体(包括网页、文档、书籍和音频文件)抓取 Internet Archive Wayback Machine。 此外,您不必使用此工具创建单行代码。

使用 archive.org 网站,您只需要知道如何指向和单击感兴趣的数据。 该程序是一个网络抓取工具,可用于从任何网站提取数据,而不仅仅是 Wayback Machine。 它对人工智能的使用使其成为无需人工干预即可自动识别网站上相关数据的最先进技术之一。


3. WebScraper.io(WebScraper.io 扩展) — 提供浏览器扩展的最佳 Internet 档案抓取

  • 价格: Free
  • 数据格式: JSON、XLSX、CSV
  • 平台支持: Firefox 和 Chrome(浏览器扩展)

如果您是浏览器扩展的粉丝,您可能需要查看 WebScraper.io的 Chrome 插件。 与其他可视化网络爬虫一样,它提供了一个点击式界面来帮助您定位感兴趣的数据。

你应该知道,这个网络爬虫不太擅长下载整个网页。 但它有利于筛选页面以查找某些信息。 如果您正在查找的信息可以在存档网站上找到,这尤其有用。 这个网络爬虫很容易上手,因为它是免费的,只需要点击几下。


4. Wayback Machine Scraper(Sangaline 的 Wayback Machine Scraper) — 最适合 Python 程序员的 Internet 存档抓取工具

  • 价格: Free
  • 数据格式: JSON、CSV
  • 平台支持: 命令行应用程序

如果你想从 archive.org 网站提取时间序列数据,你可以依靠 Wayback Machine Scraper。 它是作为 Scrapy 中间件的一部分构建的 CLI 工具。 由于它是基于 Python 的网络爬虫,因此只有 Python 程序员能够使用 Scrapy 中间件。 可以在 Github 上找到一个开源的 Internet 存档抓取工具,并且可以下载。

即使您将其用于商业目的,也不收取任何费用。 如果您想从archive.org 域中抓取整个网站,这是您的网络抓取工具。 您会欣赏的一件事是它的可定制性。 PIP install Wayback-machine-scraper 是一种启动和运行它的简单方法。


5. Wayback Machine Downloader — 适合编码员和非编码员的最佳 Internet 档案抓取工具

  • 价格: 起价 15 美元
  • 平台支持: 桌面版

Wayback Machine Downloader 也可供非编码人员使用。 该服务采用的方法非常专业。 只要您只是想下载页面或整个网站的副本,您就可以使用 archive.org 的标准刮板来为您完成这项工作。

如果网站最初是在 WordPress 上构建的,它甚至可以恢复到 WordPress。 虽然 Wayback Machine Downloader 是一项基于订阅的服务,但新用户可以利用免费试用期。


如何使用 BeautifulSoup、Requests 和 Python 来抓取 Internet 档案

如果您有兴趣学习如何为archive.org 创建自定义刮板,您可能会感兴趣的是,如果您有编码技能,这并不具有挑战性。 如果您不知道如何编码,请继续下一部分,您可以从我建议的 archive.org 网络爬虫列表中进行选择。 本部分适用于知道如何编码的个人。

你可以用任何编程语言编写一个网络爬虫,只要它有一个 HTTP 请求库和一个解析库。 我们将在本教程中使用 Python,因为即使对于非 Python 程序员来说它也很容易学习,并且它有许多易于使用的抓取包。

有许多图书馆可以帮助您进行 Internet 档案抓取。 您要抓取的内容将决定您选择哪个库。 要自动化需要执行 Javascript 的操作,您需要 ,一个浏览器Automator。 要求美丽汤另一方面,如果不需要 Javascript,可能就足够了。 Requests 是用于提交 HTTP 请求的第三方 Python 模块。 相比之下,Beautifulsoup 是一个高级库,它使用解析器让您从 HTML 页面中导航和提取数据。

Archive.org 抓取的优点是不需要您处理普通网络抓取的复杂性。 当谈到网络抓取时,一些新手选择使用archive.org,而不是直接从网站上抓取。

这是因为,与从其他网站抓取不同,它们不必应对反封锁或其他反抓取工作。 为避免抓取错误的 URL,在抓取 URL 期间,您必须在抓取之前检查 URL。


常见问题

问:Internet Archive 是否允许从其网站上抓取数据?

是的。 您可以毫无问题地从 Internet 存档中抓取数据,因为它允许抓取工具抓取其数据。


结论

目前还不是很清楚,但是如果您查看上面的列表,您会意识到存在某种分组。 对于非编码人员,有 Sangaline 的 Wayback Machine Scraper 和其他工具。 ScrapeStorm、WebScraper.io 和 Octoparse 是在线抓取工具,适用于想要从 archive.org 网页提取特定数据的非编码人员。 如果您想抓取整个网页或整个网站,Wayback Machine Downloader 最适合您。

加入谈话

您的电邮地址不会被公开。 必填带 *