перейти к содержанию

Полное руководство по извлечению данных с веб-сайтов в Excel с помощью веб-запроса

Как опытный эксперт по извлечению данных, я уже более десяти лет использую парсинг веб-страниц для сбора информации из Интернета. В своей работе я обнаружил, что возможности веб-запросов Excel являются полезной отправной точкой для новичков, которые могут начать извлекать данные прямо в знакомые электронные таблицы.

В этом подробном руководстве, состоящем из более чем 2200 слов, я поделюсь своими инсайдерскими знаниями, которые помогут вам, будучи новичком, максимально эффективно использовать Web Query для удовлетворения ваших потребностей в парсинге веб-страниц.

Как работает парсинг веб-страниц – краткое руководство

Прежде чем мы углубимся в особенности веб-запросов, давайте кратко рассмотрим основы работы веб-скраперов, чтобы у вас был некоторый контекст.

Веб-скраперы позволяют автоматически извлекать и структурировать данные с веб-сайтов. Они работают:

  1. Отправка HTTP-запросов для загрузки веб-страниц
  2. Парсинг HTML-кода
  3. Определение соответствующих данных с помощью селекторов DOM
  4. Извлечение целевых данных
  5. Вывод его в различные места назначения — CSV, базы данных и т. д.

Это позволяет собирать полезную информацию из Интернета в любом масштабе для анализа.

По данным Allied Market Research, объем мирового рынка парсинга веб-страниц уже превысил 2 миллиарда долларов США в 2020 году и, по прогнозам, в период с 13.5 по 2021 год будет расти на 2028% в среднем на XNUMX%.

Web Query использует эту возможность извлечения данных непосредственно в Excel. Теперь давайте рассмотрим, как именно это работает.

Что такое веб-запрос и как он работает в Excel?

Веб-запрос — это функция Excel, которая использует базовый браузер Windows для отображения веб-страниц прямо в приложении. Это позволяет ему анализировать и извлекать данные из HTML-кода веб-сайта.

Внутренне Web Query отправляет HTTP-запросы через браузер ОС для загрузки сайтов. Затем он анализирует DOM и идентифицирует HTML-таблицы на странице.

После загрузки сайта вы можете просто визуально щелкнуть любой элемент таблицы, который хотите извлечь. Excel прочитает и импортирует данные в вашу электронную таблицу в виде отформатированных строк и столбцов.

Собранные данные остаются связанными с исходным веб-запросом. Это дает вам простые возможности для обновления и обновления данных, если они устарели.

Короче говоря, Web Query обеспечивает безкодовый способ сбора таблиц данных с веб-страниц в Excel. Но у него есть ограничения с точки зрения гибкости по сравнению с кодированием пользовательских парсеров.

Далее давайте рассмотрим практический пример, чтобы вы могли увидеть его в действии!

Пошаговое руководство: очистка данных с веб-сайта в Excel

Я продемонстрирую, как работает веб-запрос, скопировав некоторые образцы данных с сайта books.toscrape.com:

Подготовьте пустую таблицу

Сначала запустите новую пустую книгу Excel. Сюда мы будем вставлять очищенные данные.

Убедитесь, что у вас есть подключение к Интернету, чтобы мы могли загрузить целевой сайт.

Доступ к интерфейсу веб-запросов

Нажмите на Данные вкладка в ленточном меню Excel. Затем нажмите кнопку от сети кнопку на вкладке «Данные».

Вкладка «Данные Excel»

Откроется диалоговое окно «Новый веб-запрос».

Введите URL-адрес веб-сайта

В адресной строке введите или вставьте URL-адрес сайта, который вы хотите парсить (в нашем случае). https://books.toscrape.com

После ввода нажмите Go or Enter чтобы загрузить страницу.

Web Query отобразит веб-сайт прямо в Excel. Используйте элементы управления браузера, чтобы перейти к конкретной странице, содержащей данные, которые вы хотите извлечь.

Например, я открыл категорию «Художественная литература» и перешел на страницу сведений об отдельной книге.

Выберите таблицы для парсинга

На целевой странице веб-запрос выделит все извлекаемые таблицы HTML. Щелкните те, которые хотите импортировать в Excel.

Для этого примера я выбрал таблицу сведений о продукте на странице книги.

Импортируйте скопированные данные

Выбрав нужные таблицы, нажмите Импортировать в нижней части панели браузера веб-запросов.

Вставить в электронную таблицу

Во всплывающем окне выберите импорт в существующий рабочий лист и нажмите OK.

Вот и все! Web Query теперь извлечет данные из выбранных таблиц и вставит их в вашу электронную таблицу в виде отформатированных строк и столбцов.

Давайте рассмотрим несколько примеров импорта различных данных таблицы:

Очищенные данныеСтраница источникаЦель
Информация о продуктеСтраница сведений о книгеВведите информацию о книге, такую ​​как название, цена, описание и т. д.
Ссылки на категорииГлавная страницаИзвлеките все ссылки на темы, чтобы очистить их позже.
Результаты поискаСтраница результатов поискаИмпортируйте все книги из поискового запроса.

Как видите, ключевым моментом является определение соответствующих таблиц в HTML-коде сайта и их импорт для анализа.

Далее давайте рассмотрим различные способы обновления очищенных данных…

3 метода обновления извлеченных веб-данных

Собранные данные остаются связанными с исходным веб-запросом, который импортировал их в Excel. Это дает вам простые возможности обновить запрос, когда данные устаревают или устаревают.

Вот 3 различных способа обновления извлеченных веб-данных:

1. Нажмите кнопку «Обновить» на вкладке «Данные».

На вкладке «Данные» Excel просто нажмите кнопку обновление Кнопка, чтобы повторно запустить веб-запрос и получить обновленные данные.

Вы также можете использовать утилиту CTRL + ALT + F5 сочетание клавиш для обновления.

2. Щелкните правой кнопкой мыши и выберите «Обновить».

В электронной таблице щелкните любую ячейку в диапазоне очищенных данных.

В контекстном меню, вызываемом правой кнопкой мыши, выберите обновление чтобы получить последние данные.

3. Повторно запустите запрос из меню «Редактировать запрос».

Щелкните правой кнопкой мыши ячейку в данных веб-запроса и выберите Изменить запрос из меню.

При этом снова откроется окно браузера веб-запросов. Нажмите Импортировать здесь, чтобы повторно выполнить запрос и получить обновленные данные.

Pro Tip: «Редактировать запрос» позволяет изменить запрос веб-скрапинга для извлечения различных данных, а «Обновить» просто перезагружает исходный запрос.

Давайте рассмотрим настройку автоматического обновления, чтобы упростить обновление данных.

Настройка автоматического фонового обновления

Вместо обновления извлеченных данных вручную вы можете включить автоматическое фоновое обновление в Excel.

Вот шаги:

1. Откройте свойства диапазона внешних данных.

Щелкните правой кнопкой мыши любую ячейку в диапазоне данных веб-запроса. Идти к Свойства диапазона данных.

2. Установите флажок «Включить фоновое обновление».

В Обновить контроль В разделе «Включить фоновое обновление» установите флажок «Включить фоновое обновление».

3. Установите частоту обновления.

В "Обновлять каждые:" в раскрывающемся списке выберите интервал времени для периодического обновления.

Например, установите значение 5 минут, чтобы данные автоматически обновлялись каждые 5 минут в фоновом режиме.

Теперь Excel будет обновлять очищенные данные по расписанию без какого-либо ручного вмешательства!

Далее давайте рассмотрим плюсы и минусы использования Web Query для задач веб-скрапинга.

Ключевые преимущества и ограничения парсинга веб-запросов

Основываясь на моем опыте, вот некоторые заметные плюсы и минусы, о которых следует знать при использовании функции очистки веб-запросов Excel:

Плюсы

  • Не требует знаний кодирования
  • Легко импортировать очищенные данные в электронные таблицы.
  • Может извлекать данные с динамических сайтов JavaScript.
  • Настраиваемое автоматическое фоновое обновление
  • Удобен для очистки небольших объемов.

Минусы

  • Ограничено только извлечением HTML-таблиц.
  • Не хватает расширенных возможностей очистки.
  • Неоптимально для крупномасштабного сбора данных.
  • Трудно настроить, кроме простых запросов.

Как видите, Web Query предоставляет новичкам доступную отправную точку для извлечения табличных данных с веб-сайтов в Excel без программирования.

Однако он достигает ограничений для более сложных или крупномасштабных случаев использования парсинга. Давайте рассмотрим их дальше…

Когда использовать более продвинутые инструменты веб-скрапинга

Web Query отлично подходит для простых задач парсинга. Но по мере роста ваших потребностей в извлечении данных вам может потребоваться перейти на более продвинутые инструменты.

Вот несколько примеров того, когда альтернативные решения для парсинга становятся предпочтительными:

  • Когда вам нужно извлечь данные за пределами HTML-таблиц – например, текст, документы, изображения и т. д.
  • Парсинг данных со страниц с помощью нет табличных данных. Web Query требует, чтобы таблицы анализировались и импортировались.
  • Динамическое парсинг потребности – например, взаимодействие с сайтами, заполнение форм, бесконечная прокрутка и т. д.
  • Проведение больших царапин тысячи страниц. Web Query задыхается на больших сайтах.
  • Масштабное извлечение данных – как очистка всего содержимого сайта.
  • Когда вам нужно обход блоков с прокси для доступа и анонимности.
  • Автоматизация и планирование сложные повторяющиеся работы по очистке.

Для этих сложных случаев использования становится необходимым программирование пользовательских парсеров на Python, JavaScript и т. д. или использование специально созданных инструментов.

Давайте рассмотрим несколько примеров альтернатив:

Библиотеки парсинга Python

Python имеет надежные библиотеки, такие как Scrapy, BeautifulSoup, Selenium и Requests, для создания парсеров. Они дают вам полную настройку для сложных сайтов.

Вот пример кода Python, использующего BeautifulSoup для извлечения текста со страницы:

from bs4 import BeautifulSoup
import requests

page = requests.get("https://books.toscrape.com") 
soup = BeautifulSoup(page.content, ‘html.parser‘)

print(soup.get_text()) 

Безголовая автоматизация браузера

Такие инструменты, как Selenium и Playwright, позволяют имитировать действия пользователя для нужд динамического парсинга.

Вот пример кода Selenium Python для прокрутки страницы и извлечения текста:

from selenium import webdriver

driver = webdriver.Chrome()
driver.get("https://books.toscrape.com")

# Scroll to load dynamic content
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

page_text = driver.page_source
print(page_text)

Инструменты визуального парсинга веб-страниц

Специально созданные инструменты с графическим пользовательским интерфейсом, такие как Apify, Octoparse, Dexi.io и ScrapeStorm, позволяют выполнять визуальный анализ данных без написания кода. Они отлично подходят для не-разработчиков.

Инструмент визуального парсинга веб-страниц

Службы веб-скрапинга

Аутсорсинговые сервисы парсинга, такие как ScrapingBee, ScraperAPI и ProxyCrawl, предлагают извлечение данных «под ключ» в любом масштабе без инфраструктуры.

Ключевым моментом является то, что, как только Web Query перестанет соответствовать вашим потребностям, современные инструменты парсинга предложат множество возможностей для расширения ваших возможностей!

Ключевые выводы и выводы

Прочитав это подробное руководство, состоящее из более чем 2200 слов, вы должны четко понимать:

  • Как работает веб-запрос – использование браузера для анализа и извлечения HTML-таблиц в Excel
  • Шаг за шагом инструкции парсить данные с сайтов-примеров
  • Постоянно обновляющийся очищенные данные, чтобы поддерживать их в актуальном состоянии
  • Настройка автоматическое обновление фона
  • За и против веб-запросов для различных вариантов использования
  • Когда обновлять к более продвинутым инструментам и языкам парсинга
  • Современный парсинг веб-страниц альтернативы за пределами запроса Excel

Подводя итог, можно сказать, что Web Query предоставляет новичкам удобный способ без использования кода извлекать простые табличные данные в знакомые электронные таблицы Excel.

Однако, как только ваши потребности в сборе веб-сбора станут более продвинутыми, его ограничения станут очевидными. Для извлечения данных профессионального уровня в больших масштабах альтернативные решения для очистки данных открывают большую гибкость.

Но для выполнения основных задач по сбору данных из таблиц Web Query остается удобным встроенным инструментом, который всегда есть в вашем наборе инструментов! Я надеюсь, что это руководство дало вам знания, позволяющие эффективно использовать его возможности.

Дайте мне знать, если у вас есть еще вопросы! Я всегда рад помочь товарищам-скраперам освоить основы.

Присоединяйтесь к беседе

Ваш электронный адрес не будет опубликован. Обязательные поля помечены * *