Как опытный эксперт по извлечению данных, я уже более десяти лет использую парсинг веб-страниц для сбора информации из Интернета. В своей работе я обнаружил, что возможности веб-запросов Excel являются полезной отправной точкой для новичков, которые могут начать извлекать данные прямо в знакомые электронные таблицы.
В этом подробном руководстве, состоящем из более чем 2200 слов, я поделюсь своими инсайдерскими знаниями, которые помогут вам, будучи новичком, максимально эффективно использовать Web Query для удовлетворения ваших потребностей в парсинге веб-страниц.
Как работает парсинг веб-страниц – краткое руководство
Прежде чем мы углубимся в особенности веб-запросов, давайте кратко рассмотрим основы работы веб-скраперов, чтобы у вас был некоторый контекст.
Веб-скраперы позволяют автоматически извлекать и структурировать данные с веб-сайтов. Они работают:
- Отправка HTTP-запросов для загрузки веб-страниц
- Парсинг HTML-кода
- Определение соответствующих данных с помощью селекторов DOM
- Извлечение целевых данных
- Вывод его в различные места назначения — CSV, базы данных и т. д.
Это позволяет собирать полезную информацию из Интернета в любом масштабе для анализа.
По данным Allied Market Research, объем мирового рынка парсинга веб-страниц уже превысил 2 миллиарда долларов США в 2020 году и, по прогнозам, в период с 13.5 по 2021 год будет расти на 2028% в среднем на XNUMX%.
Web Query использует эту возможность извлечения данных непосредственно в Excel. Теперь давайте рассмотрим, как именно это работает.
Что такое веб-запрос и как он работает в Excel?
Веб-запрос — это функция Excel, которая использует базовый браузер Windows для отображения веб-страниц прямо в приложении. Это позволяет ему анализировать и извлекать данные из HTML-кода веб-сайта.
Внутренне Web Query отправляет HTTP-запросы через браузер ОС для загрузки сайтов. Затем он анализирует DOM и идентифицирует HTML-таблицы на странице.
После загрузки сайта вы можете просто визуально щелкнуть любой элемент таблицы, который хотите извлечь. Excel прочитает и импортирует данные в вашу электронную таблицу в виде отформатированных строк и столбцов.
Собранные данные остаются связанными с исходным веб-запросом. Это дает вам простые возможности для обновления и обновления данных, если они устарели.
Короче говоря, Web Query обеспечивает безкодовый способ сбора таблиц данных с веб-страниц в Excel. Но у него есть ограничения с точки зрения гибкости по сравнению с кодированием пользовательских парсеров.
Далее давайте рассмотрим практический пример, чтобы вы могли увидеть его в действии!
Пошаговое руководство: очистка данных с веб-сайта в Excel
Я продемонстрирую, как работает веб-запрос, скопировав некоторые образцы данных с сайта books.toscrape.com:
Подготовьте пустую таблицу
Сначала запустите новую пустую книгу Excel. Сюда мы будем вставлять очищенные данные.
Убедитесь, что у вас есть подключение к Интернету, чтобы мы могли загрузить целевой сайт.
Доступ к интерфейсу веб-запросов
Нажмите на Данные вкладка в ленточном меню Excel. Затем нажмите кнопку от сети кнопку на вкладке «Данные».
Откроется диалоговое окно «Новый веб-запрос».
Введите URL-адрес веб-сайта
В адресной строке введите или вставьте URL-адрес сайта, который вы хотите парсить (в нашем случае). https://books.toscrape.com
После ввода нажмите Go or Enter чтобы загрузить страницу.
Перейдите на нужную страницу
Web Query отобразит веб-сайт прямо в Excel. Используйте элементы управления браузера, чтобы перейти к конкретной странице, содержащей данные, которые вы хотите извлечь.
Например, я открыл категорию «Художественная литература» и перешел на страницу сведений об отдельной книге.
Выберите таблицы для парсинга
На целевой странице веб-запрос выделит все извлекаемые таблицы HTML. Щелкните те, которые хотите импортировать в Excel.
Для этого примера я выбрал таблицу сведений о продукте на странице книги.
Импортируйте скопированные данные
Выбрав нужные таблицы, нажмите Импортировать в нижней части панели браузера веб-запросов.
Вставить в электронную таблицу
Во всплывающем окне выберите импорт в существующий рабочий лист и нажмите OK.
Вот и все! Web Query теперь извлечет данные из выбранных таблиц и вставит их в вашу электронную таблицу в виде отформатированных строк и столбцов.
Давайте рассмотрим несколько примеров импорта различных данных таблицы:
Очищенные данные | Страница источника | Цель |
---|---|---|
Информация о продукте | Страница сведений о книге | Введите информацию о книге, такую как название, цена, описание и т. д. |
Ссылки на категории | Главная страница | Извлеките все ссылки на темы, чтобы очистить их позже. |
Результаты поиска | Страница результатов поиска | Импортируйте все книги из поискового запроса. |
Как видите, ключевым моментом является определение соответствующих таблиц в HTML-коде сайта и их импорт для анализа.
Далее давайте рассмотрим различные способы обновления очищенных данных…
3 метода обновления извлеченных веб-данных
Собранные данные остаются связанными с исходным веб-запросом, который импортировал их в Excel. Это дает вам простые возможности обновить запрос, когда данные устаревают или устаревают.
Вот 3 различных способа обновления извлеченных веб-данных:
1. Нажмите кнопку «Обновить» на вкладке «Данные».
На вкладке «Данные» Excel просто нажмите кнопку обновление Кнопка, чтобы повторно запустить веб-запрос и получить обновленные данные.
Вы также можете использовать утилиту CTRL + ALT + F5 сочетание клавиш для обновления.
2. Щелкните правой кнопкой мыши и выберите «Обновить».
В электронной таблице щелкните любую ячейку в диапазоне очищенных данных.
В контекстном меню, вызываемом правой кнопкой мыши, выберите обновление чтобы получить последние данные.
3. Повторно запустите запрос из меню «Редактировать запрос».
Щелкните правой кнопкой мыши ячейку в данных веб-запроса и выберите Изменить запрос из меню.
При этом снова откроется окно браузера веб-запросов. Нажмите Импортировать здесь, чтобы повторно выполнить запрос и получить обновленные данные.
Pro Tip: «Редактировать запрос» позволяет изменить запрос веб-скрапинга для извлечения различных данных, а «Обновить» просто перезагружает исходный запрос.
Давайте рассмотрим настройку автоматического обновления, чтобы упростить обновление данных.
Настройка автоматического фонового обновления
Вместо обновления извлеченных данных вручную вы можете включить автоматическое фоновое обновление в Excel.
Вот шаги:
1. Откройте свойства диапазона внешних данных.
Щелкните правой кнопкой мыши любую ячейку в диапазоне данных веб-запроса. Идти к Свойства диапазона данных.
2. Установите флажок «Включить фоновое обновление».
В Обновить контроль В разделе «Включить фоновое обновление» установите флажок «Включить фоновое обновление».
3. Установите частоту обновления.
В "Обновлять каждые:" в раскрывающемся списке выберите интервал времени для периодического обновления.
Например, установите значение 5 минут, чтобы данные автоматически обновлялись каждые 5 минут в фоновом режиме.
Теперь Excel будет обновлять очищенные данные по расписанию без какого-либо ручного вмешательства!
Далее давайте рассмотрим плюсы и минусы использования Web Query для задач веб-скрапинга.
Ключевые преимущества и ограничения парсинга веб-запросов
Основываясь на моем опыте, вот некоторые заметные плюсы и минусы, о которых следует знать при использовании функции очистки веб-запросов Excel:
Плюсы
- Не требует знаний кодирования
- Легко импортировать очищенные данные в электронные таблицы.
- Может извлекать данные с динамических сайтов JavaScript.
- Настраиваемое автоматическое фоновое обновление
- Удобен для очистки небольших объемов.
Минусы
- Ограничено только извлечением HTML-таблиц.
- Не хватает расширенных возможностей очистки.
- Неоптимально для крупномасштабного сбора данных.
- Трудно настроить, кроме простых запросов.
Как видите, Web Query предоставляет новичкам доступную отправную точку для извлечения табличных данных с веб-сайтов в Excel без программирования.
Однако он достигает ограничений для более сложных или крупномасштабных случаев использования парсинга. Давайте рассмотрим их дальше…
Когда использовать более продвинутые инструменты веб-скрапинга
Web Query отлично подходит для простых задач парсинга. Но по мере роста ваших потребностей в извлечении данных вам может потребоваться перейти на более продвинутые инструменты.
Вот несколько примеров того, когда альтернативные решения для парсинга становятся предпочтительными:
- Когда вам нужно извлечь данные за пределами HTML-таблиц – например, текст, документы, изображения и т. д.
- Парсинг данных со страниц с помощью нет табличных данных. Web Query требует, чтобы таблицы анализировались и импортировались.
- Динамическое парсинг потребности – например, взаимодействие с сайтами, заполнение форм, бесконечная прокрутка и т. д.
- Проведение больших царапин тысячи страниц. Web Query задыхается на больших сайтах.
- Масштабное извлечение данных – как очистка всего содержимого сайта.
- Когда вам нужно обход блоков с прокси для доступа и анонимности.
- Автоматизация и планирование сложные повторяющиеся работы по очистке.
Для этих сложных случаев использования становится необходимым программирование пользовательских парсеров на Python, JavaScript и т. д. или использование специально созданных инструментов.
Давайте рассмотрим несколько примеров альтернатив:
Библиотеки парсинга Python
Python имеет надежные библиотеки, такие как Scrapy, BeautifulSoup, Selenium и Requests, для создания парсеров. Они дают вам полную настройку для сложных сайтов.
Вот пример кода Python, использующего BeautifulSoup для извлечения текста со страницы:
from bs4 import BeautifulSoup
import requests
page = requests.get("https://books.toscrape.com")
soup = BeautifulSoup(page.content, ‘html.parser‘)
print(soup.get_text())
Безголовая автоматизация браузера
Такие инструменты, как Selenium и Playwright, позволяют имитировать действия пользователя для нужд динамического парсинга.
Вот пример кода Selenium Python для прокрутки страницы и извлечения текста:
from selenium import webdriver
driver = webdriver.Chrome()
driver.get("https://books.toscrape.com")
# Scroll to load dynamic content
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
page_text = driver.page_source
print(page_text)
Инструменты визуального парсинга веб-страниц
Специально созданные инструменты с графическим пользовательским интерфейсом, такие как Apify, Octoparse, Dexi.io и ScrapeStorm, позволяют выполнять визуальный анализ данных без написания кода. Они отлично подходят для не-разработчиков.
Службы веб-скрапинга
Аутсорсинговые сервисы парсинга, такие как ScrapingBee, ScraperAPI и ProxyCrawl, предлагают извлечение данных «под ключ» в любом масштабе без инфраструктуры.
Ключевым моментом является то, что, как только Web Query перестанет соответствовать вашим потребностям, современные инструменты парсинга предложат множество возможностей для расширения ваших возможностей!
Ключевые выводы и выводы
Прочитав это подробное руководство, состоящее из более чем 2200 слов, вы должны четко понимать:
- Как работает веб-запрос – использование браузера для анализа и извлечения HTML-таблиц в Excel
- Шаг за шагом инструкции парсить данные с сайтов-примеров
- Постоянно обновляющийся очищенные данные, чтобы поддерживать их в актуальном состоянии
- Настройка автоматическое обновление фона
- За и против веб-запросов для различных вариантов использования
- Когда обновлять к более продвинутым инструментам и языкам парсинга
- Современный парсинг веб-страниц альтернативы за пределами запроса Excel
Подводя итог, можно сказать, что Web Query предоставляет новичкам удобный способ без использования кода извлекать простые табличные данные в знакомые электронные таблицы Excel.
Однако, как только ваши потребности в сборе веб-сбора станут более продвинутыми, его ограничения станут очевидными. Для извлечения данных профессионального уровня в больших масштабах альтернативные решения для очистки данных открывают большую гибкость.
Но для выполнения основных задач по сбору данных из таблиц Web Query остается удобным встроенным инструментом, который всегда есть в вашем наборе инструментов! Я надеюсь, что это руководство дало вам знания, позволяющие эффективно использовать его возможности.
Дайте мне знать, если у вас есть еще вопросы! Я всегда рад помочь товарищам-скраперам освоить основы.