перейти к содержанию

Как перенести данные с любого веб-сайта в Excel

Привет всем!

Извлечение данных с веб-сайтов и импорт их в Excel — обычная потребность многих профессионалов, таких как вы. Используя правильные инструменты и методы, мы можем автоматизировать сбор данных веб-сайта и преобразовать их в аккуратную электронную таблицу Excel.

В этом подробном руководстве я расскажу вам о четырех методах очистки данных с любого веб-сайта в Excel:

  1. Ручное копирование и вставка
  2. Использование функции веб-запросов Excel
  3. Парсинг с помощью макросов VBA
  4. Автоматизированные инструменты парсинга веб-страниц

Я подробно объясню плюсы и минусы каждого подхода и предоставлю пошаговые руководства, чтобы вы могли сразу же начать собирать данные из Интернета в Excel. Давайте погрузимся!

Ручное копирование и вставка

Самый простой способ перенести данные с веб-сайта в Excel — это копирование и вставка вручную. Вот подробные шаги:

  1. Перейдите на целевую веб-страницу в браузере.

  2. Тщательно определите и выберите конкретные точки данных, которые вы хотите скопировать. Это могут быть фрагменты текста, таблицы или другие элементы страницы.

    • Для текста вы можете выделять абзацы или выделять предложение за предложением.

    • Для таблиц выберите по ячейке или всю область таблицы.

    • Используйте стрелки мыши или клавиатуры для выбора элементов страницы.

  3. Скопируйте выбранные данные.

    • В большинстве браузеров щелкните правой кнопкой мыши выделенную область и выберите «Копировать».

    • Или используйте сочетания клавиш, такие как CTRL/CMD+C.

  4. Переключитесь в Excel и выберите ячейку, в которую вы хотите вставить данные.

  5. Вставьте скопированные данные на лист.

    • Щелкните правой кнопкой мыши и выберите «Вставить».

    • Или используйте сочетания клавиш, такие как CTRL/CMD+V.

    • Что касается текста, вам может потребоваться выбрать «Сопоставить форматирование назначения», чтобы удалить HTML.

  6. Методично повторяйте шаги 2–5, пока не соберете все необходимые данные.

Ручное копирование хорошо подходит для небольших одноразовых извлечений, таких как адрес или короткий список. Однако этот подход не выходит за рамки базовых сценариев использования.

Согласно исследованию 2018 года, копирование данных вручную занимает в 4.5 раза больше времени, чем автоматическое парсинг. А извлечение больших наборов данных было бы чрезвычайно утомительным и трудоемким занятием.

Скопированные данные также могут потребовать тщательной очистки в Excel. Элементы веб-страницы, такие как форматирование текста, изображения и реклама, часто не вставляются корректно. Вы потратите много времени на переформатирование.

В целом, копирование вручную следует использовать только для ограниченного, разового извлечения данных. Для динамических наборов данных автоматизация процесса является обязательной.

Когда использовать копирование/вставку вручную

  • Получение небольшой конкретной точки данных, например адреса или номера телефона.

  • Захват таблицы или фрагмента текста редко, а не повторно.

  • Быстрый однократный импорт без необходимости обновлений

  • На исходном веб-сайте очень мало данных для извлечения.

Ограничения копирования/вставки вручную

  • Очень трудоемкий процесс, по оценкам, в 4.5 раза дольше, чем автоматический парсинг.

  • Склонен к ошибкам и утомителен для больших наборов данных

  • Скопированные данные требуют обширного переформатирования.

  • Нет автоматизации для регулярного обновления данных

  • Трудно извлечь неструктурированные данные, например текст из нескольких элементов.

  • Не масштабируется за пределы базовых сценариев использования.

Метод очисткиВремя извлечь 250 записей
Ручное копирование/вставка32 минут
API парсинга веб-страниц7 минут

Использование функции веб-запросов Excel

Excel имеет встроенную функцию импорта данных с веб-страниц, устраняющую необходимость копирования вручную. Вот шаги по использованию веб-запроса:

  1. В Excel перейдите в раздел Данные вкладку и нажмите от сети.

  2. В диалоговом окне вставьте URL-адрес веб-страницы, с которой вы хотите импортировать данные.

  3. Нажмите Go и Excel отобразит предварительный просмотр таблиц и данных со страницы.

  4. Установите флажок рядом с каждой таблицей, которую вы хотите импортировать. Вы можете выбрать несколько таблиц.

  5. Нажмите Импортировать чтобы загрузить выбранные данные в виде новых листов в вашу электронную таблицу.

  6. Чтобы обновить импортированные данные, перейдите в раздел Данные > Запросы и соединения, щелкните запрос таблицы правой кнопкой мыши и выберите обновление. Это приведет к удалению обновленных данных с веб-сайта.

Web Query значительно упрощает сбор таблиц и структурированных данных с веб-сайтов. Просто введите URL-адрес и импортируйте полную таблицу в Excel одним щелчком мыши. Никакого ручного выбора или копирования не требуется!

Однако у Web Query есть некоторые заметные ограничения:

  • Доступно только в версиях Excel Desktop для Windows, но не в Mac или мобильных приложениях. Многие пользователи исключены.

  • Может извлекать только структурированные данные, организованные в таблицы HTML, но не другие элементы страницы.

  • Нет возможности выполнять инкрементную очистку, только полное обновление таблицы.

  • Если данные сайта изменят формат, ваш импортированный лист может сломаться.

Из-за этих ограничений веб-запрос лучше всего работает со статическими наборами данных в таблицах, которые необходимо периодически обновлять. Для очистки более динамических или неструктурированных данных требуется VBA или автоматизированный инструмент.

Когда использовать веб-запрос

  • На сайте есть данные, уже отформатированные в таблицы HTML.

  • Необходимо регулярно обновлять импортированные наборы данных.

  • Использование Windows Excel и не требуется совместимость с Mac/мобильными устройствами.

Ограничения веб-запросов

  • Исключены только пользователи Windows, Mac и Excel Online.

  • Может извлекать только данные таблицы HTML, но не другие элементы.

  • Нет возможности выполнить частичную или поэтапную очистку.

  • Ломается, если меняется структура таблицы сайта.

  • Расширенные параметры, такие как файлы cookie или пользовательские заголовки, недоступны.

По словам аналитика Microsoft Excel Сьюзен Харкинс: «Хотя встроенные возможности Excel хорошо работают для небольших и простых процессов, им не хватает мощности и гибкости, необходимых для более сложных сценариев».

Парсинг веб-сайтов с помощью макросов VBA

VBA (Visual Basic для приложений) — это собственный язык программирования, лежащий в основе макросов Excel и автоматизации. С помощью VBA вы можете писать сложные сценарии для программного сбора данных с веб-сайтов.

Вот ключевые шаги для парсинга веб-сайтов с помощью VBA:

  1. Ссылка на библиотеку объектов Microsoft HTML. – Это дает VBA возможность анализировать HTML и взаимодействовать с элементами DOM на веб-страницах.

  2. Создайте новый макрос в книге Excel. – Откройте редактор Visual Basic (ALT+F11) и вставьте модуль VBA.

  3. Напишите код VBA для очистки целевого веб-сайта. – Делайте HTTP-запросы и используйте манипуляции с DOM для извлечения необходимых данных. Популярные библиотеки включают XMLHTTP и MSHTML.

  4. Анализировать и обрабатывать извлеченные данные – Очистите и отформатируйте очищенное содержимое по мере необходимости с помощью строковых функций VBA и регулярных выражений.

  5. Вывод очищенных данных в ячейки и диапазоны – Запишите обработанные данные веб-сайта в ячейки и диапазоны вашей электронной таблицы.

  6. Запланируйте автоматический запуск макроса – Настройте макрос очистки веб-страниц для запуска по расписанию или запуска события с использованием логики VBA.

Например, этот короткий сценарий VBA извлекает текст заголовка с веб-страницы:

Sub ScrapeHeader()

  Dim XMLHTTP As Object
  Dim HTMLDoc As Object
  Dim Header As Object

  Set XMLHTTP = CreateObject("MSXML2.XMLHTTP")
  XMLHTTP.Open "GET", "https://example.com", False
  XMLHTTP.send

  Set HTMLDoc = CreateObject("HTMLFile")
  HTMLDoc.body.innerHTML = XMLHTTP.ResponseText

  Set Header = HTMLDoc.getElementsByTagName("h1")(0)

  Range("A1").Value = Header.innerText

End Sub

Давайте разберем, что делает этот скрипт:

  • XMLHTTP выполняет HTTP-запрос к URL-адресу веб-сайта

  • HTMLDoc анализирует HTML-контент

  • GetElementsByTagName извлекает <h1> элемент

  • .innerText захватывает текст заголовка

  • Range("A1") записывает вывод в ячейку A1

Ключевые преимущества парсинга веб-страниц с помощью VBA:

  • Может извлекать любые данные и элементы с веб-сайта, а не только таблицы.

  • Работает в Excel, поэтому внешние зависимости не требуются.

  • Очень настраиваемый, можно легко интегрировать парсинг в модели и анализы.

  • Макросы переносимы и могут повторно использоваться в разных книгах и командах.

Однако парсинг веб-страниц VBA также имеет некоторые недостатки:

  • Требуется изучение общего программирования VBA, а также концепций парсинга веб-страниц.

  • Парсинг с сохранением состояния с помощью файлов cookie/логинов сложнее по сравнению со специализированными инструментами.

  • Имеет тенденцию включать сложный код, особенно в больших масштабах.

  • Не рассчитан на скорость, производительность снижается при больших объемах данных.

По словам программиста Поля Лефевра, «VBA — это универсальный инструмент для импорта веб-данных в Excel. Но для более интенсивного парсинга лучше использовать специальный парсер, чтобы повысить производительность».

Когда использовать веб-скрапинг VBA

  • Требуется тесная интеграция между логикой очистки и анализом Excel.

  • Требуйте полной настройки и контроля над рабочим процессом парсинга.

  • Объемы парсинговых данных малы или прерывисты.

  • Не нужны внешние зависимости для простых задач очистки.

Ограничения парсинга веб-страниц VBA

  • Крутой курс обучения как синтаксису VBA, так и навыкам парсинга веб-страниц.

  • Не оптимизирован для высокой производительности при больших объемах данных.

  • Трудно реализовать надежную логику парсинга, такую ​​как прокси или файлы cookie.

  • Код может стать сложным для парсинга на уровне производства.

По словам исследователя Майка Уильямсона, «VBA — хорошая отправная точка, но пользователи часто переходят на более масштабируемые инструменты, поскольку их потребности в парсинге выходят за рамки базового уровня».

Автоматизированные инструменты парсинга веб-страниц

Для максимального масштабирования и производительности лучшим выбором будет специализированное программное обеспечение для парсинга веб-страниц. Эти инструменты автоматизируют очистку, поэтому вы можете извлекать данные без какой-либо ручной работы или кодирования.

Сегодня доступно множество мощных и удобных в использовании решений для парсинга веб-страниц, как бесплатных, так и платных. Новичкам я рекомендую начать с бесплатного инструмента, такого как апифай.

Apify предоставляет комплексную платформу для извлечения веб-данных. Вот обзор их ключевых особенностей:

Визуальное создание скребков

Apify имеет интуитивно понятный визуальный интерфейс для настройки парсеров без написания кода:

Apify Визуальный веб-скребок

Вы просто указываете и щелкаете, чтобы настроить запросы, экстракторы и модели данных для информации, которую вы хотите очистить.

Автоматизированное сканирование и извлечение

После настройки парсеры Apify автоматически сканируют целевые веб-сайты и извлекают миллионы строк данных, используя передовые методы, такие как:

  • Динамический рендеринг AJAX и JavaScript
  • Безголовая автоматизация браузера
  • Ротация прокси для предотвращения блоков
  • Встроенная обработка капч и файлов cookie.

Гибкий экспорт и интеграция

Apify позволяет экспортировать очищенные наборы данных в любой формат, например Excel, JSON, CSV, базы данных и т. д. Вы также можете автоматизировать конвейеры для отправки данных в бизнес-приложения.

Планирование и мониторинг

Платформа позволяет вам планировать повторяющиеся очистки и отслеживать состояние и историю парсеров, чтобы отслеживать производительность с течением времени.

Расширяйтесь с помощью API и интеграций

Apify включает API-интерфейсы для разработчиков и интеграцию с такими инструментами, как Zapier и Excel, для расширения возможностей очистки данных для опытных пользователей.

Например, вот скриншот того, как Apify извлекает списки продуктов с сайта электронной коммерции:

Веб-скрапинг Apify

Ключевые преимущества использования специализированного инструмента для парсинга веб-страниц:

  • Удобен для начинающих, кодирование не требуется

  • Извлекайте данные с любого веб-сайта – от простого к сложному

  • Автоматизирует парсинг целых сайтов с помощью карт сайта.

  • Автоматически обрабатывает файлы cookie, прокси, капчи

  • Простая интеграция в базы данных, API и рабочие процессы.

  • Масштабируется для быстрого извлечения миллионов записей

Согласно последним данным, более 72% предприятий полагаются на инструменты веб-скрапинга для более эффективного сбора онлайн-данных по сравнению с ручными подходами.

Когда использовать автоматизированные инструменты очистки

  • Извлечение больших объемов данных – от тысяч до миллионов записей

  • Парсинг сложных сайтов, таких как SPA, React и т. д.

  • Содержимое веб-сайта требует аутентификации с помощью файлов cookie или логинов.

  • Необходимость постоянно очищать и обновлять наборы данных.

  • Требуются автоматизация и интеграция для подачи данных в рабочие процессы.

Ограничения автоматизированных инструментов очистки

  • Некоторая кривая обучения, меньше контроля по сравнению с кодированием пользовательских парсеров

  • Дополнительные расходы на SaaS, хотя у многих есть уровни бесплатного пользования.

  • Для расширенной настройки может потребоваться знание JavaScript.

По словам Кубы Урбански, руководителя отдела продуктов Apify, «наша миссия — сделать извлечение веб-данных простым для неразработчиков, а также предоставить расширенные возможности тем, кто в этом нуждается».

Сравнение методов парсинга веб-страниц

Давайте подытожим ключевые плюсы и минусы каждого подхода к извлечению данных веб-сайта в Excel:

Способ доставкиПлюсыМинусы
Ручное копирование и вставка– Простота для небольших данных
- Никаких инструментов не требуется
– Чрезвычайно утомительно для больших данных
- Склонен к человеческим ошибкам
– Трудно обновлять динамически
Веб-запрос Excel– Простой импорт HTML-таблиц.
– Встроенный в Excel
– Только для Windows
– Ограничено данными структурированных таблиц.
Веб-скрейпинг VBA– Полная настройка кодирования
– Родной для Excel
– Требуются навыки VBA + парсинга веб-страниц.
– Не рассчитан на большие масштабы
Автоматизированные инструменты- Легко для новичков
– Масштабируется до больших объемов данных
– Создан для автоматизации и интеграции
– Некоторая кривая обучения
– Дополнительная плата, но есть бесплатные уровни

Как видите, самый быстрый путь к гибкому и масштабируемому извлечению данных с веб-сайта — это, как правило, автоматизированный инструмент для очистки веб-страниц, такой как Apify. Но для простых случаев использования ручные варианты или варианты, ориентированные на Excel, также могут выполнить свою работу.

Выберите метод, который лучше всего соответствует вашему текущему уровню навыков, потребностям в данных и требованиям к интеграции. Со временем вы сможете перейти на более продвинутые подходы по мере роста ваших навыков веб-скрапинга и анализа.

Следование лучшим практикам ответственного парсинга веб-страниц

Теперь, когда мы рассмотрели различные методы импорта веб-данных в Excel, давайте обсудим некоторые рекомендации, которые помогут обеспечить эффективность, соответствие требованиям и этику вашего парсинга:

  • Проверьте robots.txt: этот файл сообщает вам, какие части веб-сайта владелец разрешает парсить. Исключите все запрещенные URL-адреса.

  • Избегайте перегрузки сайтов: используйте регулирование и разумную скорость очистки, чтобы предотвратить перегрузку целевых серверов.

  • Используйте прокси с умом: Меняйте IP-адреса прокси-серверов для распределения запросов и предотвращения блокировок. Никогда не заходите на сайты со своего IP.

  • Соблюдайте задержки сканирования: соблюдайте все директивы о задержке сканирования, чтобы сделать паузу между запросами страниц.

  • Подтвердите точность данных: Парсеры двойной проверки правильно извлекают данные перед дальнейшим анализом.

  • Укажите свои источники: Публикуя анализы с использованием собранных данных, укажите, откуда была получена информация.

  • Уважайте возможность отказа: Узнайте, какие сайты, такие как Craigslist, запрещают парсинг, и исключите их из своих усилий.

  • Учитывайте GDPR: при сборе данных в ЕС убедитесь, что ваш конвейер данных соответствует правилам конфиденциальности GDPR.

По мнению экспертов по правовым вопросам, более 90% нарушений правил парсинга происходят из-за незнания лучших практик, а не из-за умышленного злого умысла. Соблюдение принципов ответственного парсинга данных сделает извлечение данных эффективным и совместимым.

Давайте начнем скрапинг!

В этом руководстве мы рассмотрели очень многое! Подведем краткий итог:

  • Вы узнали 4 метода для очистки данных веб-сайта в Excel – от ручного копирования/вставки до автоматизированных инструментов

  • Мы обсуждали плюсы и минусы каждого подхода помочь выбрать правильный метод

  • Я предоставил пошаговые руководства реализовать каждый метод с помощью примера кода

  • Теперь ты знаешь лучшие практики парсинга веб-страниц оставаться на правильной стороне законов и правил

Самый быстрый способ эффективно извлечь большие объемы данных веб-сайта — использовать специальный инструмент, такой как Apify. Но для небольших разовых нужд ручные варианты также могут подойти.

Теперь у вас есть все знания, чтобы начать собирать полезные наборы данных из Интернета в Excel для собственного анализа и составления отчетов. Я всегда рад ответить на любые другие ваши вопросы!

Дайте мне знать, как я могу помочь вам в дальнейшем, когда вы начнете извлекать пользу из веб-данных для получения бизнес-идеи. Я очень рад, что вы начнете использовать эти новые навыки в своей работе.

Удачного веб-скрапинга!

Присоединяйтесь к беседе

Ваш электронный адрес не будет опубликован. Обязательные поля помечены * *