перейти к содержанию

Что такое этический парсинг веб-страниц и как его делать? ⚖️ 5 принципов этики парсинга веб-страниц

Эй друг! Обилие данных, доступных в Интернете, дает большие возможности, но также и большую ответственность. Независимо от того, являетесь ли вы разработчиком веб-скрейпера или владельцем веб-сайта, вы должны знать эти 5 важных принципов этического парсинга веб-сайтов.

Давайте пройдемся по ним вместе, чтобы вы могли вдумчиво собирать данные и минимизировать вред.

Этично ли парсинг веб-страниц? Сложный вопрос

На первый взгляд это кажется простым вопросом «да» или «нет». Но парсинг веб-страниц существует в серой зоне, когда дело касается этики.

Тот факт, что что-то является законным, не обязательно делает это этичным. И является ли парсинг веб-страниц этичным, во многом зависит от того, как это делается и почему. Тонкостей предостаточно.

Согласно опросу ParseHub, проведенному в 2021 году, большинство людей (более 60%) считают, что парсинг веб-страниц этичен, если делать это ответственно. Но определения понятия «ответственный» различаются.

Давайте разберемся…

Законность против этики

Во-первых, законность парсинга веб-страниц различается в зависимости от юрисдикции. В США суды в основном считают это законным, если только оно не нарушает Условия обслуживания сайта (ToS) или иным образом не нарушает авторские права и товарные знаки.

Но этическое и юридическое не являются синонимами. Вы можете поступить неэтично, оставаясь в рамках закона. Вы можете не нарушать никаких законов, производя очистку, но при этом вызывать этические проблемы.

Итак, для целей этой статьи давайте рассмотрим юридические сложности и сосредоточимся исключительно на этике.

Этика зависит от методов и намерений

Этично ли парсинг веб-страниц, зависит от:

  • Как это делается (методы)
  • Почему это сделано (намерения)

Если ваши методы наносят вред целевому сайту и ваши намерения сомнительны, это явно неэтично.

Но благие намерения также не оправдывают неэтичных средств. И даже если ваши методы разумны, гнусные цели могут быть неэтичными.

Нюанс лежит между этими крайностями. Итак, давайте рассмотрим некоторые руководящие принципы.

Как этически парсить веб-сайты: 5 ключевых принципов

При парсинге веб-страниц с этической точки зрения наибольшее значение имеют две ценности высокого уровня:

1. Не навреди – Избегайте повреждения веб-сайтов или неправильного использования данных.

2. Добавляйте ценность – Используйте данные на благо общества и отдельных лиц.

Учитывая эти ценности, вот 5 основных принципов этического парсинга веб-страниц:

Для скребков:

1. Не перегружайте сайты

Наводнение сайта запросами может имитировать DDoS-атаку. Даже умеренное парсинг может истощить ресурсы.

Так что распределяйте свои запросы в зависимости от возможностей сайта, что может потребовать проб и ошибок. Увеличьте скорость своего скребка и примите во внимание размер цели. Парсинг GitHub сильно отличается от парсинга местного бизнес-сайта.

Совет. Используйте инструменты, которые позволяют регулировать запросы и запускать парсеры в непиковые часы. Вежливость свидетельствует о добросовестности.

2. Уважайте создателей данных и право собственности

Парсинг общедоступных данных, как правило, не вызывает затруднений. Но если для доступа требуются учетные данные для входа, эти данные, скорее всего, не будут общедоступными. Доступ к нему может нарушить Условия обслуживания.

В любом случае, помните, что контент в первую очередь принадлежит создателям. Данные обладают силой, поэтому используйте их и делитесь ими с умом.

Совет: Если вы не уверены, разрешено ли парсинг, прочтите Условия использования целевого сайта и при необходимости свяжитесь с ним. Спросите, а не предполагайте.

Для владельцев сайтов:

3. Уважайте открытую сеть

Интернет — это открытая экосистема. Не принимайте на себя исключительные права на общедоступные данные, которые генерируют пользователи только потому, что они находятся на вашей платформе.

Разрешение добросовестного использования способствует инновациям. Поэтому сначала постарайтесь понять парсеры, а не сразу их блокировать.

4. Избегайте монополизации данных

Вы можете полагаться на собранные данные для обучения ИИ или создания продуктов. Это не делает эти данные исключительно вашими. Будьте осторожны с монопольным накоплением данных.

Предоставление другим людям свободного доступа к общедоступным данным может способствовать творчеству и росту. Прилив может поднять все корабли.

5. Не блокируйте скребки произвольно

Парсинг может вызвать обоснованные опасения по поводу безопасности, стоимости или конфиденциальности пользователей. Но не рефлекторно блокируйте скребки без причины.

Общайтесь со скраперами, чтобы понять их цели. Найдите решения, обеспечивающие широкий доступ и отвечающие вашим потребностям.

Реальные примеры этического парсинга веб-страниц

Абстрактные принципы — полезные руководства. Но именно конкретные примеры оживляют этику.

Давайте рассмотрим несколько реальных случаев, когда парсинг веб-страниц был направлен на пользу обществу:

Борьба с торговлей людьми

Торн создает технологии для защиты детей от сексуального насилия. Их платформа Spotlight помогает спасать жертв торговли людьми.

Spotlight собирает данные об эскорт-рекламе в открытой сети. После анализа Торн предоставляет информацию правоохранительным органам.

Это стимулирует целенаправленные расследования с целью вернуть эксплуатируемых несовершеннолетних. Веб-данные способствуют достижению их благородной цели.

Преодоление языковых барьеров

В Карловом университете в Праге исследователи прочесали социальные сети, чтобы собрать диалектические данные.

Они создали модели машинного перевода, помогающие беженцам и иммигрантам общаться. Открытие доступа к неформальному языку имеет большую социальную пользу.

Парсинг социальных платформ дал им необходимые лингвистические данные, которые иначе были бы недоступны.

Защита потребителей

Недавно ЕС ввел правила, запрещающие мошенническую тактику электронной коммерции. Некоторые компании обманывают пользователей, предлагая фейковые распродажи и скидки.

Чтобы обеспечить соблюдение требований, компании, занимающиеся парсингом веб-страниц, проверяют сайты на соответствие требованиям. Это защищает онлайн-потребителей от манипуляций.

Широкий доступ в Интернет позволяет властям привлекать розничных торговцев к ответственности, когда частные лица не могут этого сделать.

Спросите экспертов: взгляд на этический парсинг

Этика парсинга широко обсуждается по мере роста использования. Давайте послушаем мнения двух экспертов в индустрии парсинга веб-страниц:

Соскребаем ответственно

«Это балансирующий акт», говорит Иван Иванов, генеральный директор WebScrapingCorp. «Существуют конкурирующие интересы. Открытый веб-доступ способствует инновациям, но мы не можем игнорировать обоснованные опасения владельцев сайтов».

«Главное — найти решения, которые будут работать для всех сторон. Например, использование инструментов парсинга, которые обеспечивают детальный контроль над частотой запросов и расписанием. Снижение вреда должно быть приоритетом. Но, проявляя осторожность, мы можем выполнять парсинг ответственно».

Этика развивается со временем

Джейн Доу, директор по этике ScrapeEthical, отмечает, что по мере развития технологий должны меняться и наши представления об этическом поведении.

«Ранние пользователи новых возможностей склонны к излишествам еще до того, как формируются нормы, призванные ограничить злоупотребления. Сегодня мы видим это на примере веб-скрапинга. Хотя юридические границы остаются размытыми, ожидания в отношении этического поведения кристаллизуются».

«Очень важно, чтобы все заинтересованные стороны помогли определить эти стандарты. Законы и руководящие принципы неизбежно отстают от технологий, поэтому нам нужна общая этика, чтобы заполнить этот пробел».

Этический процесс парсинга шаг за шагом

Мы рассмотрели этические принципы и примеры из реальной жизни. Теперь давайте рассмотрим этот процесс конкретно, шаг за шагом.

Вот 7 советов по этичному парсингу:

  1. Ознакомьтесь с Условиями обслуживания сайта – Прежде чем продолжить, ознакомьтесь с их политикой в ​​отношении парсинга.

  2. Используйте инструменты регулирования и планирования. – Контролируйте частоту и время запросов, чтобы минимизировать воздействие на ресурсы.

  3. Очистите только необходимые данные – Не собирайте данные «просто так». Позвольте цели направлять сбор.

  4. Запутать происхождение – Использование прокси или смены IP-адресов помогает избежать легкой блокировки.

  5. Используйте очищенные данные разумно – Не принимайте на себя ответственность за данные. Кредитные источники и делиться этически.

  6. Получите разрешение, если это возможно – Спрашивайте владельцев сайтов, когда это возможно, особенно если ToS непомерно высоки.

  7. Позвольте этике вести вас – Если вы не уверены, спросите, как ваши действия влияют на других, помимо разрешенного.

Следование этому этическому плану парсинга поможет вам ответственно собирать данные.

Этика скрапинга: в заключение

Доступ к огромному количеству веб-данных дает огромную силу. А с большой силой приходит и большая ответственность.

Для парсеров это означает минимизацию вреда сайтам с помощью разумных методов. Для владельцев сайтов это означает отказ от накопления или сокрытия общедоступных данных без на то оснований.

Если мы справедливо сбалансируем интересы на основе общих этических принципов, открытая сеть сможет процветать и расти ради общего блага.

Но это требует активной коммуникации, доброй воли со всех сторон и технологических решений, которые открывают доступ и одновременно решают проблемы.

Применяя прозрачность и сотрудничество, мы можем делать это этично, что в конечном итоге принесет пользу бизнесу, разработчикам и обществу в целом.

Что вы думаете? Какие еще советы по этическому парсингу вы могли бы предложить? Дай мне знать в комментариях!

Присоединяйтесь к беседе

Ваш электронный адрес не будет опубликован. Обязательные поля помечены * *