やあ、友達!オンラインで入手できる豊富なデータには、大きな機会が伴いますが、同時に大きな責任も伴います。あなたが Web スクレイパー開発者であっても、Web サイト所有者であっても、倫理的な Web スクレイピングに関する次の 5 つの重要な原則を知っておく必要があります。
慎重にデータをスクレイピングし、被害を最小限に抑えることができるように、これらを一緒に見ていきましょう。
Webスクレイピングは倫理的ですか?複雑な質問
表面的には、これは単純な「はい」か「いいえ」の質問のように見えます。しかし、ウェブスクレイピングは倫理に関してはグレーゾーンに存在します。
合法だからといって、必ずしもそれが倫理的であるとは限りません。そして、Web スクレイピングが倫理的であるかどうかは、それがどのように行われるか、またその理由によって大きく異なります。微妙なところがたくさんあります。
ParseHub による 2021 年の調査によると、ほとんどの人 (60% 以上) が、責任を持って行われた場合、Web スクレイピングは倫理的であると信じています。しかし、「責任者」の定義はさまざまです。
分解してみましょう…
合法性と倫理性
まず、Web スクレイピングの合法性は管轄区域によって異なります。米国では、裁判所は、サイトの利用規約 (ToS) に違反するか、著作権や商標を侵害しない限り、その行為はほぼ合法であるとみなしています。
しかし、倫理と法は同義ではありません。法律を遵守しながらも非倫理的な行為をすることができます。スクレイピングによって法律に違反することはありませんが、倫理的な懸念は依然として生じます。
したがって、この記事では、法的な複雑さを表にして、純粋に倫理に焦点を当てましょう。
倫理は方法と意図によって決まる
Web スクレイピングが倫理的であるかどうかは、次の要素によって決まります。
- どのように行うか(方法)
- なぜそうするのか(意図)
あなたの方法がターゲットサイトに損害を与え、あなたの意図が疑わしい場合、それは明らかに非倫理的です。
しかし、善意だからといって非倫理的な手段が正当化されるわけでもありません。また、たとえあなたの手法が健全であっても、悪意のある目的は非倫理的である可能性があります。
ニュアンスはこれらの両極端の間にあります。それでは、いくつかの指針を探ってみましょう。
Web サイトを倫理的にスクレイピングする方法: 5 つの重要な原則
Web を倫理的にスクレイピングする場合、次の 2 つの高レベルの値が最も重要です。
1.害を及ぼさない – Web サイトに損害を与えたり、データを悪用したりしないようにします。
2.付加価値 – 社会と個人に利益をもたらすためにデータを活用します。
これらの価値観を念頭に置いて、倫理的な Web スクレイピングの 5 つの基本原則を以下に示します。
スクレーパーの場合:
1. ウェブサイトに過度の負担をかけない
サイトにリクエストを大量に送信すると、DDoS 攻撃を模倣する可能性があります。適度なスクレイピングでもリソースに負担をかける可能性があります。
したがって、サイトの容量に基づいてリクエストのペースを調整し、試行錯誤が必要になる場合があります。スクレーパーのスロットルを絞って、ターゲットのサイズを考慮してください。 GitHub のスクレイピングは、ローカル ビジネス Web サイトのスクレイピングとは大きく異なります。
ヒント: リクエストのスロットルとオフピーク時間中のスクレイパーの実行を可能にするツールを使用します。礼儀正しくすることは誠実さを示します。
2. データの作成者と所有権を尊重する
公開データのスクレイピングは通常は問題ありません。ただし、アクセスにログイン資格情報が必要な場合、そのデータは公開されていない可能性があります。アクセスすると利用規約に違反する可能性があります。
いずれにしても、コンテンツはクリエイターのものであることをまず理解してください。データには力があるので、慎重に使用し、共有してください。
ヒント: スクレイピングが許可されているかどうか不明な場合は、対象サイトの ToS を読み、必要に応じて問い合わせてください。仮定しないで質問してください。
サイト所有者向け:
3. オープンなウェブを尊重する
ウェブはオープンなエコシステムです。ユーザーが生成するパブリック データがプラットフォーム上に存在するという理由だけで、そのデータに対する排他的権利を想定しないでください。
フェアユースを許可することでイノベーションが可能になります。したがって、すぐにスクレイパーをブロックするのではなく、まずスクレイパーを理解するように努めてください。
4. データの独占を避ける
AI をトレーニングしたり、製品を構築したりするために、スクレイピングされたデータに依存する場合があります。だからといって、このデータが自分だけのものになるわけではありません。独占的なデータの蓄積に注意してください。
他の人が公開データに自由にアクセスできるようにすることで、創造性と成長を促進できます。上げ潮はすべての船を持ち上げる可能性があります。
5. スクレーパーを勝手にブロックしないでください
スクレイピングは、セキュリティ、コスト、またはユーザーのプライバシーに関して正当な懸念を引き起こす可能性があります。ただし、理由もなく反射的にスクレイパーをブロックしないでください。
スクレイパーとコミュニケーションをとり、彼らの目的を理解してください。ニーズに対応しながら幅広いアクセスを可能にするソリューションを見つけてください。
倫理的な Web スクレイピングの実例
抽象的な原則は役立つガイドです。しかし、倫理を生き生きとさせるのは具体例です。
Web スクレイピングが社会に利益をもたらすことを目的とした実際のケースをいくつか見てみましょう。
人身売買との戦い
ソーンは子供たちを性的虐待から守るテクノロジーを構築しています。彼らのプラットフォームである Spotlight は、人身売買被害者の救出に貢献しています。
Spotlight は、オープン ウェブ上のエスコート広告からのデータを集約します。分析後、ソーンは法執行機関に洞察を提供します。
これにより、搾取された未成年者を回復するための対象を絞った調査が推進されます。 Web データはその崇高な目的を可能にします。
言語の壁を越える
プラハのカレル大学では、研究者たちがソーシャルメディアをスクレイピングして弁証法的なデータを収集した。
彼らは、難民と移民のコミュニケーションを支援する機械翻訳モデルを構築しました。インフォーマルな言語へのアクセスを開くことは、大きな社会的有用性をもたらします。
ソーシャル プラットフォームをスクレイピングすることで、他の方法では入手できない必要な言語データが得られました。
消費者の保護
最近、EU は欺瞞的な e コマース戦術に対する規則を導入しました。偽の販売や割引でユーザーを騙す企業もあります。
強制を可能にするために、Web スクレイピング会社はサイトのコンプライアンスを監視します。これにより、オンライン消費者が操作から保護されます。
広範な Web アクセスにより、個人が責任を負えない場合でも、当局は小売業者に責任を負わせることができます。
専門家に聞く: 倫理的なスクレイピングに関する洞察
スクレイピングの倫理は、使用量が増えるにつれて広く議論されてきました。 Web スクレイピング業界の 2 人の専門家からの見解を聞いてみましょう。
責任を持ってスクレイピング
「それはバランスを取る行為だ」と彼は言う ジョン・ドウ, WebScrapingCorp の CEO。 「競合する利害関係が存在します。オープン Web アクセスはイノベーションを可能にしますが、サイト所有者の正当な懸念を無視することはできません。」
「重要なのは、すべての関係者にとって有効なソリューションを見つけることです。たとえば、リクエスト率やスケジュールを細かく制御できるスクレイピング ツールを利用します。危害を軽減することが優先事項でなければなりません。しかし、慎重に行えば、責任を持ってスクレイピングを行うことができます。」
倫理は時間とともに進化する
ジェーン·ドウ、ScrapeEthical の最高倫理責任者は、テクノロジーが進化するにつれて、私たちの倫理的行動の概念も進化する必要があると述べています。
「新機能の早期導入者は、悪用を抑制するための規範が形成される前に過剰になる傾向があります。今日、Web スクレイピングでそれが見られます。法的な境界線は依然として曖昧ですが、倫理的行為に関する期待は具体化しています。」
「すべての利害関係者がこれらの基準の定義に協力することが重要です。法律やガイドラインは必然的にテクノロジーに後れを取るため、ギャップを埋めるために共通の倫理が必要です。」
倫理的なスクレイピングプロセスのステップバイステップ
倫理原則と実際の例について説明しました。それでは、具体的に手順を追って見ていきましょう。
倫理的にスクレイピングするための 7 つのヒントを次に示します。
サイトの利用規約を確認する – 続行する前に、スクレイピングに関するポリシーを理解してください。
スロットリングおよびスケジュールツールを使用する – リクエストのレートとタイミングを制御して、リソースへの影響を最小限に抑えます。
必要なデータのみをスクレイピング – 「理由だけ」でデータを収集しないでください。収集を目的にガイドしましょう。
起源を難読化する – プロキシまたはローテーション IP を使用すると、簡単なブロックを回避できます。
スクレイピングしたデータを慎重に使用する – データの所有権を想定しないでください。情報源を信用し、倫理的に共有します。
可能であれば許可を得てください – 可能な場合、特に ToS が禁止されている場合は、サイト所有者に問い合わせてください。
倫理に導いてもらいましょう – 確信が持てない場合は、許可されている範囲を超えて、自分の行動が他の人にどのような影響を与えるかを尋ねてください。
この倫理的なスクレイピング ゲーム プランに従うことで、責任を持ってデータを収集することができます。
スクレイピングの倫理: 結論として
豊富な Web データにアクセスすると、大きな力が得られます。そして、大きな力には大きな責任が伴います。
スクレーパーにとって、これは、注意深い方法によってサイトへの被害を最小限に抑えることを意味します。サイト所有者にとって、それは正当な理由なく公開データを溜め込んだり隠蔽したりしないことを意味します。
共有された倫理原則に基づいて利益のバランスを公平にとれば、オープンウェブは公共の利益のために繁栄し、成長することができます。
しかし、これには、積極的なコミュニケーション、あらゆる面での誠意、そして懸念に対処しながらアクセスをオープンにする技術的ソリューションが必要です。
透明性と協力を採用することで、最終的に企業、開発者、社会全体に利益をもたらす方法で倫理的に努力することができます。
どう思いますか?他にどのような倫理的なスクレイピングのヒントを提案しますか?コメントで知らせてください!