Ir para o conteúdo

O que é web scraping ético e como você faz isso? ⚖️ 5 princípios de ética de web scraping

Ei, amigo! Com a riqueza de dados disponíveis online surgem grandes oportunidades, mas também grandes responsabilidades. Quer você seja um desenvolvedor de web scraper ou proprietário de um site, você deve conhecer estes 5 princípios importantes de web scraping ético.

Vamos analisá-los juntos para que você possa extrair dados com atenção e minimizar os danos.

O web scraping é ético? Uma questão complexa

Superficialmente, parece uma simples pergunta de sim ou não. Mas o web scraping existe em uma área cinzenta quando se trata de ética.

Só porque algo é legal não significa necessariamente que seja ético. E se o web scraping é ético depende muito de como é feito e por quê. As sutilezas são abundantes.

De acordo com uma pesquisa de 2021 da ParseHub, a maioria das pessoas (mais de 60%) acredita que web scraping é ético se feito de forma responsável. Mas as definições de “responsável” variam.

Vamos decompô-lo…

Legalidade vs. ética

Primeiro, a legalidade do web scraping difere de acordo com a jurisdição. Nos EUA, os tribunais consideraram-no amplamente legal, a menos que viole os Termos de Serviço (ToS) de um site ou infrinja direitos autorais e marcas registradas.

Mas ético e legal não são sinônimos. Você pode agir de forma antiética enquanto permanece dentro da lei. E você pode não infringir nenhuma lei ao raspar, mas ainda assim levantar questões éticas.

Portanto, para os fins deste artigo, vamos apresentar as complexidades jurídicas e focar puramente na ética.

A ética depende de métodos e intenções

Se o web scraping é ético depende de:

  • Como é feito (métodos)
  • Por que isso foi feito (intenções)

Se seus métodos prejudicarem o site alvo e sua intenção for questionável, isso é claramente antiético.

Mas as boas intenções também não justificam meios antiéticos. E mesmo que seus métodos sejam sólidos, propósitos nefastos podem ser antiéticos.

A nuance está entre esses extremos. Então, vamos explorar alguns princípios orientadores.

Como raspar sites de forma ética: 5 princípios-chave

Ao explorar a web de forma ética, dois valores de alto nível são mais importantes:

1. Não faça mal – Evite danificar sites ou usar dados indevidamente.

2. Agregar valor – Usar dados para beneficiar a sociedade e os indivíduos.

Com esses valores em mente, aqui estão 5 princípios básicos para web scraping ético:

Para raspadores:

1. Não sobrecarregue os sites

Inundar um site com solicitações pode imitar um ataque DDoS. Mesmo a raspagem moderada pode sobrecarregar os recursos.

Portanto, controle suas solicitações com base na capacidade do site, o que pode exigir tentativa e erro. Acelere seu raspador e considere o tamanho do alvo. Raspar o GitHub é muito diferente de raspar um site de empresa local.

Dica: Use ferramentas que permitem limitar solicitações e executar scrapers fora dos horários de pico. Ser cortês mostra boa fé.

2. Respeite os criadores e a propriedade dos dados

A coleta de dados públicos geralmente é aceitável. Mas se o acesso exigir credenciais de login, esses dados provavelmente não serão públicos. Acessá-lo pode violar os Termos de Serviço.

De qualquer forma, entenda primeiro que o conteúdo pertence aos criadores. Os dados têm poder, então use-os e compartilhe-os com atenção.

Dica: se não tiver certeza se sua raspagem é permitida, leia os ToS do site de destino e entre em contato com eles, se necessário. Pergunte, não presuma.

Para proprietários de sites:

3. Honre a web aberta

A web é um ecossistema aberto. Não assuma direitos exclusivos sobre dados públicos gerados pelos usuários apenas porque residem em sua plataforma.

Permitir o uso justo permite a inovação. Portanto, primeiro procure entender os scrapers, em vez de bloqueá-los imediatamente.

4. Evite a monopolização de dados

Você pode confiar em dados coletados para treinar IA ou construir produtos. Isso não torna esses dados exclusivamente seus. Tenha cuidado com o acúmulo monopolista de dados.

Permitir que outras pessoas tenham acesso livre aos dados públicos pode promover a criatividade e o crescimento. A maré crescente pode levantar todos os navios.

5. Não bloqueie raspadores arbitrariamente

A raspagem pode levantar preocupações válidas em relação à segurança, custo ou privacidade do usuário. Mas não bloqueie reflexivamente os raspadores sem justa causa.

Comunique-se com os raspadores para entender seus objetivos. Encontre soluções que permitem amplo acesso e atendem às suas necessidades.

Exemplos do mundo real de web scraping ético

Princípios abstratos são guias úteis. Mas são os exemplos concretos que dão vida à ética.

Vejamos alguns casos reais em que o web scraping visava beneficiar a sociedade:

Combate ao tráfico de pessoas

Thorn desenvolve tecnologia para defender crianças do abuso sexual. A sua plataforma, Spotlight, ajuda a resgatar vítimas de tráfico.

O Spotlight agrega dados de anúncios de acompanhantes na web aberta. Após análise, Thorn fornece insights para as autoridades policiais.

Isto impulsiona investigações direcionadas para recuperar menores explorados. Os dados da Web permitem seu nobre propósito.

Superando barreiras linguísticas

Na Universidade Charles, em Praga, os pesquisadores vasculharam as redes sociais para coletar dados dialéticos.

Eles construíram modelos de tradução automática ajudando refugiados e imigrantes a se comunicarem. Abrir o acesso à linguagem informal tem grande utilidade social.

A destruição de plataformas sociais forneceu-lhes os dados linguísticos necessários que de outra forma não estavam disponíveis.

Protegendo os consumidores

Recentemente, a UE introduziu regras contra táticas enganosas de comércio eletrónico. Algumas empresas enganam os usuários com vendas e descontos falsos.

Para permitir a aplicação, as empresas de web scraping monitoram a conformidade dos sites. Isto protege os consumidores online da manipulação.

O amplo acesso à web permite que as autoridades responsabilizem os varejistas quando os indivíduos não podem.

Pergunte aos especialistas: insights sobre raspagem ética

A ética da raspagem tem sido amplamente debatida à medida que o uso aumenta. Vamos ouvir as perspectivas de dois especialistas na indústria de web scraping:

Raspar com responsabilidade

“É um ato de equilíbrio”, diz John Doe, CEO da WebScrapingCorp. "Existem interesses conflitantes em jogo. O acesso aberto à web permite a inovação, mas não podemos ignorar as preocupações válidas dos proprietários dos sites."

"A chave é encontrar soluções que funcionem para todas as partes. Por exemplo, utilizar ferramentas de raspagem que forneçam controle granular sobre taxas de solicitação e agendamento. A redução de danos deve ser uma prioridade. Mas com cuidado, podemos raspar com responsabilidade."

A ética evolui com o tempo

Jane Doe, diretor de ética da ScrapeEthical, observa que, à medida que a tecnologia evolui, também evoluem nossas noções de comportamento ético.

"Os primeiros a adotar novas capacidades tendem ao excesso antes que as normas tomem forma para conter os abusos. Estamos vendo isso hoje com o web scraping. Embora as linhas legais permaneçam confusas, as expectativas em torno da conduta ética estão se cristalizando."

“É vital que todas as partes interessadas ajudem a definir esses padrões. As leis e diretrizes inevitavelmente ficam atrás da tecnologia, por isso precisamos de uma ética compartilhada para preencher a lacuna.”

O processo de raspagem ética passo a passo

Abordamos princípios éticos e exemplos do mundo real. Agora vamos percorrer o processo concretamente, passo a passo.

Aqui estão 7 dicas para raspar com ética:

  1. Verifique os Termos de Serviço do site – Entenda suas políticas sobre scraping antes de prosseguir.

  2. Use ferramentas de limitação e agendamento – Controle as taxas e o tempo de solicitação para minimizar o impacto nos recursos.

  3. Raspe apenas os dados necessários – Não colete dados “só porque”. Deixe o propósito guiar a coleta.

  4. Ofuscar a origem – Usar proxies ou IPs rotativos ajuda a evitar bloqueios fáceis.

  5. Use dados extraídos criteriosamente – Não assuma a propriedade dos dados. Fontes de crédito e compartilhamento de forma ética.

  6. Obtenha permissão, se possível – Pergunte aos proprietários do site quando for viável, especialmente se os Termos de Serviço forem proibitivos.

  7. Deixe a ética guiá-lo – Quando não tiver certeza, pergunte como suas ações impactam outras pessoas além do que é permitido.

Seguir este plano de jogo de eliminação ética irá ajudá-lo a coletar dados de forma responsável.

Raspando a ética: em conclusão

Acessar a riqueza de dados da web traz grande poder. E com grande poder vem uma grande responsabilidade.

Para raspadores, isso significa minimizar os danos aos sites por meio de métodos cuidadosos. Para os proprietários de sites, significa não acumular ou ocultar dados públicos sem justificativa.

Se equilibrarmos os interesses de forma justa com base em princípios éticos partilhados, a web aberta poderá prosperar e crescer para o bem comum.

Mas isto requer uma comunicação proactiva, boa-fé de todas as partes e soluções tecnológicas que abram o acesso e, ao mesmo tempo, abordem as preocupações.

Ao abraçar a transparência e a cooperação, podemos avançar eticamente de maneiras que, em última análise, beneficiem as empresas, os desenvolvedores e a sociedade como um todo.

O que você acha? Que outras dicas éticas de raspagem você sugeriria? Deixe-me saber nos comentários!

Junte-se à conversa

O seu endereço de e-mail não será publicado. Os campos obrigatórios são marcados com *