Ir al contenido

¿Qué es el web scraping ético y cómo se hace? ⚖️ 5 principios de la ética del web scraping

¡Hola amigo! La gran cantidad de datos disponibles en línea conlleva una gran oportunidad, pero también una gran responsabilidad. Si usted es un desarrollador de web scraping o propietario de un sitio web, debe conocer estos cinco principios importantes del web scraping ético.

Repasémoslos juntos para que pueda extraer datos cuidadosamente y minimizar el daño.

¿Es ético el web scraping? Una pregunta compleja

A primera vista, esto parece una simple pregunta de sí o no. Pero el web scraping existe en una zona gris cuando se trata de ética.

El hecho de que algo sea legal no necesariamente lo convierte en ético. Y si el web scraping es ético depende en gran medida de cómo se hace y por qué. Abundan las sutilezas.

Según una encuesta de 2021 realizada por ParseHub, la mayoría de las personas (más del 60%) cree que el web scraping es ético si se realiza de forma responsable. Pero las definiciones de "responsable" varían.

Analicémoslo…

Legalidad versus ética

En primer lugar, la legalidad del web scraping difiere según la jurisdicción. En los EE. UU., los tribunales lo han considerado legal en gran medida a menos que viole los Términos de servicio (ToS) de un sitio o infrinja de otro modo los derechos de autor y las marcas comerciales.

Pero ético y legal no son sinónimos. Puede actuar de forma poco ética sin dejar de respetar la ley. Y es posible que no infrinjas ninguna ley al raspar y aun así plantear preocupaciones éticas.

Entonces, para los propósitos de este artículo, dejemos de lado las complejidades legales y centrémonos exclusivamente en la ética.

La ética depende de los métodos y la intención.

Que el web scraping sea ético depende de:

  • Cómo se hace (métodos)
  • Por qué se hace (intenciones)

Si sus métodos dañan el sitio objetivo y su intención es cuestionable, es claramente poco ético.

Pero las buenas intenciones tampoco justifican medios poco éticos. E incluso si sus métodos son sólidos, los propósitos nefastos podrían no ser éticos.

Los matices se encuentran entre estos extremos. Entonces, exploremos algunos principios rectores.

Cómo raspar sitios web de forma ética: 5 principios clave

Al navegar por la web de forma ética, dos valores de alto nivel son los más importantes:

1. No hagas daño – Evite dañar sitios web o hacer un mal uso de los datos.

2. Agregar valor – Utilizar los datos en beneficio de la sociedad y de los individuos.

Con esos valores en mente, aquí hay cinco principios básicos para el web scraping ético:

Para raspadores:

1. No sobrecargues los sitios web

Inundar un sitio con solicitudes puede imitar un ataque DDoS. Incluso un raspado moderado puede agotar los recursos.

Así que programe sus solicitudes según la capacidad del sitio, lo que puede requerir prueba y error. Acelere su raspador y considere el tamaño del objetivo. Scraping GitHub es muy diferente a scraping del sitio web de una empresa local.

Consejo: utilice herramientas que permitan limitar las solicitudes y ejecutar scrapers durante las horas de menor actividad. Ser cortés demuestra buena fe.

2. Respetar a los creadores y la propiedad de los datos

En general, está bien extraer datos públicos. Pero si el acceso requiere credenciales de inicio de sesión, es probable que esos datos no sean públicos. Acceder a él puede violar los Términos de servicio.

De cualquier manera, primero comprenda que el contenido pertenece a los creadores. Los datos tienen poder, así que utilícelos y compártalos cuidadosamente.

Consejo: si no está seguro de si su raspado está permitido, lea los Términos de servicio del sitio de destino y comuníquese con ellos si es necesario. Pregunta, no asumas.

Para propietarios de sitios:

3. Honrar la web abierta

La web es un ecosistema abierto. No asuma derechos exclusivos sobre los datos públicos que generan los usuarios solo porque residen en su plataforma.

Permitir el uso legítimo permite la innovación. Así que primero trate de comprender los raspadores en lugar de bloquearlos inmediatamente.

4. Evite la monopolización de datos

Puede confiar en datos extraídos para entrenar IA o crear productos. Eso no significa que estos datos sean exclusivamente suyos. Tenga cuidado con el acaparamiento monopolístico de datos.

Permitir que otros accedan libremente a datos públicos puede fomentar la creatividad y el crecimiento. La marea creciente puede levantar a todos los barcos.

5. No bloquees los raspadores arbitrariamente

El scraping puede generar preocupaciones válidas sobre la seguridad, el costo o la privacidad del usuario. Pero no bloquees los raspadores por reflejo y sin motivo alguno.

Comuníquese con los scrapers para comprender sus objetivos. Encuentre soluciones que permitan un amplio acceso y al mismo tiempo aborden sus necesidades.

Ejemplos del mundo real de web scraping ético

Los principios abstractos son guías útiles. Pero son los ejemplos concretos los que hacen que la ética cobre vida.

Veamos algunos casos reales en los que el web scraping tenía como objetivo beneficiar a la sociedad:

Luchando contra la trata de personas

Thorn crea tecnología para defender a los niños del abuso sexual. Su plataforma, Spotlight, ayuda a rescatar a las víctimas de la trata.

Spotlight agrega datos de anuncios de acompañantes en la web abierta. Después del análisis, Thorn proporciona información a las autoridades.

Esto impulsa investigaciones específicas para recuperar a los menores explotados. Los datos web permiten su noble propósito.

Superando las barreras del idioma

En la Universidad Carolina de Praga, los investigadores utilizaron las redes sociales para recopilar datos dialécticos.

Construyeron modelos de traducción automática que ayudaron a los refugiados e inmigrantes a comunicarse. Abrir el acceso al lenguaje informal tiene una gran utilidad social.

La búsqueda de plataformas sociales les proporcionó datos lingüísticos necesarios que de otro modo no estarían disponibles.

Protección de los consumidores

Recientemente, la UE introdujo normas contra las tácticas engañosas de comercio electrónico. Algunas empresas engañan a los usuarios con ofertas y descuentos falsos.

Para permitir la aplicación de la ley, las empresas de web scraping monitorean el cumplimiento de los sitios. Esto protege a los consumidores en línea de la manipulación.

El amplio acceso a Internet permite a las autoridades responsabilizar a los minoristas cuando los individuos no pueden hacerlo.

Pregúntele a los expertos: conocimientos sobre el scraping ético

La ética del scraping se ha debatido ampliamente a medida que crece su uso. Escuchemos las perspectivas de dos expertos en la industria del web scraping:

Raspado responsablemente

"Es un acto de equilibrio", dice Fulano de Tal, director ejecutivo de WebScrapingCorp. "Hay intereses en juego. El acceso abierto a la web permite la innovación, pero no podemos ignorar las preocupaciones válidas de los propietarios de sitios".

"La clave es encontrar soluciones que funcionen para todas las partes. Por ejemplo, utilizando herramientas de scraping que brinden un control granular sobre las tasas de solicitudes y la programación. La reducción de daños debe ser una prioridad. Pero con cuidado, podemos scraping de manera responsable".

La ética evoluciona con el tiempo.

Jane Doe, director de ética de ScrapeEthical, señala que a medida que la tecnología evoluciona, también deben hacerlo nuestras nociones de comportamiento ético.

"Los primeros en adoptar nuevas capacidades tienden al exceso antes de que las normas tomen forma para frenar los abusos. Lo estamos viendo hoy con el web scraping. Aunque las líneas legales siguen siendo borrosas, las expectativas en torno a la conducta ética están cristalizando".

"Es vital que todas las partes interesadas ayuden a definir estos estándares. Las leyes y directrices inevitablemente van por detrás de la tecnología, por lo que necesitamos una ética compartida para llenar el vacío".

El proceso de scraping ético paso a paso

Hemos cubierto principios éticos y ejemplos del mundo real. Ahora repasemos el proceso concretamente paso a paso.

Aquí hay 7 consejos para raspar de manera ética:

  1. Consulte los Términos de servicio del sitio – Comprenda sus políticas sobre scraping antes de continuar.

  2. Utilice herramientas de limitación y programación – Controlar las tasas de solicitud y los tiempos para minimizar el impacto en los recursos.

  3. Raspe sólo los datos necesarios – No recopile datos "sólo porque sí". Deje que el propósito guíe la colección.

  4. Ofuscar el origen – El uso de servidores proxy o IP rotativas ayuda a evitar un bloqueo fácil.

  5. Utilice los datos extraídos con prudencia – No asumas la propiedad de los datos. Fuentes de crédito y compartir de forma ética.

  6. Obtener permiso si es posible – Pregunte a los propietarios de sitios cuando sea factible, especialmente si los Términos de Servicio son prohibitivos.

  7. Deja que la ética te guíe – Cuando no esté seguro, pregunte cómo sus acciones impactan a los demás más allá de lo permitido.

Seguir este plan de juego de scraping ético le ayudará a recopilar datos de forma responsable.

Raspar la ética: en conclusión

Acceder a la gran cantidad de datos web aporta un gran poder. Y un gran poder conlleva una gran responsabilidad.

Para los scrapers, esto significa minimizar el daño a los sitios mediante métodos conscientes. Para los propietarios de sitios, significa no acaparar ni ocultar datos públicos sin justificación.

Si equilibramos los intereses de manera justa sobre la base de principios éticos compartidos, la web abierta puede prosperar y crecer para el bien común.

Pero esto requiere comunicación proactiva, buena fe de todas las partes y soluciones tecnológicas que abran el acceso y al mismo tiempo aborden las preocupaciones.

Al adoptar la transparencia y la cooperación, podemos luchar éticamente de maneras que, en última instancia, beneficien a las empresas, los desarrolladores y la sociedad en su conjunto.

¿Qué opinas? ¿Qué otros consejos de scraping ético sugerirías? ¡Házmelo saber en los comentarios!

Únase a la conversación

Su dirección de correo electrónico no será publicada. Las areas obligatorias están marcadas como requeridas *