Raspar la legalidad

El sonado caso de hiQ Labs Inc contra LinkedIn Corporation (que tuvo lugar en EE. UU.) arrojó luz sobre las cuestiones legales tan debatidas sobre el robo de datos.

Sabemos que no quiere perderse en la jerga legal. 

Por eso, hemos preparado un resumen fácil de leer de los puntos más importantes de esta decisión. El tribunal se puso del lado del raspador y estableció que el raspado de datos públicos no es una violación de la CFAA (Ley de Abuso y Fraude Informático).

Veamos los detalles del caso y también las consecuencias de gran alcance que dejó.

¿Es legal el web scraping? 

¿Qué dijo el web scraper cuando se le preguntó sobre su estrategia legal? "Abogo por el 404".

Si eres nuevo en la extracción de datos, probablemente te preocupe la legalidad de tus acciones.

La buena noticia es que no estás solo. Todo raspador (¿creo?) se ha preguntado lo mismo. 

La mala noticia es que la respuesta no es tan sencilla. Al igual que las citas, simplemente se niega a ser simple.

El web scraping cae en un área gris y puede ser una práctica ambigua.

Por supuesto, las empresas quieren preservar sus datos, pero, por otro lado, si están disponibles públicamente, ¿por qué está mal recopilarlos? 

Ahora bien, ¿cuál es la posición de la ley sobre este tema tan debatido? Profundicemos en el caso de más alto perfil de hiQ Labs vs LinkedIn para ver si podemos obtener algunas respuestas.

El veredicto: la extracción de datos no es ilegal

En 2022, el Tribunal de Apelaciones del Noveno Circuito finalmente tomó su decisión y se puso del lado de hiQ Labs. El tribunal sostuvo que la extracción de datos disponibles públicamente no constituye una violación de la CFAA, incluso si va en contra de los términos de uso del sitio web.

LinkedIn intentaba evitar que los robots de hiQ extrajeran datos de los perfiles públicos de sus usuarios. Pero el Noveno Circuito fue claro: otorgar a una empresa el monopolio completo de los datos que no posee (ya que tiene licencia) sería perjudicial para el interés público.

Un alcance limitado para la CFAA

En palabras mucho más simples, el Noveno Circuito estableció que las empresas no tienen rienda suelta sobre quién puede recopilar y utilizar datos públicos. 

No se debe interpretar la CFAA de manera tan amplia, ya que convertiría a casi cualquier persona en criminal. 

Según el fallo, la CFAA sólo penaliza el acceso no autorizado a información privada y protegida. 

En resumen: los sitios web ya no pueden utilizar la CFAA para impedir la recopilación de datos no autorizada. Y no pueden emplear herramientas legales contra los raspadores.  

Los datos públicos versus los datos privados: examinando las preocupaciones sobre la legalidad

Las preocupaciones legales sobre la extracción de datos ahora se desplazan hacia la distinción entre datos públicos y privados. 

Entonces, para su comodidad, preparé una breve hoja de referencia que debe seguir cuando planee extraer datos:

  • ¿Los datos están disponibles gratuitamente? Probablemente estés a salvo.
  • ¿Los datos solo están disponibles para los propietarios? Esto podría causar problemas

Fácil ¿verdad?

Pero hay algunos otros factores que debemos considerar...

Incluso si los datos extraídos están disponibles públicamente, aún debes tener en cuenta los contratos, los derechos de autor y las leyes, como el RGPD si estás en la UE.

También existen consideraciones éticas más allá de la mera legalidad, como respetar las instrucciones del archivo robots.txt y evitar sobrecargar los servidores, por nombrar algunas. El hecho de que algo sea “legal” no significa que sea instantáneamente correcto. 

¿Una luz verde para los web scrapers?

Aunque al principio usted puede pensar que el fallo que favorece a hiQ es una victoria para los web scrapers, eso no significa que tenga un boleto abierto para el scraping.

Este caso limita la interpretación de la CFAA y afirma el derecho a recopilar datos públicos. Pero hay otros problemas legales de extracción de datos que debemos evitar.

Por ejemplo, si para extraer datos crea una cuenta de usuario, puede tener problemas ya que ha aceptado los términos de servicio. Incluso si la CFAA no se aplica, se puede estar incumpliendo el contrato. ¿Qué contrato, preguntas? Bueno, cuando creas una cuenta de usuario en un sitio web, normalmente debes aceptar sus términos de servicio. 

Por último, LinkedIn obtuvo una orden judicial permanente, que en inglés significa que tiene que desistir del scraping como parte del acuerdo al que han llegado. Entonces, también fue una victoria para LinkedIn. 

PD: Tenga en cuenta que la extracción de datos protegidos por derechos de autor, como artículos, vídeos e imágenes, puede infringir los derechos de propiedad intelectual, independientemente de si los datos son de acceso público.

Implicaciones legales del web scraping: el resultado final

“Scrapear o no raspar: esa es la cuestión”, como diría Hamlet, si nació en 1998. Bromas aparte, casos como hiQ vs LinkedIn nos ayudan a obtener cierta orientación sobre las legalidades del web scraping.

Es muy improbable que la extracción de datos públicos provoque una violación de la CFAA. 

Sin embargo, algunas prácticas podrían acarrearle repercusiones legales, como ignorar las órdenes de cese y desistir, violar los acuerdos de usuario e incluso crear cuentas falsas.

La demanda de seis años entre LinkedIn y hiQ puede haber terminado, pero la guerra contra la extracción de datos aún continúa. Las empresas intentarán proteger sus datos y todos sabemos lo poderosos que son los lobistas en Estados Unidos.

En la UE, sin embargo, el lobby podría no ser un problema tan importante. En cambio, por alguna razón, han apostado por la privacidad y estoy bastante seguro de que las leyes GDPR podrían tener algo que decir sobre el uso del web scraping.

A pesar de estos desafíos, todos sabemos que los raspadores van a tener problemas.

Descargo de responsabilidad:
A) No asesoramiento jurídico. Esta publicación fue escrita con fines educativos y de entretenimiento.
B) Si bien el caso hiQ vs LinkedIn sentó un precedente, no brinda libertad ilimitada.
C) Las leyes de protección de datos como el GDPR en la UE tendrán prioridad sobre un caso estadounidense.
D) Las leyes de su país pueden ser completamente diferentes a las mencionadas en este texto.
E) No soy abogado, no tengo idea de lo que estoy haciendo.



Referencias:

López de Letona, Javier Torre de Silva y. "El derecho a extraer datos en Internet: del caso estadounidense hiQLabs, Inc. contra LinkedIn Corp. a los casos de extracción ChatGPT: diferencias entre las leyes de EE. UU. y la UE". Revisión de la ley de privacidad global (2024) https://doi.org/10.54648/gplr2024001

Sobel, Benjamín. "HiQ contra LinkedIn, Clearview AI y una nueva ley común de web scraping". (2020). https://dx.doi.org/10.2139/ssrn.3581844

Alejandro Schmidt

Alexander Schmidt es un ingeniero de software que cree en trabajar de forma más inteligente, no más intensa. Con 12 años de experiencia en automatización y extracción de datos web para análisis e investigación, brinda a las empresas consejos prácticos y conocimientos valiosos entregados de una manera divertida y fácil de leer para ayudar a otros a maximizar el valor y el rendimiento de sus soluciones proxy. Cuando no está modificando su configuración o brindando consultoría para PYMES, puedes encontrar a Alexander informándose sobre las últimas noticias tecnológicas y avances en inteligencia artificial.

Elija y compre proxy

Seleccione el tipo, la ubicación y la cantidad para ver los precios al instante.

Elija y compre proxy