Questões legais de coleta de dados: explorando o caso hiQ vs LinkedIn

O caso de destaque entre hiQ Labs Inc e LinkedIn Corporation (que ocorreu nos EUA) lançou luz sobre as muito discutidas questões jurídicas de coleta de dados.

Sabemos que você não quer se perder no idioma jurídico.

Por isso, preparamos um resumo de fácil leitura dos pontos mais importantes desta decisão. O tribunal ficou do lado do scraper e estabeleceu que o scraping de dados públicos não é uma violação da CFAA (Lei de Fraude e Abuso de Computadores).

Vejamos as especificidades do caso e também as consequências de longo alcance que ele deixou.

A raspagem da Web é legal?

O que o web scraper disse quando questionado sobre sua estratégia jurídica? “Eu imploro o 404º.”

Se você é novo na coleta de dados, provavelmente está preocupado com a legalidade de suas ações.

A boa notícia é que você não está sozinho. Todo raspador (eu acho?) já se perguntou a mesma coisa.

A má notícia é que a resposta não é tão simples. Assim como o namoro, simplesmente se recusa a ser simples.

A raspagem da Web cai em uma área cinzenta e pode ser uma prática ambígua.

É claro que as empresas querem preservar os seus dados, mas, por outro lado, se estão disponíveis publicamente, por que é errado recolhê-los?

Agora, qual é a posição da lei sobre esse assunto tão debatido? Vamos mergulhar no caso de maior destaque do hiQ Labs vs LinkedIn para ver se podemos obter algumas respostas.

O veredicto: a extração de dados não é ilegal

Em 2022, o Tribunal de Apelações do Nono Circuito finalmente tomou sua decisão e ficou do lado do hiQ Labs. O tribunal considerou que a recolha de dados disponíveis publicamente não constitui uma violação da CFAA, mesmo que seja contra os termos de utilização do site.

O LinkedIn estava tentando impedir que os bots do hiQ extraíssem dados dos perfis públicos de seus usuários. Mas o Nono Circuito foi claro: dar a uma empresa o monopólio completo dos dados que ela não possui (já que são licenciados) seria prejudicial ao interesse público.

Um escopo limitado para o CFAA

Em palavras muito mais simples, o Nono Circuito estabeleceu que as empresas não têm liberdade sobre quem pode recolher e utilizar dados públicos.

Não se deve interpretar a CFAA de forma tão ampla, pois isso tornaria quase qualquer pessoa num criminoso.

Segundo a decisão, a CFAA apenas criminaliza o acesso não autorizado a informações privadas e protegidas.

Resumindo: os sites não podem mais usar o CFAA para impedir a coleta não autorizada de dados. E não podem empregar ferramentas legais contra scrapers.

Os dados públicos versus dados privados: examinando questões de legalidade

As preocupações legais com a recolha de dados mudam agora para a distinção entre dados público-privados.

Portanto, para sua conveniência, preparei uma pequena folha de dicas que você deve seguir quando estiver planejando extrair dados:

Os dados estão disponíveis gratuitamente? Você provavelmente está seguro.
Os dados estão disponíveis apenas para os proprietários? Isso pode causar problemas

Fácil, certo?

Mas existem alguns outros fatores que devemos considerar…

Mesmo que os dados extraídos estejam disponíveis publicamente, você ainda deve levar em consideração contratos, direitos autorais e leis, como o GDPR, se estiver na UE.

Existem também considerações éticas além da legalidade, como respeitar as instruções do robots.txt e evitar sobrecarregar os servidores, para citar alguns. Só porque algo é “legal” não significa que seja imediatamente certo.

Luz verde para raspadores de web?

Embora a princípio você possa pensar que a decisão que favorece o hiQ é uma vitória para os web scrapers, isso não significa que você tenha um ingresso aberto para o scraping.

Este caso restringe a interpretação da CFAA e afirma o direito de recolher dados públicos. Porém, existem outras questões legais de coleta de dados que devemos evitar.

Por exemplo, se você criar uma conta de usuário para extrair dados, poderá ter problemas, pois concordou com os termos de serviço. Mesmo que o CFAA não se aplique, pode-se violar o contrato. Que contrato, você pergunta? Bem, quando você cria uma conta de usuário em um site, normalmente você precisa concordar com os termos de serviço.

Por último, o LinkedIn obteve uma liminar permanente, o que em inglês significa que fez com que a hiQ desistisse da eliminação como parte do acordo que chegaram. Então, também foi uma vitória para o LinkedIn.

PS: Tenha em mente que a extração de dados protegidos por direitos autorais, como artigos, vídeos e imagens, pode infringir os direitos de propriedade intelectual, independentemente de os dados serem acessíveis publicamente.

Implicações legais do web scraping: o resultado final

“Raspar ou não raspar – essa é a questão”, como diria Hamlet – se ele nasceu em 1998. Brincadeiras à parte, casos como hiQ vs LinkedIn nos ajudam a obter alguma orientação sobre a legalidade do web scraping.

É altamente improvável que a coleta de dados públicos faça com que você viole o CFAA.

No entanto, algumas práticas podem levar a repercussões legais, como desrespeito a ordens de cessação e desistência, violação de acordos de usuário e até mesmo criação de contas falsas.

O processo entre LinkedIn e hiQ, que já dura seis anos, pode ter acabado, mas a guerra contra a coleta de dados ainda continua. As empresas tentarão proteger os seus dados e todos sabemos o quão poderosos são os lobistas nos EUA.

Na UE, contudo, o lobby pode não ser um problema tão grande. Em vez disso, por qualquer motivo, eles apostaram tudo na privacidade, e tenho certeza de que as leis do GDPR podem ter algo a dizer sobre o uso de web scraping.

Apesar desses desafios, todos nós sabemos que os scrapers vão falhar.

Isenção de responsabilidade:
A) Não é aconselhamento jurídico. Este post foi escrito para fins educacionais e de entretenimento.
B) Embora o caso hiQ vs LinkedIn estabeleça um precedente, ele não dá liberdade irrestrita.
C) As leis de proteção de dados como o GDPR na UE terão prioridade sobre um caso americano.
D) As leis do seu país podem ser totalmente diferentes das mencionadas neste texto.
E) Não sou advogado, não tenho ideia do que estou fazendo.

Referências:

López de Letona, Javier Torre de Silva e. “O direito de raspar dados na Internet: do caso dos EUA hiQLabs, Inc. aos casos de raspagem ChatGPT: diferenças entre as leis dos EUA e da UE.” Revisão da Lei Global de Privacidade (2024) https://doi.org/10.54648/gplr2024001

Sobel, Benjamim. “HiQ v. LinkedIn, Clearview AI e uma nova lei comum de web scraping.” (2020). https://dx.doi.org/10.2139/ssrn.3581844

Alexandre Schmidt

Alexander Schmidt é um engenheiro de software que acredita em trabalhar de maneira mais inteligente e não mais difícil. Com 12 anos de experiência lidando com automação e extração de dados da web para análise e pesquisa, ele capacita as empresas com dicas práticas e insights valiosos, entregues de maneira divertida e fácil de ler, para ajudar outras pessoas a maximizar o valor e o desempenho de suas soluções de proxy. Quando ele não está ajustando sua configuração ou prestando consultoria para pequenas e médias empresas, você pode encontrar Alexander curioso sobre as últimas notícias de tecnologia e avanços de IA.