Проверка легальности

Громкое дело hiQ Labs Inc против LinkedIn Corporation (происшедшее в США) пролило свет на широко обсуждаемые юридические вопросы, связанные со сбором данных.

Мы знаем, что вы не хотите потеряться в юридическом языке. 

Итак, мы подготовили легко читаемое изложение наиболее важных пунктов этого решения. Суд встал на сторону парсера и установил, что сбор общедоступных данных не является нарушением CFAA (Закона о компьютерном мошенничестве и злоупотреблениях).

Давайте разберемся в специфике этого дела, а также в том, какие далеко идущие последствия оно оставило.

Законен ли парсинг веб-страниц? 

Что сказал парсер, когда его спросили о его юридической стратегии? «Я умоляю 404-й».

Если вы новичок в сборе данных, вы, вероятно, обеспокоены законностью своих действий.

Хорошая новость в том, что вы не одиноки. Каждый скребок (я думаю?) задавался тем же вопросом. 

Плохая новость в том, что ответ не так прост. Как и свидания, это отказывается быть простым.

Парсинг веб-страниц попадает в серую зону и может оказаться неоднозначной практикой.

Конечно, компании хотят сохранить свои данные, но, с другой стороны, если они общедоступны, почему неправильно их собирать? 

Какова же позиция закона по этому столь спорному вопросу? Давайте углубимся в самый громкий случай противостояния hiQ Labs и LinkedIn, чтобы посмотреть, сможем ли мы получить ответы.

Вердикт: парсинг данных не является противозаконным

В 2022 году Девятый окружной апелляционный суд наконец принял решение и встал на сторону hiQ Labs. Суд постановил, что сбор общедоступных данных не является нарушением CFAA, даже если это противоречит условиям использования веб-сайта.

LinkedIn пытался помешать ботам hiQ собирать данные из общедоступных профилей пользователей. Но Девятый округ ясно дал понять: предоставление компании полной монополии на данные, которыми она не владеет (поскольку они лицензируются), нанесет ущерб общественным интересам.

Ограниченная сфера применения CFAA

Проще говоря, Девятый округ установил, что компании не имеют свободы действий в отношении того, кто может собирать и использовать общедоступные данные. 

Не следует интерпретировать CFAA столь широко, поскольку это сделает преступником практически любого. 

Согласно постановлению, CFAA криминализирует только несанкционированный доступ к частной, защищенной информации. 

Подводя итог: веб-сайты больше не могут использовать CFAA для предотвращения несанкционированного сбора данных. И они не могут использовать законные инструменты против скребков.  

Публичные и частные данные: изучение вопросов законности

Юридические проблемы сбора данных теперь смещаются в сторону различия между государственными и частными данными. 

Итак, для вашего удобства я подготовил короткую шпаргалку, которой вам следует следовать, когда вы планируете парсить данные:

  • Доступны ли данные в свободном доступе? Вероятно, вы в безопасности.
  • Доступны ли данные только владельцам? Это может привести к неприятностям

Легко, правда?

Но есть и другие факторы, которые мы должны учитывать…

Даже если собранные данные общедоступны, вам все равно придется принимать во внимание контракты, авторские права и законы, такие как GDPR, если вы находитесь в ЕС.

Существуют также этические соображения, выходящие за рамки просто законности, такие как уважение инструкций robots.txt и избежание перегрузки серверов, и это лишь некоторые из них. Тот факт, что что-то «законно», не делает это сразу правильным. 

Зеленый свет для веб-скраперов?

Хотя на первый взгляд вы можете подумать, что решение в пользу hiQ — это победа для парсеров, это не означает, что у вас есть открытый билет на парсинг.

Этот случай сужает интерпретацию CFAA и подтверждает право на сбор общедоступных данных. Но есть и другие юридические проблемы, связанные со сбором данных, которых нам следует избегать.

Например, если для очистки данных вы создаете учетную запись пользователя, у вас могут возникнуть проблемы, поскольку вы согласились с условиями обслуживания. Даже если CFAA не применяется, контракт может быть нарушен. Какой контракт, спросите вы? Что ж, когда вы создаете учетную запись пользователя на веб-сайте, вам обычно необходимо согласиться с их условиями обслуживания. 

Наконец, LinkedIn получила постоянный запрет, что на английском языке означает, что компания получила право воздерживаться от парсинга в рамках достигнутого ими соглашения. Так что это была своего рода победа и для LinkedIn. 

ПС: Имейте в виду, что сбор данных, защищенных авторским правом, таких как статьи, видео и изображения, может нарушать права интеллектуальной собственности, независимо от того, являются ли данные общедоступными.

Юридические последствия парсинга веб-страниц: итоги

«Парсить или не парсить — вот в чем вопрос», как сказал бы Гамлет, — если бы он родился в 1998 году. Если отбросить шутки, такие случаи, как hiQ против LinkedIn, помогают нам получить некоторые рекомендации относительно законности парсинга веб-страниц.

Крайне маловероятно, что сбор общедоступных данных приведет к нарушению CFAA. 

Однако некоторые действия могут привести к юридическим последствиям, например, игнорирование приказов о прекращении противоправных действий, нарушение пользовательских соглашений и даже создание фейковых аккаунтов.

Шестилетний судебный процесс LinkedIn против hiQ, возможно, уже завершен, но война со сбором данных все еще продолжается. Компании будут пытаться защитить свои данные, и мы все знаем, насколько сильны лоббисты в США.

Однако в ЕС лоббирование, возможно, не является такой большой проблемой. Вместо этого, по какой-то причине, они сделали все возможное для конфиденциальности, и я почти уверен, что законы GDPR могут что-то сказать об использовании веб-скрапинга.

Несмотря на эти проблемы, мы все знаем, что скребки будут царапать.

Отказ от ответственности:
А) Не юридическая консультация. Этот пост написан в образовательных и развлекательных целях.
Б) Хотя дело hiQ против LinkedIn создало прецедент, оно не дает неограниченной свободы.
В) Законы о защите данных, такие как GDPR в ЕС, будут иметь приоритет над американскими делами.
Г) Законы в вашей стране могут совершенно отличаться от упомянутых в этом тексте.
Д) Я не юрист, понятия не имею, что делаю.



Использованная литература:

Лопес де Летона, Хавьер Торре де Силва и. «Право на сбор данных в Интернете: от дела hiQLabs, Inc. против LinkedIn Corp. в США до дел по сбору данных ChatGPT: различия между законодательством США и ЕС». Глобальный обзор закона о конфиденциальности (2024 г.) https://doi.org/10.54648/gplr2024001

Собель, Бенджамин. «HiQ против LinkedIn, Clearview AI и новый общий закон парсинга веб-страниц». (2020). https://dx.doi.org/10.2139/ssrn.3581844

Александр Шмидт

Александр Шмидт — инженер-программист, который верит в то, что нужно работать умнее, а не усерднее. Обладая 12-летним опытом работы в области автоматизации и извлечения веб-данных для анализа и исследований, он дает предприятиям практические советы и ценную информацию, представленную в увлекательной и простой для чтения форме, чтобы помочь другим максимизировать ценность и производительность своих прокси-решений. Когда он не настраивает свои настройки и не консультирует малый и средний бизнес, вы можете обнаружить, что Александр интересуется последними техническими новостями и достижениями в области искусственного интеллекта.

Выбрать и купить прокси

Выберите тип, местоположение и количество, чтобы мгновенно просмотреть цены.

Выбрать и купить прокси