Raschiare la legalità

Il caso di alto profilo di hiQ Labs Inc contro LinkedIn Corporation (avvenuto negli Stati Uniti) ha fatto luce sulle tanto discusse questioni legali di data scraping.

Sappiamo che non vuoi perderti nel legalese. 

Pertanto, abbiamo preparato un riassunto di facile lettura dei punti più importanti di questa decisione. Il tribunale si è schierato dalla parte dello scraper e ha stabilito che lo scraping dei dati pubblici non costituisce una violazione del CFAA (Computer Fraud and Abuse Act).

Diamo un'occhiata ai dettagli del caso e anche alle conseguenze di vasta portata che ha lasciato.

Il web scraping è legale? 

Cosa ha detto il web scraper quando gli è stato chiesto della sua strategia legale? "Io sostengo il 404esimo."

Se sei nuovo nello scraping dei dati, probabilmente sei preoccupato per la legalità delle tue azioni.

La buona notizia è che non sei solo. Ogni raschiatore (credo?) si è chiesto la stessa cosa. 

La cattiva notizia è che la risposta non è così semplice. Come gli appuntamenti, si rifiuta semplicemente di essere semplice.

Il web scraping rientra in una zona grigia e può essere una pratica ambigua.

Naturalmente le aziende vogliono preservare i propri dati, ma d'altra parte, se sono disponibili al pubblico, perché è sbagliato raccoglierli? 

Ora, qual è la posizione della legge su questa questione tanto dibattuta? Immergiamoci nel caso di più alto profilo di hiQ Labs vs LinkedIn per vedere se possiamo ottenere alcune risposte.

Il verdetto: lo scraping dei dati non è illegale

Nel 2022, la Corte d'Appello del Nono Circuito ha finalmente preso la sua decisione e si è schierata con hiQ Labs. La corte ha ritenuto che lo scraping dei dati disponibili al pubblico non costituisce una violazione della CFAA, anche se è contrario ai termini di utilizzo del sito web.

LinkedIn stava tentando di impedire ai bot di hiQ di estrarre dati dai profili pubblici dei suoi utenti. Ma il Nono Circuito è stato chiaro: dare a un'azienda il monopolio completo dei dati di cui non è proprietaria (poiché ha la licenza) sarebbe dannoso per l'interesse pubblico.

Un ambito limitato per la CFAA

In parole molto più semplici, il Nono Circuito ha stabilito che le aziende non hanno libertà di scelta su chi può raccogliere e utilizzare i dati pubblici. 

Non si deve interpretare la CFAA in modo così ampio, poiché renderebbe quasi chiunque un criminale. 

Secondo la sentenza, la CFAA criminalizza solo l’accesso non autorizzato a informazioni private e protette. 

In sintesi: i siti web non possono più utilizzare la CFAA per impedire la raccolta di dati non autorizzata. E non possono utilizzare strumenti legali contro i raschiatori.  

Dati pubblici e dati privati: esame delle preoccupazioni sulla legalità

Le preoccupazioni legali relative allo scraping dei dati si spostano ora verso la distinzione tra dati pubblici e privati. 

Quindi, per tua comodità, ho preparato un breve foglietto illustrativo che dovresti seguire quando intendi recuperare dati:

  • I dati sono liberamente disponibili? Probabilmente sei al sicuro.
  • I dati sono disponibili solo ai proprietari? Ciò potrebbe causare problemi

Facile vero?

Ma ci sono alcuni altri fattori che dobbiamo considerare…

Anche se i dati recuperati sono disponibili al pubblico, devi comunque tenere in considerazione i contratti, il diritto d'autore e le leggi, come il GDPR se ti trovi nell'UE.

Ci sono anche considerazioni etiche che vanno oltre la semplice legalità, come rispettare le istruzioni del file robots.txt ed evitare di sovraccaricare i server, solo per citarne alcuni. Solo perché qualcosa è “legale” non significa che sia immediatamente giusto. 

Un semaforo verde per i web scraper?

Anche se all'inizio potresti pensare che la sentenza a favore di hiQ sia una vittoria per i web scraper, ciò non significa che hai un biglietto aperto per lo scraping.

Questo caso restringe l'interpretazione della CFAA e afferma il diritto alla raccolta di dati pubblici. Ma ci sono altri problemi legali di raccolta dati che dobbiamo evitare.

Ad esempio, se crei un account utente per lo scraping dei dati, potresti trovarti nei guai poiché hai accettato i termini di servizio. Anche se la CFAA non si applica, si può incorrere in una violazione del contratto. Quale contratto, chiedi? Bene, quando crei un account utente su un sito web, in genere devi accettare i termini di servizio. 

Infine, LinkedIn ha ottenuto un'ingiunzione permanente, che in inglese significa che ha costretto hiQ a desistere dall'operazione di scraping come parte dell'accordo raggiunto. Quindi è stata una specie di vittoria anche per LinkedIn. 

PS: Tieni presente che lo scraping di dati protetti da copyright, come articoli, video e immagini, può violare i diritti di proprietà intellettuale, indipendentemente dal fatto che i dati siano accessibili al pubblico.

Implicazioni legali del web scraping: il risultato finale

“Raschiare, o non raschiare – questo è il problema” come direbbe Amleto – se fosse nato nel 1998. Scherzi a parte, casi come hiQ vs LinkedIn ci aiutano a ottenere alcune indicazioni sugli aspetti legali del web scraping.

È altamente improbabile che lo scraping di dati pubblici ti porti a violare la CFAA. 

Tuttavia, alcune pratiche potrebbero portare a ripercussioni legali, come ignorare gli ordini di cessazione e desistenza, violare gli accordi con gli utenti e persino creare account falsi.

La causa di sei anni tra LinkedIn e hiQ potrebbe essere finita, ma la guerra sullo scraping dei dati è ancora in corso. Le aziende cercheranno di proteggere i propri dati e sappiamo tutti quanto siano potenti i lobbisti negli Stati Uniti.

Nell’UE, tuttavia, il lobbismo potrebbe non essere un grosso problema. Invece, per qualche motivo, sono andati all-in sulla privacy, e sono abbastanza sicuro che le leggi GDPR potrebbero avere qualcosa da dire sull’uso del web scraping.

Nonostante queste sfide, sappiamo tutti che i raschiatori raschieranno.

Disclaimer:
A) Non consulenza legale. Questo post è stato scritto per scopi educativi e di intrattenimento.
B) Anche se il caso hiQ vs LinkedIn costituisce un precedente, non garantisce libertà illimitata.
C) Le leggi sulla protezione dei dati come il GDPR nell’UE avranno la priorità rispetto al caso americano.
D) Le leggi nel tuo paese potrebbero essere completamente diverse da quanto menzionato in questo testo.
E) Non sono un avvocato, non ho idea di cosa sto facendo.



Riferimenti:

López de Letona, Javier Torre de Silva y. "Il diritto di raschiare dati su Internet: dal caso statunitense hiQLabs, Inc. contro LinkedIn Corp. ai casi di raschiamento ChatGPT: differenze tra il diritto statunitense e quello dell'UE." Revisione globale della legge sulla privacy (2024) https://doi.org/10.54648/gplr2024001

Sobel, Beniamino. "HiQ contro LinkedIn, Clearview AI e una nuova legge comune sul web scraping." (2020). https://dx.doi.org/10.2139/ssrn.3581844

Alexander Schmidt

Alexander Schmidt è un ingegnere informatico che crede nel lavorare in modo più intelligente, non di più. Con 12 anni di esperienza nell'automazione e nell'estrazione di dati web per analisi e ricerca, fornisce alle aziende suggerimenti pratici e approfondimenti preziosi forniti in modo divertente e di facile lettura per aiutare gli altri a massimizzare il valore e le prestazioni delle loro soluzioni proxy. Quando non è impegnato a modificare la sua configurazione o a non fare consulenza per le PMI, puoi trovare Alexander interessato alle ultime novità tecnologiche e ai progressi dell'intelligenza artificiale.

Scegli e acquista proxy

Seleziona tipo, posizione e quantità per visualizzare immediatamente i prezzi.

Scegli e acquista proxy