{"id":470924,"date":"2024-06-23T16:01:59","date_gmt":"2024-06-23T16:01:59","guid":{"rendered":"https:\/\/proxycompass.com\/?p=470924"},"modified":"2024-07-04T11:54:28","modified_gmt":"2024-07-04T11:54:28","slug":"web-scraping-best-practices-good-etiquette-and-some-tricks","status":"publish","type":"post","link":"https:\/\/proxycompass.com\/de\/web-scraping-best-practices-good-etiquette-and-some-tricks\/","title":{"rendered":"Best Practices f\u00fcr Web Scraping: Gute Etikette und einige Tricks"},"content":{"rendered":"<p>In diesem Beitrag besprechen wir die Best Practices f\u00fcr Web Scraping. Und da ich glaube, dass viele von Ihnen dar\u00fcber nachdenken, werde ich gleich das Offensichtliche ansprechen. Ist es legal? H\u00f6chstwahrscheinlich ja.<\/p>\n\n\n\n<p>Das Scraping von Websites ist grunds\u00e4tzlich legal, allerdings nur unter gewissen vern\u00fcnftigen Voraussetzungen (lesen Sie einfach weiter).<br><\/p>\n\n\n\n<p>Es h\u00e4ngt auch von Ihrem geografischen Standort ab. Da ich kein Genie bin, wei\u00df ich nicht, wo Sie sich befinden, und kann es daher nicht mit Sicherheit sagen. Informieren Sie sich \u00fcber die Gesetze in Ihrem Land und beschweren Sie sich nicht, wenn wir \u201eschlechte Ratschl\u00e4ge\u201c geben, haha.&nbsp;<\/p>\n\n\n\n<p>Spa\u00df beiseite, an den meisten Orten ist das okay; aber seien Sie dabei nicht so ein Arschloch und halten Sie sich von urheberrechtlich gesch\u00fctztem Material, pers\u00f6nlichen Daten und Dingen hinter einem Anmeldebildschirm fern.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Wir empfehlen, die folgenden Best Practices f\u00fcr das Web Scraping zu befolgen:&nbsp;<\/h2>\n\n\n\n<p><\/p>\n\n\n\n<h3 class=\"wp-block-heading\">1. Robots.txt beachten<\/h3>\n\n\n\n<p>M\u00f6chten Sie wissen, wie Sie Websites friedlich scrapen k\u00f6nnen? Beachten Sie einfach die robots.txt-Datei der Website. Diese Datei im Stammverzeichnis einer Website gibt an, welche Seiten von Bots gescrapt werden d\u00fcrfen und welche tabu sind. Das Befolgen der robots.txt-Datei ist ebenfalls wichtig, da dies je nach Standort zur Sperrung Ihrer IP oder zu rechtlichen Konsequenzen f\u00fchren kann.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">2. Legen Sie eine angemessene Crawling-Rate fest<\/h3>\n\n\n\n<p>Um eine \u00dcberlastung, ein Einfrieren oder Abst\u00fcrzen der Website-Server zu vermeiden, kontrollieren Sie die Rate Ihrer Anfragen und ber\u00fccksichtigen Sie Zeitintervalle. Einfacher ausgedr\u00fcckt: Gehen Sie mit der Crawl-Rate langsam um. Um dies zu erreichen, k\u00f6nnen Sie Scrapy oder Selenium verwenden und Verz\u00f6gerungen in die Anfragen einbauen.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">3. Rotieren Sie Benutzeragenten und IP-Adressen<\/h3>\n\n\n\n<p>Websites k\u00f6nnen Scraping-Bots anhand der User-Agent-Zeichenfolge oder der IP-Adresse identifizieren und blockieren. \u00c4ndern Sie die User-Agents und IP-Adressen gelegentlich und verwenden Sie eine Reihe echter Browser. Verwenden Sie die User-Agent-Zeichenfolge und erw\u00e4hnen Sie sich selbst in gewissem Umfang darin. Ihr Ziel ist es, nicht erkannt zu werden, also stellen Sie sicher, dass Sie es richtig machen.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">4. Vermeiden Sie das Scraping hinter Anmeldeseiten<\/h3>\n\n\n\n<p>Sagen wir einfach, dass das Scraping von Daten hinter einem Login grunds\u00e4tzlich falsch ist. Richtig? Okay? Ich wei\u00df, dass viele von Ihnen diesen Abschnitt \u00fcberspringen werden, aber trotzdem \u2026 Versuchen Sie, das Scraping auf \u00f6ffentliche Daten zu beschr\u00e4nken, und wenn Sie hinter einem Login scrapen m\u00fcssen, fragen Sie vielleicht um Erlaubnis. Ich wei\u00df nicht, hinterlassen Sie einen Kommentar, wie Sie dabei vorgehen w\u00fcrden. Scrapen Sie Daten hinter einem Login?<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">5. Extrahierte Daten analysieren und bereinigen<\/h3>\n\n\n\n<p>Die ausgelesenen Daten sind oft unbearbeitet und k\u00f6nnen irrelevante oder sogar unstrukturierte Informationen enthalten. Vor der Analyse m\u00fcssen die Daten vorverarbeitet und mithilfe von Regex-, XPath- oder CSS-Selektoren bereinigt werden. Beseitigen Sie dazu die Redundanz, korrigieren Sie die Fehler und behandeln Sie die fehlenden Daten. Nehmen Sie sich Zeit f\u00fcr die Bereinigung, denn Sie ben\u00f6tigen Qualit\u00e4t, um Kopfschmerzen zu vermeiden.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">6. Dynamische Inhalte verarbeiten<\/h3>\n\n\n\n<p>Die meisten Websites verwenden JavaScript, um den Seiteninhalt zu generieren, und das ist ein Problem f\u00fcr herk\u00f6mmliche Scraping-Techniken. Um die dynamisch geladenen Daten abzurufen und zu scrapen, k\u00f6nnen Sie Headless-Browser wie Puppeteer oder Tools wie Selenium verwenden. Konzentrieren Sie sich nur auf die Aspekte, die f\u00fcr die Verbesserung der Effizienz von Interesse sind.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">7. Implementieren Sie eine robuste Fehlerbehandlung<\/h3>\n\n\n\n<p>Es ist notwendig, Fehler zu korrigieren, um Programmfehler zu vermeiden, die durch Netzwerkprobleme, Ratenbegrenzungen oder \u00c4nderungen in der Website-Struktur verursacht werden. Wiederholen Sie die fehlgeschlagenen Anfragen, beachten Sie die Ratenbegrenzungen und \u00e4ndern Sie die Analyse, wenn sich die Struktur des HTML ge\u00e4ndert hat. Notieren Sie die Fehler und befolgen Sie die Aktivit\u00e4ten, um die Probleme zu identifizieren und zu l\u00f6sen.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">8. Respektieren Sie die Nutzungsbedingungen der Website<\/h3>\n\n\n\n<p>Bevor Sie eine Website scrapen, sollten Sie die Nutzungsbedingungen der Website durchlesen. Einige von ihnen erlauben Scraping nicht oder haben bestimmte Regeln und Vorschriften, die befolgt werden m\u00fcssen. Wenn die Bedingungen nicht eindeutig sind, sollten Sie den Eigent\u00fcmer der Website kontaktieren, um weitere Informationen zu erhalten.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">9. Ber\u00fccksichtigen Sie die rechtlichen Auswirkungen<\/h3>\n\n\n\n<p>Stellen Sie sicher, dass Sie die Daten legal scrapen und verwenden d\u00fcrfen, einschlie\u00dflich Urheberrechts- und Datenschutzfragen. Es ist verboten, urheberrechtlich gesch\u00fctztes Material oder pers\u00f6nliche Informationen anderer Personen zu scrapen. Wenn Ihr Unternehmen von Datenschutzgesetzen wie der DSGVO betroffen ist, stellen Sie sicher, dass Sie diese einhalten.&nbsp;<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">10. Erkunden Sie alternative Methoden der Datenerfassung<\/h3>\n\n\n\n<p>Es wird empfohlen, vor dem Scraping nach anderen Datenquellen zu suchen. Es gibt viele Websites, die APIs oder Datens\u00e4tze zum Herunterladen bereitstellen, und das ist viel bequemer und effizienter als Scraping. Pr\u00fcfen Sie also, ob es Abk\u00fcrzungen gibt, bevor Sie den langen Weg einschlagen.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">11. Implementieren Sie Datenqualit\u00e4tssicherung und -\u00fcberwachung<\/h3>\n\n\n\n<p>Finden Sie heraus, wie Sie die Qualit\u00e4t der Scraped-Daten verbessern k\u00f6nnen. \u00dcberpr\u00fcfen Sie den Scraper und die Qualit\u00e4t der Daten t\u00e4glich, um Anomalien zu erkennen. Implementieren Sie automatisierte \u00dcberwachungs- und Qualit\u00e4tspr\u00fcfungen, um Probleme zu erkennen und zu vermeiden.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">12. Verabschieden Sie eine formelle Richtlinie zur Datenerfassung<\/h3>\n\n\n\n<p>Um sicherzustellen, dass Sie alles richtig und legal machen, erstellen Sie eine Richtlinie zur Datenerfassung. Nehmen Sie darin die Regeln, Empfehlungen und rechtlichen Aspekte auf, die Ihr Team kennen sollte. Sie schlie\u00dft das Risiko eines Datenmissbrauchs aus und stellt sicher, dass jeder die Regeln kennt.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">13. Bleiben Sie informiert und passen Sie sich an \u00c4nderungen an<\/h3>\n\n\n\n<p>Web Scraping ist ein aktives Feld, das durch das Aufkommen neuer Technologien, rechtlicher Probleme und Websites gekennzeichnet ist, die st\u00e4ndig aktualisiert werden. Stellen Sie sicher, dass Sie die Kultur des Lernens und der Flexibilit\u00e4t \u00fcbernehmen, damit Sie auf dem richtigen Weg sind.&nbsp;<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Verpacken!<\/h2>\n\n\n\n<p>Wenn Sie mit einigen der tollen Spielzeuge spielen m\u00f6chten, die uns zur Verf\u00fcgung stehen (tun Sie sich selbst einen Gefallen und suchen Sie nach einigen Python-Bibliotheken), dann \u2026 nun, bitte zeigen Sie gute Manieren, und seien Sie auch klug, wenn Sie den ersten Ratschlag ignorieren.&nbsp;<\/p>\n\n\n\n<p>Hier sind einige der Best Practices, \u00fcber die wir gesprochen haben:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Beachten Sie robots.txt<\/li>\n\n\n\n<li>Crawling-Geschwindigkeit steuern<\/li>\n\n\n\n<li>Rotieren Sie Ihre Identit\u00e4t<\/li>\n\n\n\n<li>Vermeiden Sie private Bereiche<\/li>\n\n\n\n<li>Daten bereinigen und analysieren<\/li>\n\n\n\n<li>Effizienter Umgang mit Fehlern<\/li>\n\n\n\n<li>Sei brav und halte dich an die Regeln<\/li>\n<\/ul>\n\n\n\n<p>Da Daten immer wertvoller werden, stehen Web Scraper vor der Entscheidung:&nbsp;<\/p>\n\n\n\n<p>Respektieren Sie die robots.txt-Datei, ja oder nein? Das liegt bei Ihnen.<\/p>\n\n\n\n<p>Kommentieren Sie unten, was halten Sie davon?<\/p>","protected":false},"excerpt":{"rendered":"<p>In this post, we&#8217;ll discuss the web scraping best practices, and since I believe many of you are thinking about it, I&#8217;ll address the elephant in the room right away. Is it legal? Most likely yes. Scraping sites is generally legal, but within certain reasonable grounds (just keep reading). Also depends on your geographical location, [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":470932,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"inline_featured_image":false,"footnotes":""},"categories":[35],"tags":[],"class_list":["post-470924","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-articles"],"acf":[],"_links":{"self":[{"href":"https:\/\/proxycompass.com\/de\/wp-json\/wp\/v2\/posts\/470924","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/proxycompass.com\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/proxycompass.com\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/proxycompass.com\/de\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/proxycompass.com\/de\/wp-json\/wp\/v2\/comments?post=470924"}],"version-history":[{"count":5,"href":"https:\/\/proxycompass.com\/de\/wp-json\/wp\/v2\/posts\/470924\/revisions"}],"predecessor-version":[{"id":470935,"href":"https:\/\/proxycompass.com\/de\/wp-json\/wp\/v2\/posts\/470924\/revisions\/470935"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/proxycompass.com\/de\/wp-json\/wp\/v2\/media\/470932"}],"wp:attachment":[{"href":"https:\/\/proxycompass.com\/de\/wp-json\/wp\/v2\/media?parent=470924"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/proxycompass.com\/de\/wp-json\/wp\/v2\/categories?post=470924"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/proxycompass.com\/de\/wp-json\/wp\/v2\/tags?post=470924"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}