웹 사이트를 크롤링하는 방법: Python, JavaScript를 사용한 크롤링에 대한 단계별 가이드 및 2023년에 차단되지 않는 크롤링에 대한 12가지 팁

귀중한 데이터를 찾아 인터넷의 미로 같은 골목을 탐색하는 것처럼 웹 크롤링의 모험적인 여정을 시작하는 것은 스릴과 도전이 될 수 있습니다. 광활한 디지털 세계에서 웹 크롤링 기술은 정보를 효율적으로 마이닝하고 통찰력을 개발하며 끊임없이 확장되는 월드 와이드 웹을 이해할 수 있는 중요한 기술로 부상했습니다.

이 계몽적인 기사에서 우리는 웹 크롤링의 복잡한 영역을 탐색하여 웹 크롤링과 웹 스크래핑의 차이점을 밝히고 웹 크롤링 능력을 향상시킬 다양한 전략과 기술을 탐색할 것입니다.

JavaScript 웹사이트의 동적 영역부터 Python의 강력한 단순성까지, 웹 크롤링 작업이 원활하고 효과적이며 방해받지 않도록 보장하는 다양한 팁과 기술을 안내해 드립니다.

웹 크롤링과 웹 스크래핑
4가지 웹 크롤링 전략
JavaScript 웹사이트를 크롤링하는 방법
Python으로 웹사이트를 크롤링하는 방법
차단되지 않고 웹사이트를 크롤링하는 방법에 대한 12가지 팁
웹사이트를 크롤링하는 방법에 대한 비디오 튜토리얼
결론

그러니 버클을 채우고 매혹적인 웹 크롤링의 세계로 흥미진진한 항해를 떠날 준비를 하세요!

웹 크롤링과 웹 스크래핑

웹 스크래핑과 웹 크롤링은 동일한 것으로 간주되는 경우가 많고 둘 다 데이터 마이닝에 사용되지만 중요한 차이점이 있습니다. 이러한 차이점을 살펴보고 귀하의 요구 사항과 비즈니스 목표에 가장 적합한 접근 방식을 결정하는 데 도움을 드립니다.

주요 차이점

간단히 말해서 웹 크롤링은 검색 엔진이 수행하는 작업입니다. 검색 엔진은 웹을 탐색하고 사용 가능한 정보를 찾고 액세스 가능한 모든 링크를 따릅니다. 이 일반적인 프로세스는 특정 웹사이트에서 가능한 한 많은 정보(또는 전부)를 수집하는 것을 목표로 합니다. 본질적으로 이것이 Google이 하는 일입니다. 즉, 전체 웹페이지를 보고 사용 가능한 모든 데이터의 색인을 생성합니다.

반면, 수집된 정보를 다운로드 받으려면 웹스크래핑을 사용합니다. 웹 스크래핑(웹 데이터 추출이라고도 함)은 보다 집중적인 프로세스입니다. 명령을 사용자 정의하고 스크래핑 프록시를 활용하여 대상 웹 사이트에서 특정 데이터를 추출할 수 있습니다. 그런 다음 결과를 JSON 또는 Excel과 같은 적합한 형식으로 다운로드할 수 있습니다.

어떤 경우에는 웹 크롤링과 웹 스크래핑을 모두 사용하여 단일 목표를 달성할 수 있으며, 이는 본질적으로 프로세스의 1단계와 2단계로 작동합니다. 이 두 가지를 결합하면 크롤러를 사용하여 주요 웹사이트에서 대량의 정보를 수집하고 나중에 스크래퍼를 사용하여 필요한 특정 데이터를 추출하고 다운로드할 수 있습니다.

4가지 웹 크롤링 전략

일반적으로 웹 크롤러는 도메인당 최대 페이지 수, 깊이, 기간 등의 요인에 따라 결정될 수 있는 크롤러 예산에 따라 웹 페이지의 일부만 방문합니다.

많은 웹사이트는 사이트의 어떤 부분을 크롤링할 수 있고 어떤 부분을 금지할 것인지를 명시하는 robots.txt 파일을 제공합니다. 또한, robots.txt보다 더 자세한 sitemap.xml 파일도 있는데, 이 파일은 봇에게 크롤링할 경로를 안내하고 각 URL에 대한 추가 메타데이터를 제공합니다.

웹 크롤러의 일반적인 용도는 다음과 같습니다.

Googlebot, Bingbot, Yandex Bot과 같은 검색 엔진은 웹의 상당 부분에서 HTML을 수집하여 쉽게 검색할 수 있도록 데이터를 색인화합니다.
SEO 분석 도구는 HTML뿐만 아니라 응답 시간, 응답 상태 등의 메타데이터도 수집하여 깨진 페이지를 식별하고 백링크 분석을 위해 도메인 간 링크를 추적합니다.
가격 모니터링 도구는 전자상거래 웹사이트를 크롤링하여 제품 페이지를 찾고 메타데이터, 특히 가격을 추출합니다. 그런 다음 이러한 제품 페이지를 정기적으로 다시 방문합니다.
일반 크롤링은 웹 크롤링 데이터의 공개 저장소, 같은 2022년 5월 아카이브 34억 5천만 개의 웹페이지를 포함하고 있습니다.

JavaScript 웹사이트를 크롤링하는 방법

JavaScript 웹사이트 크롤링은 정적 HTML 페이지 크롤링보다 더 어려울 수 있습니다. JavaScript 코드에 의해 콘텐츠가 로드되고 조작되는 경우가 많기 때문입니다. 이러한 웹사이트를 크롤링하려면 JavaScript를 실행하고 페이지 콘텐츠를 렌더링할 수 있는 헤드리스 브라우저를 사용해야 합니다. 이 작업에 널리 사용되는 방법 중 하나는 Puppeteer 라이브러리와 Node.js 런타임 환경을 함께 사용하는 것입니다.

다음은 Puppeteer 및 Node.js를 사용하여 JavaScript 웹사이트를 크롤링하기 위한 단계별 가이드입니다.

1. Node.js 설치

공식 웹사이트(https://nodejs.org/).

2. 새 프로젝트 디렉토리 생성

프로젝트에 대한 새 디렉터리를 만들고 명령줄을 사용하여 해당 디렉터리로 이동합니다.

mkdir js-crawler
cd js-crawler

3. 새 Node.js 프로젝트 초기화

프로젝트 디렉터리에서 다음 명령을 실행하여 새 디렉터리를 만듭니다. package.json 기본 설정으로 파일을 만듭니다.

npm init -y

4. 인형극 설치

프로젝트 디렉터리에서 다음 명령을 실행하여 Puppeteer를 설치합니다.

npm install puppeteer

5. 새 JavaScript 파일 만들기

라는 이름의 새 파일을 만듭니다.

crawler.js

JavaScript 웹사이트를 크롤링하기 위한 코드가 포함될 프로젝트 디렉토리에 있습니다.

6. 크롤러 코드 작성

열려 있는

crawler.js

그리고 다음 코드를 추가하세요:

const puppeteer = require('puppeteer');
async function crawlJavaScriptWebsite(url) {

새 브라우저 인스턴스 시작

const browser = await puppeteer.launch({ headless: true });

브라우저에서 새 페이지 만들기

const page = await browser.newPage();

대상 URL로 이동

await page.goto(url, { waitUntil: 'networkidle2' })

다음을 사용하여 페이지에서 데이터를 추출합니다.

evaluate()
const data = await page.evaluate(() => {

여기에 사용자 지정 JavaScript 코드를 작성하여 필요한 데이터를 추출하세요. 예를 들어, 페이지에서 모든 제목(h1 요소)을 추출해 보겠습니다.

const headings = Array.from(document.querySelectorAll('h1')).map(heading => heading.textContent);
return {
headings,
};
});

브라우저를 닫습니다

await browser.close();

추출된 데이터를 반환

return data;
}

사용 예:

crawlJavaScriptWebsite('https://example.com/')
.then(data => console.log(data))
.catch(err => console.error(err));

교체

https://example.com/

URL을 대상 웹사이트 URL로 설정하고 맞춤설정하세요.

page.evaluate()

필요한 데이터를 추출하는 기능입니다.

7. 크롤러 실행

크롤러를 실행하려면 프로젝트 디렉터리에서 다음 명령을 실행하세요.

node crawler.js

스크립트는 헤드리스 브라우저를 시작하고 대상 URL로 이동한 후 다음에 지정된 JavaScript 코드를 실행합니다.

page.evaluate()

기능. 추출된 데이터는 콘솔에 기록됩니다.

이는 JavaScript 웹사이트를 크롤링하는 기본 예라는 점을 명심하세요. 고급 사용 사례의 경우 페이지와 상호 작용하거나, AJAX 요청을 처리하거나, 페이지를 스크롤하거나, CAPTCHA 및 쿠키를 처리해야 할 수도 있습니다.

Python으로 웹을 크롤링하는 방법

Python을 사용하여 웹사이트를 크롤링하려면 웹페이지를 가져오고, 해당 콘텐츠를 구문 분석하고, 다른 페이지에 대한 링크를 따라가야 합니다. 이 가이드에서는 두 가지 인기 있는 Python 라이브러리인 Requests와 Beautiful Soup을 사용합니다. 이 가이드에서는 사용자가 Python을 설치하고 Python 프로그래밍에 대한 기본 지식을 갖추고 있다고 가정합니다.

1단계: 필수 라이브러리 설치

pip를 사용하여 Requests 및 Beautiful Soup 라이브러리를 설치합니다.

pip install requests beautifulsoup4

2단계: 라이브러리 가져오기

Python 스크립트에서 필수 라이브러리를 가져옵니다.

import requests
from bs4 import BeautifulSoup

3단계: 웹페이지 콘텐츠를 가져오는 함수 만들기

요청 라이브러리를 사용하여 웹페이지 콘텐츠를 가져오는 함수를 만듭니다.

def fetch_page(url):
    response = requests.get(url)
    if response.status_code == 200:
        return response.text
    else:
        print(f"Failed to fetch {url} (status code {response.status_code})")
        return None

4단계: 웹페이지 콘텐츠를 구문 분석하는 함수 만들기

Beautiful Soup 라이브러리를 사용하여 웹페이지 콘텐츠를 구문 분석하는 함수를 만듭니다.

def parse_page(html):
    soup = BeautifulSoup(html, "html.parser")
return soup

5단계: 구문 분석된 콘텐츠에서 링크를 추출하는 함수 만들기

구문 분석된 웹페이지 콘텐츠에서 모든 링크를 추출하는 함수를 만듭니다.

def extract_links(soup, base_url):
   links = []
    for a_tag in soup.find_all("a"):
        href = a_tag.get("href")
        if href and not href.startswith("#"):
            if not href.startswith("http"):
                href = base_url + href
            links.append(href)
    return links

6단계: 웹사이트를 크롤링하는 함수 만들기

웹사이트를 재귀적으로 크롤링하는 함수를 만듭니다.

def crawl_website(url, max_depth=2, depth=0):
    if depth > max_depth:
        return
    html = fetch_page(url)
    if not html:
        return
    soup = parse_page(html)
    links = extract_links(soup, url)
    print(f"{'  ' * depth}[{depth}] {url}")
    for link in links:
        crawl_website(link, max_depth, depth + 1)

7단계: 크롤러 실행

다음을 호출하여 크롤러를 실행합니다.

crawl_website

원하는 URL과 최대 깊이로 작동합니다.

if __name__ == "__main__":
start_url = "https://example.com/"
    max_depth = 2
    crawl_website(start_url, max_depth)

이 단계별 가이드에서는 Python을 사용하여 웹사이트를 크롤링하는 방법을 보여줍니다. 당신은

crawl_website

특정 웹사이트 구조를 처리하고, 추출된 정보를 저장하기 위한 논리를 추가하거나, robots.txt 처리, 속도 제한 또는 요청 병렬화와 같은 고급 크롤링 기능을 구현하는 기능입니다.

차단되지 않고 웹사이트를 크롤링하는 방법에 대한 12가지 팁

다음은 차단 없이 웹을 크롤링하기 위한 기본 전략입니다.

#1: 로봇 제외 프로토콜 확인

웹사이트를 크롤링하거나 스크래핑하기 전에 대상 사이트가 해당 페이지에서 데이터 수집을 허용하는지 확인하세요. 웹사이트의 로봇 배제 프로토콜(robots.txt) 파일을 검사하고 웹사이트 규정을 준수하세요.

웹사이트가 크롤링을 허용하더라도 사이트를 존중하고 손상시키지 마십시오. 로봇 배제 프로토콜에 명시된 규정을 준수하고, 사용량이 적은 시간에 크롤링하고, 단일 IP 주소에서 발생하는 요청을 제한하고, 요청 간에 지연 시간을 설정하십시오.

하지만 웹사이트에서 웹 스크래핑을 허용하더라도 여전히 차단될 수 있으므로 추가 단계를 따르는 것이 중요합니다. 더 자세한 가이드는 웹 스크래핑 Python 튜토리얼을 참조하세요.

#2: 프록시 서버 활용

프록시 없이는 웹 크롤링이 거의 불가능합니다. 평판이 좋은 프록시 서비스 제공업체를 선택하고 작업에 따라 데이터 센터와 가정용 IP 프록시 중에서 선택하세요.

기기와 대상 웹사이트 사이에 중개자를 사용하면 IP 주소 차단이 줄어들고 익명성이 보장되며, 해당 지역에서는 접속이 불가능할 수 있는 웹사이트에도 접속할 수 있습니다. 예를 들어, 독일에 거주하는 경우 미국 웹 콘텐츠에 접속하려면 미국 프록시를 사용해야 할 수 있습니다.

최적의 결과를 얻으려면 대규모 IP 풀과 다양한 위치를 갖춘 프록시 공급자를 선택하세요.

#3: IP 주소 교체

프록시 풀을 사용할 때는 IP 주소를 순환하는 것이 중요합니다.

동일한 IP 주소에서 너무 많은 요청을 보내면 대상 웹 사이트는 곧 귀하를 위협으로 인식하고 IP 주소를 차단합니다. 프록시 순환을 사용하면 여러 명의 다른 인터넷 사용자인 것처럼 표시하여 차단될 가능성을 줄일 수 있습니다.

모든 Oxylabs Residential 프록시는 IP 주소를 순환하지만, 데이터센터 프록시를 사용하는 경우 프록시 순환 서비스를 사용해야 합니다. IPv6 및 IPv4 프록시도 순환합니다. IPv4와 IPv6의 차이점에 관심이 있으시면 제 동료 Iveta가 작성한 글을 읽어보세요.

#4: 실제 사용자 에이전트 사용

웹사이트를 호스팅하는 대부분의 서버는 크롤링 봇이 생성하는 HTTP 요청의 헤더를 검사할 수 있습니다. 사용자 에이전트라고 하는 이 HTTP 요청 헤더에는 운영 체제 및 소프트웨어부터 애플리케이션 유형 및 해당 버전에 이르는 다양한 정보가 포함되어 있습니다.

서버는 의심스러운 사용자 에이전트를 쉽게 감지할 수 있습니다. 실제 사용자 에이전트에는 자연 방문자가 제출한 인기 있는 HTTP 요청 구성이 포함되어 있습니다. 차단되는 것을 방지하려면 사용자 에이전트를 유기적인 것과 유사하게 사용자 정의해야 합니다.

웹 브라우저의 각 요청에는 사용자 에이전트가 포함되어 있으므로 사용자 에이전트를 자주 전환해야 합니다.

최신이고 가장 많이 사용되는 사용자 에이전트를 활용하는 것도 중요합니다. 지원되지 않는 Firefox 버전에서 5년 된 사용자 에이전트로 요청을 보내는 경우, 여러 가지 위험 신호가 발생합니다. 인터넷에서 현재 가장 많이 사용되는 사용자 에이전트를 보여주는 공개 데이터베이스를 찾을 수 있습니다. 저희도 정기적으로 업데이트되는 자체 데이터베이스를 보유하고 있으니, 필요하시면 언제든지 문의해 주세요.

#5: 지문을 올바르게 설정하세요

스크래핑 방지 메커니즘은 더욱 정교해지고 있으며 일부 웹사이트에서는 TCP(전송 제어 프로토콜) 또는 IP 지문 인식을 사용하여 봇을 탐지합니다.

웹 스크래핑 시 TCP는 다양한 매개변수를 남깁니다. 이러한 매개변수는 최종 사용자의 운영 체제 또는 기기에 의해 설정됩니다. 스크래핑 중 블랙리스트에 등록되는 것을 방지하는 방법이 궁금하다면 매개변수가 일관성을 유지하는지 확인하세요. 또는 동적 핑거프린팅 기능을 갖춘 AI 기반 프록시 솔루션인 Web Unblocker를 사용할 수 있습니다. Web Unblocker는 여러 핑거프린팅 변수를 결합하여 가장 효과적인 단일 핑거프린트를 식별하더라도 핑거프린트는 여전히 무작위로 나타나며 봇 방지 검사를 통과할 수 있습니다.

#6: 허니팟 트랩에 대한 주의

웹 스크레이퍼로 감지할 수 있지만 유기적 사용자에게는 보이지 않는 HTML 코드의 링크인 허니팟 트랩에 주의하세요. 로봇만이 이러한 링크를 따라갈 수 있으므로 이러한 트랩은 웹 크롤러를 식별하고 차단하는 데 사용됩니다. 허니팟을 설정하려면 많은 작업이 필요하지만 일부 대상에서는 허니팟을 사용하여 웹 크롤러를 탐지할 수 있으므로 요청이 차단되고 크롤러가 탐지되면 주의해야 합니다.

#7: CAPTCHA 해결 서비스 활용

CAPTCHA는 방문자가 본인임을 확인하기 위해 퍼즐을 풀어야 하므로 웹 크롤링에 큰 어려움을 초래합니다. 이러한 퍼즐에는 컴퓨터가 해독하기 어려운 이미지가 포함되는 경우가 많습니다. CAPTCHA를 우회하려면 전용 CAPTCHA 해결 서비스나 CAPTCHA를 해결하고 즉시 사용 가능한 결과를 제공하는 Oxylabs의 데이터 크롤링 도구와 같은 즉시 사용 가능한 크롤링 도구를 사용하십시오. 의심스러운 행동은 대상에게 CAPTCHA 해결을 요청하도록 유도할 수 있습니다.

#8: 크롤링 패턴 변경

차단을 방지하려면 크롤러의 탐색 패턴을 수정하여 예측하기 어렵게 만드세요. 일반 사용자의 탐색 동작을 모방하기 위해 무작위 클릭, 스크롤, 마우스 움직임을 추가할 수 있습니다. 모범 사례를 위해 일반적인 사용자가 웹사이트를 탐색하는 방식을 생각해 보고 이러한 원칙을 도구에 적용해 보세요. 예를 들어, 내부 페이지를 요청하기 전에 홈페이지를 방문하는 것은 논리적인 패턴입니다.

#9: 스크레이퍼 속도 감소

차단 위험을 줄이려면 요청 사이에 무작위로 중단 시간을 추가하거나 작업 수행 전에 대기 명령을 실행하여 스크래퍼 속도를 낮추세요. URL에 속도 제한이 있는 경우, 웹사이트의 제한 사항을 준수하고 스크래핑 속도를 낮춰 요청 제한을 방지하세요.

#10: 사용량이 적은 시간 동안 크롤링

크롤러는 일반 사용자보다 빠르게 이동하며 서버 로드에 큰 영향을 줄 수 있습니다. 로드가 많은 시간 동안 크롤링하면 서비스 속도 저하로 인해 사용자 환경에 부정적인 영향을 미칠 수 있습니다. 이를 방지하려면 자정 직후(서비스에 현지화됨)와 같이 사용량이 적은 시간에 크롤링하여 서버의 로드를 줄입니다.

#11: 이미지 스크래핑 방지

#12: 헤드리스 브라우저 사용

헤드리스 브라우저는 일반 브라우저처럼 작동하지만 그래픽 사용자 인터페이스가 없는 도구입니다. JavaScript 요소를 렌더링하여 로드된 콘텐츠를 스크랩할 수 있습니다. 가장 널리 사용되는 브라우저인 Chrome 및 Firefox에는 차단을 실행하지 않고 웹 스크래핑에 사용할 수 있는 헤드리스 모드가 있습니다.

웹사이트를 크롤링하는 방법에 대한 비디오 튜토리얼

이 Oxylabs 튜토리얼에서는 웹 크롤링의 기본 원리와 데이터 수집에 있어서의 중요성을 알아보고, 윤리적 및 법적 측면도 논의합니다. Scrapy, Beautiful Soup, Selenium와 같은 인기 도구를 소개하고, 필요에 맞는 최적의 도구를 선택할 수 있도록 도와줍니다.

이 튜토리얼은 웹사이트 구조를 이해하고, 간단한 웹 크롤러를 만들고, 필요한 정보를 추출하는 데 도움을 줍니다. 또한 robots.txt 규칙을 준수하고 서버에 과부하를 주지 않는 등 웹 스크래핑 매너를 준수해야 함을 알려줍니다.

또한 이 비디오는 동적 페이지에서 데이터 가져오기, 여러 페이지 처리, 블록 방지와 같은 문제를 처리하는 데 도움이 됩니다. 데이터를 저장하고 구성하는 방법을 보여주고 웹 크롤링 프로젝트를 더 크고 효율적으로 만드는 방법에 대한 팁을 제공합니다. 마지막으로, 항상 윤리적, 법적 지침을 준수해야 함을 상기시켜 드립니다.

결론

웹 크롤링 세계에 대한 신나는 탐험을 마무리하며, 이 기술을 마스터하는 것은 마치 광활하고 끊임없이 변화하는 인터넷 세계에서 보물 지도를 손에 쥐는 것과 같다는 것을 알게 되었습니다. 웹 크롤링과 웹 스크래핑을 구분하는 복잡한 요소들을 파헤치고, 다양한 전략을 발견했으며, 자바스크립트 웹사이트와 파이썬 기반 웹 크롤링의 역동적인 영역으로 진출했습니다.

우리의 귀중한 팁과 조언은 귀하의 웹 크롤링 노력이 책임감 있고 윤리적인 상태를 유지하여 도중에 발생할 수 있는 함정과 장애물을 피하도록 보장합니다. 따라서 이 포괄적인 기사에서 얻은 지식과 지혜로 무장하여 끝없는 디지털 바다로 항해를 시작할 때 웹 크롤링의 힘을 활용하는 능력이 당신을 경쟁 우위로 끌어올리고 디지털 바다 깊숙한 곳에 숨겨진 보석을 잠금 해제할 수 있다는 점을 기억하십시오. 디지털 세계.

알렉산더 슈미트

Alexander Schmidt는 더 열심히 일하는 것이 아니라 더 똑똑하게 일하는 것을 믿는 소프트웨어 엔지니어입니다. 분석 및 연구를 위한 자동화 및 웹 데이터 추출을 다루는 12년의 경험을 바탕으로 그는 다른 사람들이 프록시 솔루션의 가치와 성능을 극대화할 수 있도록 재미있고 읽기 쉬운 방식으로 전달되는 실용적인 팁과 귀중한 통찰력을 기업에 제공합니다. Alexander가 설정을 조정하거나 중소기업을 위한 컨설팅을 하지 않을 때는 최신 기술 뉴스와 AI 발전에 대해 관심을 갖고 있는 것을 볼 수 있습니다.