콘텐츠 스크래핑이란? | 웹 스크래핑

콘텐츠 스크래핑 또는 웹 스크래핑은 봇이 웹 사이트의 모든 콘텐츠를 다운로드하거나 "스크래핑"하여 종종 해당 콘텐츠를 악의적으로 사용하는 것입니다.

학습 목표

이 글을 읽은 후에 다음을 할 수 있습니다:

  • 콘텐츠 스크래핑 알아보기
  • 웹 스크래핑 봇의 작동 방식 이해하기
  • 공격자가 콘텐츠를 스크래핑하는 이유 설명
  • 콘텐츠 스크래핑을 차단하는 방법 알아보기

관련 콘텐츠


계속 알아보시겠어요?

인터넷에서 가장 인기 있는 인사이트를 한 달에 한 번 정리하는 Cloudflare의 월간 요약본 theNET를 구독하세요!

Cloudflare가 개인 데이터를 수집하고 처리하는 방법은 Cloudflare의 개인정보 취급방침을 참조하세요.

글 링크 복사

콘텐츠 스크래핑이란 무엇인가요?

콘텐츠 스크래핑 봇

콘텐츠 스크래핑 또는 웹 스크래핑은 웹 사이트 소유자의 의사와 상관없이 이 웹 사이트에 있는 콘텐츠의 대부분 또는 전체를 다운로드하는 경우를 말합니다. 콘텐츠 스크래핑은 데이터 스크래핑의 한 형태입니다. 원본 웹 그래픽부터 전문적인 이력서, 식당 리뷰까지 모든 것을 대상으로 하는 콘텐츠가 포함됩니다. 대부분의 경우 스크래핑은 정보를 대량으로 신속하게 수집할 수 있는 자동화된 봇에 의해 수행됩니다.

콘텐츠 스크래핑은 검색 엔진 최적화를 위한 데이터 집계와 같은 정당한 목적으로 사용될 수 있습니다. 그러나 스크래핑 봇은 저작권 위반, 공격자가 소유한 웹 사이트에서의 검색 엔진 최적화를 위한 콘텐츠 복제, 유기적 트래픽 도용 등 악의적인 목적으로 콘텐츠의 용도를 변경하는 데 사용되는 경우가 많습니다. 이러한 봇은 사용량 분석을 왜곡하고 서버 리소스를 소진시키는 결과를 초래할 수도 있습니다.

봇이 콘텐츠를 스크래핑하는 방법은?

웹 사이트 스크래퍼 봇은 일반적으로 일련의 HTTP GET 요청을 보낸 다음 웹 서버가 응답으로 보내는 모든 정보를 복사 및 저장하여 모든 콘텐츠가 복사될 때까지 웹 사이트의 계층 구조를 탐색합니다.

더 정교한 스크래퍼 봇은 JavaScript를 사용하여 예를 들어 웹 사이트의 모든 양식을 작성하여 게이트 콘텐츠에 액세스한 다음 다운로드할 수 있습니다. '브라우저 자동화' 프로그램 및 API는 웹 사이트의 서버를 속여 인간 사용자가 콘텐츠에 액세스하고 있다고 생각하도록 하기 위해 기존 웹 브라우저를 사용하는 것처럼 웹 사이트 및 API와의 자동화된 봇 상호 작용을 허용합니다.

물론 개인이 대신 전체 웹 사이트를 수동으로 복사하여 붙여 넣을 수 있지만, 봇은 수백 개 또는 수천 개의 개별 제품 페이지가 있는 대규모 전자 상거래 사이트의 경우에도 웹 사이트의 모든 콘텐츠를 몇 초 만에 크롤링하고 다운로드할 수 있습니다.

스크래핑 봇은 어떤 종류의 콘텐츠를 겨냥할까요?

봇은 텍스트, 이미지, HTML 코드, CSS 코드 등 인터넷에 공개적으로 게시된 모든 것을 스크래핑할 수 있습니다. 그런 다음 공격자는 스크래핑한 데이터를 다양한 목적으로 사용할 수 있습니다. 한 가지 예로 다른 웹 사이트에서 텍스트를 재사용하여 첫 번째 웹 사이트의 검색 엔진 순위를 훔치거나 사용자를 속이는 경우가 있습니다. 공격자는 웹 사이트의 HTML 및 CSS 코드를 사용하여 합법적인 웹 사이트의 외관이나 다른 회사의 브랜드를 복제할 수도 있습니다. 사이버 범죄자는 훔친 콘텐츠를 사용하여 다른 웹 사이트의 실제 버전처럼 보이도록 사용자를 속여 개인정보를 입력하도록 하는 피싱 웹 사이트를 만들 수 있습니다.

웹 스크래핑으로 인한 비즈니스 어려움

웹 스크래핑의 결과로 몇 가지 비즈니스 피해가 발생할 수 있습니다.

  • 가격 할인 - 경쟁업체에서 내 가격을 스크래핑해서 자체 가격을 더 낮춘 다음 내 영업 대상을 빼앗아 갑니다. 이는 제품이든 서비스든 무언가를 판매하는 모든 고객에게 영향을 미칩니다.
  • 비즈니스 분석이 왜곡되면 계획에 영향이 미칩니다. 기업에서는 특히 마케팅, 프레젠테이션, 추가 리소스를 투입할 위치와 관련하여 사용 메트릭을 비즈니스 의사 결정의 요소로 고려합니다. 스크래퍼는 이러한 사용 데이터를 오염시킵니다.
  • 웹 사이트 성능 저하 - 스크래퍼가 실행하는 과도한 작업으로 인해 웹 사이트가 느려질 수 있습니다. 스크래핑이 심한 경우 고객의 서버에서 트래픽을 처리하지 못하여 정상적인 사용자가 사이트에 액세스하지 못할 수 있습니다. 이로 인해 판매에 방해가 되므로 온라인 소매업체에 특히 유해합니다.
  • 운영 비용 추가 - 스크래퍼가 사용하는 대역폭으로 인해 비용이 크게 증가할 수 있습니다.
  • 사용자들은 자기 정보를 얻으려고 다른 곳으로 이동합니다. 최종 사용자는 AI 챗봇이나 다른 사이트를 통해 동일한 정보를 찾을 수 있으므로 원래 정보의 소스에서 트래픽이 손실됩니다. 이는 유료 구독이나 광고 수익에 의존하는 비즈니스 모델을 가진 회사, 특히 구독한 사용자에게만 무제한 액세스 권한을 부여하는 뉴스 웹 사이트나 광고 시청에 크게 의존하는 엔터테인먼트 웹 사이트에 유해합니다.

다른 종류의 웹 스크래핑으로는 무엇이 있을까요?

가격 스크래핑

가격 스크래핑은 웹 사이트의 모든 가격 정보를 다운로드하는 것을 말하며, 이는 경쟁업체에서 수행하는 경우가 많습니다. 경쟁업체에서 더 유리하게 가격을 조정하여 소비자로 하여금 원래의(스크래핑된) 웹 사이트가 아닌 경쟁업체에서 구매하도록 유도하는 경우 이는 유해할 수 있습니다.

연락처 스크래핑

연락처 스크래핑은 웹 사이트에서 전화번호, 이메일 주소 등의 연락처 정보를 스캔한 다음 해당 정보를 다운로드하는 것을 말합니다. 이러한 종류의 스크래핑은 스팸의 새로운 대상을 찾을 목적으로 자주 발생합니다.

데이터 스크래핑이란?을 참조하여자세히 알아보세요.

기업에서 웹 스크래핑을 방지하는 방법은?

봇 관리 솔루션은 봇 행동 패턴을 식별하고 봇 스크래핑 활동을 완화할 수 있으며, 이는 머신 러닝의 도움을 받는 경우가 많습니다. 레이트 리미팅은 콘텐츠 스크래핑을 방지하는 데도 도움이 될 수 있습니다. 실제 사용자는 몇 초 또는 몇 분 안에 수백 페이지의 콘텐츠를 요청하지 않을 가능성이 높으며 그처럼 빠르게 요청하는 '사용자'는 봇일 가능성이 큽니다. 또한 봇이 해결할 수 없는 추가적인 질문을 도입하면 실제 사용자와 봇을 구분하는 데 도움이 될 수 있습니다.

Cloudflare를 이용하여 웹 스크래핑으로부터 보호

Cloudflare Bot Management는 콘텐츠 스크래핑 봇을 저지하도록 설계된 악의적인 봇 트래픽으로부터 웹 사이트를 보호합니다. 머신 러닝 기반 Cloudflare Bot Management는 행동 패턴을 기반으로 봇을 식별할 수 있으므로 사용자의 마찰과 긍정 오류가 줄어듭니다. 스크래핑에 대한 강력한 완화 접근법의 경우, 봇 감지는 레이트 리미팅 요청 및 Turnstile을 통한 인증 질문 관리와 함께 작동할 수 있습니다.

소규모 조직에서는 Cloudflare Pro 및 Business 요금제에서 제공되는 Super Bot Fight Mode를 사용하여 스크래핑 공격을 차단하고 봇 트래픽에 대한 가시성을 확보할 수도 있습니다.