콘텐츠 스크래핑이란? | 웹 스크래핑

콘텐츠 스크래핑 또는 웹 스크래핑은 봇이 웹 사이트의 모든 콘텐츠를 다운로드하거나 "스크래핑"하여 종종 해당 콘텐츠를 악의적으로 사용하는 것입니다.

학습 목표

이 글을 읽은 후에 다음을 할 수 있습니다:

  • 콘텐츠 스크래핑 알아보기
  • 웹 스크래핑 봇의 작동 방식 이해하기
  • 공격자가 콘텐츠를 스크래핑하는 이유 설명
  • 콘텐츠 스크래핑을 차단하는 방법 알아보기

관련 콘텐츠


계속 알아보시겠어요?

인터넷에서 가장 인기 있는 인사이트를 한 달에 한 번 정리하는 Cloudflare의 월간 요약본 theNET를 구독하세요!

Cloudflare가 개인 데이터를 수집하고 처리하는 방법은 Cloudflare의 개인정보 취급방침을 참조하세요.

글 링크 복사

콘텐츠 스크래핑이란 무엇인가요?

콘텐츠 스크래핑 봇

콘텐츠 스크래핑 또는 웹 스크래핑은 웹 사이트 소유자의 의사와 상관없이 이 웹 사이트에 있는 콘텐츠의 대부분 또는 전체를 다운로드하는 경우를 말합니다.콘텐츠 스크래핑은 데이터 스크래핑의 한 형태입니다.기본적으로 항상 자동화된 봇에 의해 수행됩니다.웹 사이트 스크래퍼 봇은 때로는 몇 초 만에 웹 사이트의 모든 콘텐츠를 다운로드할 수 있습니다.

콘텐츠 스크래핑 봇은 종종 공격자가 소유한 웹 사이트에서 SEO를 위한 콘텐츠 복제, 저작권 위반, 유기적 트래픽 도용 등 악의적인 목적으로 콘텐츠의 용도를 변경하는 데 사용됩니다. 콘텐츠 스크래핑에는 추가 게이트 콘텐츠에 액세스하기 위해 양식을 작성하고 제출하는 것이 포함될 수 있으며 부산물로 회사 데이터베이스에 정크 데이터가 생성됩니다. 또한 봇의 HTTP 요청을 처리하는 데 인간 사용자 전용일 수 있는 서버 리소스가 필요합니다.

봇이 콘텐츠를 스크래핑하는 방법은?

웹 사이트 스크래퍼 봇은 일반적으로 일련의 HTTP GET 요청을 전송한 다음 웹 서버가 응답으로 보내는 모든 정보를 복사하고 저장하면서 모든 콘텐츠가 복사될 때까지 웹 사이트 계층을 통과합니다.

더 정교한 스크래퍼 봇은 JavaScript를 사용하여 예를 들어 웹 사이트의 모든 양식을 작성하고 게이트 콘텐츠를 다운로드할 수 있습니다. "브라우저 자동화" 프로그램 및 API는 웹 사이트의 서버를 속여 인간 사용자가 콘텐츠에 액세스하고 있다고 생각하도록 하기 위해 기존 웹 브라우저를 사용하는 것처럼 웹 사이트 및 API와의 자동화된 봇 상호 작용을 허용합니다.

물론 개인이 대신 전체 웹 사이트를 수동으로 복사하여 붙여넣을 수 있지만, 봇은 수백개나 수천 개의 개별 제품 페이지가 있는 전자 상거래 사이트와 같은 대규모 사이트의 경우에도 웹 사이트의 모든 콘텐츠를 종종 몇 초 만에 크롤링하고 다운로드할 수 있습니다.

콘텐츠 스크래핑 봇은 어떤 종류의 콘텐츠를 대상으로 할까요?

봇은 텍스트, 이미지, HTML 코드, CSS 코드 등 인터넷에 공개적으로 게시된 모든 것을 스크래핑할 수 있습니다.공격자는 스크래핑한 데이터를 다양한 목적으로 사용할 수 있습니다.텍스트는 다른 웹 사이트에서 재사용되어 첫 번째 웹 사이트의 검색 엔진 순위를 훔치거나 사용자를 속일 수 있습니다.공격자는 웹 사이트의 HTML 및 CSS 코드를 사용하여 합법적인 웹 사이트의 외관이나 다른 회사의 브랜드를 복제할 수 있습니다.사이버 범죄자는 훔친 콘텐츠를 사용하여 다른 웹 사이트의 실제 버전처럼 보이도록 사용자를 속여 개인 정보를 입력하도록 하는 피싱 웹 사이트를 만들 수 있습니다.

다른 종류의 웹 스크래핑으로는 무엇이 있을까요?

연락처 스크래핑

이는 전화번호, 이메일 주소 등의 연락처 정보를 웹 사이트에서 검색한 다음 해당 정보를 다운로드하는 것을 말합니다. 이메일 수집 봇은 일반적으로 스팸의 새로운 대상을 찾기 위한 목적으로 특히 이메일 주소를 대상으로 하는 스크래퍼 봇 유형입니다.

가격 스크래핑

이는은 한 회사가 경쟁 회사의 웹 사이트에서 모든 가격 정보를 다운로드하여 그에 따라 자체 가격을 조정하려는 경우입니다.

데이터 스크래핑이란?을 참조하여자세히 알아보세요.

기업에서 웹 스크래핑을 방지하는 방법은?

봇 관리 솔루션은 종종 머신 러닝의 도움으로 봇 행동 패턴을 식별하고 봇 스크래핑 활동을 완화할 수 있습니다.레이트 리미팅은 콘텐츠 스크랩을 방지하는 데도 도움이 될 수 있습니다. 실제 사용자는 몇 초 또는 몇 분 안에 수백 페이지의 콘텐츠를 요청하지 않을 가능성이 높으며 빠르게 요청하는 "사용자"는 봇일 가능성이 큽니다.캡차 챌린지도 봇과 실제 사용자를 구분하는 데 도움이 될 수 있습니다.

Cloudflare 봇 관리는 다른 종류의 악의적 트래픽에 대한 봇 완화와 함께 콘텐츠 스크래핑 공격을 차단하도록 설계되었습니다. 레이트 리미팅 또는 캡차 솔루션과 달리 머신 러닝 기반 Cloudflare 봇 관리는 행동 패턴을 기반으로 봇을 식별할 수 있으므로 사용자의 마찰이 적고 긍정 오류(사용자가 실수로 봇으로 식별함)가 줄어듭니다. 소규모 조직에서도 콘텐츠 스크래핑 공격을 차단할 수 있으며, 이제 Cloudflare Pro 및 Business 요금제에서 사용할 수 있는 Super Bot Fight Mode로 봇 트래픽에 대한 가시성을 확보할 수 있습니다.