공격자들은 웹 스크래핑 도구를 이용해 원래 의도된 것보다 훨씬 빠르게 데이터에 액세스할 수 있습니다. 이로 인해 데이터가 무단으로 사용될 수 있습니다.
이 글을 읽은 후에 다음을 할 수 있습니다:
관련 콘텐츠
인터넷에서 가장 인기 있는 인사이트를 한 달에 한 번 정리하는 Cloudflare의 월간 요약본 theNET를 구독하세요!
글 링크 복사
가장 일반적인 형태의 데이터 스크래핑은 컴퓨터 프로그램이 다른 프로그램에서 생성된결과물로부터 데이터를 추출하는 기법을 말합니다. 데이터 스크래핑은, 애플리케이션을 이용해 웹사이트에서 중요한 정보를 추출하는 과정을 말하는 웹 스크래핑에서 나타나는 경우가 많습니다.
대부분의 회사들은 회사 고유의 콘텐츠를 무단으로 다운로드하여 재사용하는 것을 원하지 않습니다. 따라서, 소모성 API 또는 쉽게 액세스할 수 있는 자원을 통해 모든 데이터를 공개하지는 않습니다. 반면에, 스크래퍼 봇은 액세스를 제한하려는 노력에도 불구하고 웹사이트 데이터를 얻고자 합니다. 그 결과, 웹 스크래핑 봇과 다양한 콘텐츠 보호 전략 사이에는 쥐와 고양이 같은 게임이 존재하며, 서로 이 게임에서 이기려 합니다.
웹 스크래핑의 실제 구현은 복잡할 수 있지만, 절차는 매우 간단한 3단계로 이루어집니다.
스크래퍼 봇은 다음과 같은 다양한 목적을 위해 만들 수있습니다.
일반적으로 웹사이트 방문자가 볼 수 있는 모든 콘텐츠는 방문자의 컴퓨터로 전송되어야 하며, 방문자가 액세스할 수 있는 모든 정보는 봇이 스크래핑할 수 있습니다.
웹 스크래핑은 줄일 수 있습니다.데이터 스크래핑을 줄이기 위한 방법에는 세 가지 방법은 다음과 같습니다.
이외에도 많이 쓰이지는 않지만, 이미지 같은 미디어 개체 내부에 콘텐츠를 넣는 완화 방법도 이용됩니다. 컨텐츠가 일련의 문자열 내에 존재하지 않기 때문에, 컨텐츠를 복사하는 것이 훨씬 더 복잡하며, 이미지 파일에서 데이터를 가져 오기 위해서는 광학 문자 인식(OCR)이 필요합니다. 그러나, 이는 주소나 전화번호 같은 콘텐츠를 기억하거나 메모하는 대신 복사해야 하는 웹 사용자도 방해할 수 있습니다.
*헤드리스 브라우저는 Chrome 또는 Firefox 등과 매우 유사한 웹 브라우저이지만, 기본적으로 시각적 사용자 인터페이스가 없어 일반적인 웹 브라우저보다 훨씬 빠르게 이동할 수 있습니다. 기본적으로 명령줄 수준에서 실행하므로, 전체 웹 애플리케이션 렌더링을 피하는 것이 가능합니다. 데이터 스크래퍼는 스크래핑되는 페이지를 보는 사람이 없으므로, 헤드리스 브라우저를 사용하여 데이터를 빠르게 요청하는 봇을 작성합니다.
웹 스크래핑을 완전히 막는 방법은 웹사이트에 아무런 콘텐츠도 넣지 않는 방법밖에 없습니다. 그러나, 고급 봇 관리 솔루션을 사용하면, 스크래퍼 봇의 액세스를 거의 완벽하게 차단할 수 있습니다.
크롤링은 Google과 같은 대규모 검색 엔진에서 GoogleBot과 같은 로봇 크롤러를 인터넷에 보내 인터넷 콘텐츠를 색인화하는 과정을 말합니다. 반면에, 스크래핑은 일반적으로 특정 웹 사이트에서 데이터를 추출하도록 특별히 구성됩니다.
다음은 스크래퍼 봇이 웹 크롤러 봇과 다르게 동작하는 세 가지 방식입니다.
Cloudflare 봇 관리는 머신 러닝 및 행태 분석을 통해 스크래퍼 같은 악의적인 봇을 식별하여 고유의 콘텐츠를 보호하고 봇이 웹 자산을 악용하지 못하도록 합니다. 이와 유사하게, Cloudflare Pro 요금제와 Business 요금제에서 현재 제공되는 슈퍼 봇 차단 모드는 소규모 조직에 봇 트래픽에 대한 가시성을 높여주고 스크래퍼와 기타 악성 봇에 대하여 방어하도록 지원합니다.