좋은 봇 관리 방법 | 좋은 봇과 나쁜 봇의 비교

관리해야 할 것은 나쁜 봇만이 아닙니다. 봇 관리 전략은 좋은 봇은 차단하지 않고 나쁜 봇을 완화해야 합니다.

학습 목표

이 글을 읽은 후에 다음을 할 수 있습니다:

  • 좋은 봇과 악성 봇의 차이를 알아보세요
  • 좋은 봇을 "좋은" 것으로 만드는 요소와 좋은 봇이 웹 속성에 액세스할 수 있어야 하는 이유 이해하기
  • 좋은 봇과 나쁜 봇을 관리하기 위한 효과적인 전략 알아보기

관련 콘텐츠


계속 알아보시겠어요?

인터넷에서 가장 인기 있는 인사이트를 한 달에 한 번 정리하는 Cloudflare의 월간 요약본 theNET를 구독하세요!

Cloudflare가 개인 데이터를 수집하고 처리하는 방법은 Cloudflare의 개인정보 취급방침을 참조하세요.

글 링크 복사

좋은 봇이란?

좋은 봇 - 챗봇, 모니터링 봇, 검색 엔진 봇

은 인터넷을 통해 웹 자산과의 상호 작용을 자동화하는 컴퓨터 프로그램입니다."좋은" 봇은 인터넷에서 사용자의 경험에 해롭지 않은 유용하거나 유용한 작업을 수행하는 모든 봇을 가리킵니다.좋은 봇은 악의적 봇과 유사한 특성을 공유할 수 있으므로 봇 관리 전략을 세울 때 좋은 봇이 차단되지 않도록 하는 것이 과제입니다.

각기 다른 작업을 위해 설계된 많은 종류의 좋은 봇이 있습니다. 몇 가지 예를 들어보겠습니다.

  • 검색 엔진 봇: 웹 크롤러 또는 스파이더라고도 하는 이 봇은 인터넷의 거의 모든 웹 사이트에서 콘텐츠를 "크롤링"하거나 검토한 다음 해당 콘텐츠를 색인화하여 관련 사용자 검색에 대한 검색 엔진 결과에 표시할 수 있습니다.이러한 봇은 Google, Bing, Yandex 등의 검색 엔진에서 운영합니다.
  • 저작권 봇: 플랫폼이나 웹 사이트를 크롤링하여 저작권법을 위반할 수 있는 콘텐츠를 찾는 봇입니다.이 봇은 저작권이 있는 자료를 소유한 사람이나 회사에서 운영할 수 있습니다.저작권 봇은 복제된 텍스트, 음악, 이미지, 비디오를 검색할 수 있습니다.
  • 사이트 모니터링 봇: 이 봇은 웹 사이트 메트릭(예: 백링크 또는 시스템 중단 모니터링)을 모니터링하고 주요 변경 사항이나 다운타임을 사용자에게 알릴 수 있습니다.예를 들어 Cloudflare는 원본 서버가 다운된 경우 웹 페이지의 캐시된 버전을 제공하도록 Cloudflare 네트워크에 지시하는 Always Online이라는 크롤러 봇을 운영합니다.
  • 상업용 봇: 정보를 얻기 위해 인터넷을 크롤링하는 영리 기업에서 운영하는 봇입니다.이러한 봇은 뉴스 보고서 또는 고객 리뷰를 모니터링하는 시장 조사 회사, 광고가 표시되는 장소를 최적화하는 광고 네트워크, 고객의 웹 사이트를 크롤링하는 SEO 대행사 등에서 운영할 수 있습니다.
  • 피드 봇: 이 봇은 인터넷을 크롤링하여 플랫폼의 뉴스 피드에 추가할 뉴스 가치가 있는 콘텐츠를 찾습니다.콘텐츠 수집 사이트 또는 소셜 미디어 네트워크에서 이러한 봇을 운영할 수 있습니다.
  • 챗봇: 챗봇은 사전 프로그래밍된 응답으로 사용자에게 응답하여 사람의 대화를 모방합니다.일부 챗봇은 긴 대화를 계속하기에 충분할 정도로 복잡합니다.
  • 개인 비서 봇: Siri 또는 Alexa와 같은 프로그램입니다. 이러한 프로그램은 일반 봇보다 훨씬 더 발전되었지만, 그럼에도 불구하고 봇입니다. 즉, 웹에서 데이터를 검색하는 컴퓨터 프로그램입니다.

좋은 봇과 나쁜 봇의 비교

웹 자산은 악성 봇 트래픽을 필터링하려고 시도할 때 이러한 종류의 봇을 차단하지 않도록 설정되어야 합니다.검색 엔진 웹 크롤러 봇이 차단되지 않는 것이 특히 중요합니다. 웹 크롤러 봇이 없으면 웹 사이트를 검색 결과에 표시할 수 없기 때문입니다.

나쁜 봇은 데이터를 훔치고, 사용자 계정에 침입하며, 온라인 양식을 통해 정크 데이터를 제출하고, 기타 악의적인 활동을 수행할 수 있습니다.불량 봇의 유형에는 자격 증명 스터핑 봇, 콘텐츠 스크래핑 봇, 스팸 봇, 클릭 사기 봇 등이 있습니다.

robots.txt란?

좋은 봇 관리는 웹 사이트의 robots.txt 파일에 규칙을 올바르게 설정하는 것부터 시작됩니다.robots.txt 파일은 웹 서버에 있는 텍스트 파일이며 호스팅된 웹 사이트 또는 애플리케이션에 액세스하는 모든 봇에 대한 규칙을 지정합니다.이러한 규칙은 봇이 크롤링할 수 있는 페이지와 크롤링할 수 없는 페이지, 따라야 하는 링크와 따르지 말아야 하는 링크, 봇 동작에 대한 기타 요구 사항을 정의합니다.

좋은 봇은 이러한 규칙을 따릅니다. 예를 들어 웹 사이트 소유자가 사이트의 특정 페이지가 Google 검색 결과에 표시되는 것을 원하지 않는 경우 robots.txt 파일에 규칙을 작성할 수 있으며 Google 웹 크롤러 봇은 해당 페이지의 색인을 생성하지 않습니다. robots.txt 파일이 실제로 이러한 규칙을 적용할 수는 없지만, 좋은 봇은 다른 작업을 수행하기 전에 파일을 찾고 규칙을 따르도록 프로그래밍되어 있습니다.

그러나 나쁜 봇은 종종 robots.txt 파일을 무시하거나 웹 사이트가 봇으로부터 접근 금지를 유지하려는 콘텐츠를 파악하기 위해 파일을 읽은 다음 해당 콘텐츠에 액세스합니다. 따라서 봇을 관리하려면 robots.txt 파일에 봇 동작에 대한 규칙을 단순히 배치하는 것보다 더 적극적인 접근 방식이 필요합니다.

허용 목록이란?

허용 목록은 이벤트 참석자 목록과 같다고 생각하면 됩니다. 참석자 명단에 없는 사람이 이벤트에 입장하려고 하면 보안 요원이 입장을 저지합니다. 목록에 있는 사람은 누구나 이벤트에 자유롭게 참여할 수 있습니다. 초대받지 않은 손님이 나쁜 행동을 하고 다른 모든 사람들의 파티를 망칠 수 있기 때문에 그러한 접근 방식이 필요합니다.

봇 관리의 경우 기본적으로 허용 목록이 작동하는 방식입니다.허용 목록은 웹 자산에 액세스할 수 있는 봇 목록입니다.일반적으로 이것은 "사용자 에이전트"나 봇의 IP 주소나 이 둘의 조합을 통해 작동합니다.사용자 에이전트는 웹 서버에 접속하려는 사용자(또는 봇) 유형을 식별하는 텍스트 문자열입니다.

검색 엔진에 속한 봇과 같은 허용된 좋은 봇 사용자 에이전트 목록을 유지하고 목록에 없는 봇을 차단하여, 웹 서버는 좋은 봇이 액세스하는 것을 보장할 수 있습니다.

웹 서버에는 알려진 나쁜 봇의 차단 목록도 있을 수 있습니다.

차단 목록이란 무엇입니까?

네트워킹과 관련하여, 차단 목록은 서버, 네트워크, 웹 자산에 액세스할 수 없는 IP 주소, 사용자 에이전트, 기타 온라인 ID 표시기의 목록입니다. 이는 허용 목록을 사용하는 것과는 약간 다른 접근 방식입니다. 차단 목록을 기반으로 하는 봇 관리 전략은 해당 특정 봇을 차단하고 다른 모든 봇은 통과하도록 허용하는 반면, 허용 목록 전략은 지정된 봇만 통과시키고 나머지는 모두 차단합니다.

허용 목록이 좋은 봇을 허용하고 나쁜 봇을 차단하기에 충분할까요?

도둑이 게스트 목록에 있는 척하면서 이벤트에 잠입하기 위해 가짜 ID 카드를 사용하는 것처럼, 나쁜 봇도 사용자 에이전트 문자열을 가짜로 만들어 적어도 처음에는 좋은 봇처럼 보이게 할 수 있습니다.

따라서 좋은 봇을 허용하는 목록은 행동 분석이나 머신 러닝과 같은 스푸핑을 감지하는 다른 접근 방식과 결합해야 합니다. 이는 단순히 알려진 좋은 봇을 허용하는 것 외에도 나쁜 봇과 알려지지 않은 좋은 봇을 모두 사전에 식별하는 데 도움이 됩니다.

봇 관리자 솔루션은 무엇을 할까요?

봇 관리자 제품을 사용하면 좋은 봇이 웹 자산에 액세스하도록 허용하는 한편, 나쁜 봇을 차단할 수 있습니다.Cloudflare Bot Management는 머신 러닝 및 전체 네트워크의 트래픽에 대한 행동을 분석하여 나쁜 봇을 탐지하는 한편, 자동으로 좋은 봇을 허용 목록에 지속해서 추가합니다.이제 Cloudflare Pro 및 Business 요금제에 포함된 Super Bot Fight Mode를 통해 소규모 조직에서도 유사한 기능을 사용할 수 있습니다.