서버 장애 조치란? | 장애 조치의 의미

서버 장애 조치에서는 기본 서버에 장애가 발생했을 때 백업 서버가 이를 대신하도록 설정됩니다. 서버 장애 조치의 작동 방식과 재해 복구에 서버 장애 조치가 중요한 이유를 알아보세요.

학습 목표

이 글을 읽은 후에 다음을 할 수 있습니다:

  • 서버 장애 조치의 정의
  • 서버 장애 조치가 재해 복구 및 사이트 가용성 향상에 중요한 이유 이해
  • 다양한 서버 장애 조치 구성이 어떻게 작동하는지 설명

관련 콘텐츠


계속 알아보시겠어요?

인터넷에서 가장 인기 있는 인사이트를 한 달에 한 번 정리하는 Cloudflare의 월간 요약본 theNET를 구독하세요!

Cloudflare가 개인 데이터를 수집하고 처리하는 방법은 Cloudflare의 개인정보 취급방침을 참조하세요.

글 링크 복사

Cloudflare Pro 요금제 및 속도 도구 추가 기능으로 웹 사이트 성능 향상

서버 장애 조치란?

서버 장애 조치란 기본 서버가 오프라인 상태가 될 경우 자동으로 서버를 인수할 수 있도록 백업 서버를 준비하는 것을 말합니다. 서버 장애 조치는 백업 발전기처럼 작동합니다. 건물이나 가정에 정전이 발생하면 백업 발전기가 일시적으로 전기를 복구합니다. 마찬가지로 서버 장애 조치에서는 기본 서버에 장애가 발생하면 보조 서버가 이를 대신합니다. 서버 장애 조치의 목표는 네트워크 또는 웹 사이트의 내결함성, 즉 부품 중 하나에 장애가 발생했을 때 계속 작동할 수 있는 기능을 개선하는 것입니다.

서버의 주요 역할은 다른 컴퓨터와 공유할 콘텐츠와 데이터를 저장하는 것입니다. 서버에는 여러 유형이 있지만, 웹 서버는 웹 사이트와 애플리케이션을 계속 작동시키기 때문에 가장 잘 알려져 있습니다. 웹 서버에 장애가 발생하면 요청을 처리할 수 없으므로 클라이언트에 데이터를 제공할 수 없습니다. 서버 장애 조치 없이 서버에 장애가 발생하면 로딩 오류 또는 사이트 중단이 발생할 수 있습니다.

서버에는 다음과 같은 여러 가지 이유로 장애가 발생할 수 있습니다.

  • 정전
  • 자연 재해
  • 예상치 못한 트래픽 급증
  • 사이버 공격[예: 분산 서비스 거부(DDoS) 공격]
  • 하드웨어 문제(케이블 문제 또는 과열 등)
  • 운영 체제 문제

서버가 언제 어떻게 장애를 일으킬지 완벽하게 예측할 수 있는 사람은 아무도 없지만, IT 리더는 서버 장애가 불가피하다는 것을 알고 있습니다. 장애 복구는 완전한 중단을 방지하는 데 도움이 되는 백업 계획입니다.

장애 조치는 종종 부하 분산이라는 프로세스와 함께 진행됩니다.부하 분산 장치는 둘 이상의 서버에 트래픽을 분산하여 애플리케이션 가용성과 성능을 향상합니다.트래픽을 처리할 수 있는 서버에 요청이 할당되도록 하기 위해 많은 부하 분산 장치가 서버 상태를 모니터링하고 장애 조치를 구현합니다.

서버 이중화란?

서버 이중화는 기본 서버를 지원하기 위해 얼마나 많은 백업 서버가 준비되어 있는지를 측정하는 것입니다. 예를 들어 백업이 없는 하나의 서버에서 호스팅되는 사이트는 이중화되어 있지 않습니다. 장애 조치를 구성하면 가용성을 개선하고 중단을 방지하는 서버 이중화가 생성됩니다. "가용성"은 사이트 또는 애플리케이션이 온라인 상태인 시간을 말합니다.

장애 조치와 전환의 차이점은?

"장애 조치" 및 "전환" 이라는 용어는 때때로 서로 혼용되는 경우가 있습니다. 장애 조치 시 이중화 서버로의 전환은 자동으로 이루어집니다. 전환 과정도 비슷하지만, 보조 서버로의 전환만 수동으로 이루어지므로 짧은 시간 동안 다운타임이 발생합니다. 장애 조치는 자동으로 수행되므로 일반적으로 보조 서버로의 전환과 관련된 다운타임이 발생하지 않습니다.

서버 장애 조치는 어떻게 작동할까요?

서버 장애 조치가 작동하려면 서버가 문제를 감지하고 필요할 때 인계받을 수 있도록 서버가 연결되어 있어야 합니다. 심장박동 모니터가 사람의 심장박동을 추적하는 것처럼 물리적 '하트비트' 케이블을 통해 서버를 연결하고 모니터링할 수 있습니다. 서버 모니터링은 인터넷을 통해서도 수행할 수 있습니다.

예를 들어, Cloudflare 부하 분산은 서버 풀의 상태를 모니터링하기 위해 주기적으로 HTTP/HTTPS 요청을 서버 풀에 보냅니다. HTTP/HTTPS 검사에서 서버가 정상적이지 않거나 오프라인 상태인 것으로 확인되면 Cloudflare는 트래픽을 사용 가능한 서버로 재라우팅합니다.

구성에 따라 장애 조치는 약간 다르게 작동합니다. 서버 장애 조치 구성은 활성-활성 또는 활성-대기 중 하나입니다.

활성-대기

활성-대기 상태에서는 기본 서버와 하나 이상의 보조 서버가 있습니다. 두 개의 서버 설정에서 보조 서버는 기본 서버를 모니터링하지만, 그 외에는 비활성 상태로 유지됩니다. 보조 서버가 주 서버의 변경 사항을 감지하면 주 서버를 대신하여 데이터 센터에 주 서버 복원이 필요하다는 사실을 알립니다. 기본 서버가 복원되면 다시 한 번 인계받고 보조 서버는 대기 상태가 됩니다. 기본 서버가 작업을 재개하는 행위를 장애 복구라고 합니다.

활성-활성

반면, 2개의 서버 활성-활성 구성에서는 두 서버 모두 활성 상태를 유지해야 합니다. 활성-활성 구성은 서버가 동일한 방식으로 구성되고 작업 부하를 공유하므로 일반적으로 부하 분산과 관련이 있습니다. 활성-활성 구성에서 서버에 장애가 발생하면 트래픽은 운영 중인 서버로 라우팅됩니다.

서버 장애 조치가 필요한 이유는?

서버 장애 조치는 단일 서버의 장애로 인해 사이트가 오프라인 상태가 될 수 있으므로 중요합니다.

서버 가용성은 산업별로 다르게 영향을 미칠 수 있습니다. 예를 들어 전자 상거래 및 게임 회사에서는 사이트가 제대로 작동하는지에 전적으로 의존합니다. B2B SaaS 기업과 같은 다른 산업에서는 최종 사용자가 업무 수행에 필요한 정보에 액세스할 수 없는 경우 업무에 차질을 빚을 위험이 있습니다. 동시에 의료 또는 응급 서비스와 같이 긴급한 요구 사항을 충족하는 산업에서는 가용성을 타협할 수 없습니다.

가용성 외에도 장애 조치는 대부분의 재해 복구 계획에서 중요한 구성 요소입니다. 재해 복구 계획에는 백업 실패, 네트워크 다운, 정전 등의 시나리오가 포함됩니다. 재해 복구는 기업에서 비즈니스 연속성을 유지하고 다운타임으로 인한 매출 손실을 방지하는 데 도움이 됩니다.

장애 조치 클러스터란?

장애 조치 클러스터는 장애 조치를 가능하게 하기 위해 함께 작동하는 두 개 이상의 서버 그룹을 말합니다. 장애 조치 클러스터는 고가용성(HA) 또는 연속 가용성(CA)을 가능하게 하는 서버 이중화를 생성합니다.

가동 중지 시간을 최대한 줄이는 것을 목표로 하는 시스템(또는 99.999% 가동 시간)을 HA로 간주합니다. HA 시스템에서 다운타임이 발생하는 경우, 한 번에 몇 초 또는 몇 분 동안만 지속되어야 합니다. 정부 서비스처럼 규제가 심한 산업에서는 규정 준수 목적으로 고가용성 표준을 충족해야 할 수 있습니다.

반면에 CA 시스템은 다운타임이 전혀 발생하지 않도록 설계되었습니다. 다운타임이 없다는 것은 유지보수 중에도 사용자가 사이트나 애플리케이션에 항상 연결 상태를 유지할 수 있다는 의미입니다. 예를 들어, CA가 필요할 수 있는 영역 중 하나는 거래가 시간에 매우 민감한 온라인 주식 거래입니다. CA 시스템은 서버부터 물리적 위치, 전원 액세스에 이르기까지 모든 장애 지점을 고려해야 하므로 구축 및 유지 관리가 더 복잡합니다.

빠른 장애 조치란?

장애 조치 구성이 약간 다르게 작동할 수 있으므로 장애 조치가 일어나는 속도도 다를 수 있습니다. 일부 부하 분산 장치는 빠른 장애 조치를 제공하므로 시스템이 서버 상태를 모니터링하고 필요할 때 신속하게 장애 조치를 수행할 수 있습니다. 빠른 장애 복구는 HA 또는 CA를 달성하는 데 필수적입니다.

Cloudflare 부하 분산은 서버를 능동적으로 모니터링하고 문제가 감지되면 즉시 트래픽을 재라우팅하여 빠른 장애 조치를 달성하므로 다운타임이 발생하지 않습니다. Cloudflare Load Balancing을 자세히 알아보세요.