在服务器故障转移中,备份服务器设置为在主服务器发生故障时接管。了解服务器故障转移的工作原理以及它为何对灾难恢复至关重要。
阅读本文后,您将能够:
相关内容
订阅 TheNET,这是 Cloudflare 每月对互联网上最流行见解的总结!
复制文章链接
服务器故障转移是让一个或多个备用服务器准备好在主服务器脱机时自动接管的做法。服务器故障转移就像一个备用发电机。当建筑物或家庭停电时,备用发电机会暂时恢复电力。同样,在服务器故障转移中,当主服务器发生故障时,辅助服务器会接管。服务器故障转移的目标是提高网络或网站的容错能力,或在其中一个部分发生故障时继续运行的能力。
服务器的主要工作是存储内容和数据以与其他计算机共享。虽然有不同类型的服务器,但 Web 服务器可能是最著名的,因为它们使网站和应用程序保持运作。当 Web 服务器出现故障时,它们无法处理请求,这意味着它们无法向客户端提供数据。如果没有服务器故障转移,故障服务器可能会导致加载错误或站点中断。
服务器可能因许多原因而无法运行,例如:
虽然没有人可以完全预测服务器何时或如何发生故障,但 IT 领导者知道服务器故障是不可避免的。故障转移是一种备份计划,有助于防止完全中断。
故障转移往往与一个称为负载平衡的过程同时进行。负载平衡器通过在多台服务器上分配流量来提高应用程序的可用性和性能。为了确保将请求分配给能够处理流量的服务器,许多负载平衡器会监控服务器的运行状况并实施故障转移。
服务器冗余用于衡量配置了多少备份服务器来支持主服务器。例如,如果一个站点托管在没有备份的一台服务器上,则表示它没有冗余。配置故障转移会创建服务器冗余,从而提高可用性并防止中断。“可用性”描述了站点或应用程序在线的时间量。
术语“故障转移”和“切换”有时会相互混淆。在故障转移中,会自动转移到冗余服务器。切换是一个类似的过程,只是手动切换到辅助服务器,会造成短暂的停机时间。因为故障转移是自动发生的,所以通常不会出现与切换到辅助服务器相关的停机时间。
要使服务器故障转移正常运作,必须连接服务器,以便它们能够感知问题并在必要时接管。物理“检测信号”电缆可以连接服务器并进行监控,就像心跳监视器跟踪一个人的心跳一样。服务器监控也可以通过互联网进行。
例如,Cloudflare 负载平衡会定期向服务器池发送 HTTP/HTTPS 请求以监控其状态。如果 HTTP/HTTPS 检查显示服务器不健康或离线,Cloudflare 会将流量重新路由到可用服务器。
根据配置,故障转移的工作方式略有不同。服务器故障转移配置是主动-主动或主动-待机。
在主动-待机模式下,有一个主服务器和一个或多个辅助服务器。在双服务器设置中,辅助服务器监控主服务器,但在其他方面保持不活动状态。如果辅助服务器感知到主服务器有任何变化,它将接管并通知数据中心主服务器需要恢复。一旦主服务器恢复,它将再次接管,辅助服务器恢复待机位置。主服务器恢复操作的行为称为故障回复。
相比之下,在双服务器主动-主动配置中,两个服务器都必须保持活动状态。主动-主动配置通常与负载平衡有关,因为服务器是以相同的方式配置的,并分担工作负荷。在主动-主动配置中,当一台服务器出现故障时,流量会流向正在运行的服务器。
服务器故障转移很重要,因为单个服务器的故障可能使站点脱机。
服务器可用性会对行业产生不同的影响。例如,电子商务和游戏公司完全依赖于他们的网站正常运行。其他行业,如 B2B SaaS 公司,如果无法访问完成工作所需的信息,则可能会让最终用户感到苦恼。同时,对于满足紧急需求的行业(如医疗或紧急服务)而言,可用性是不可协商的。
除了可用性之外,故障转移是大多数灾难恢复计划的重要组成部分。灾难恢复计划包括备份失败、网络中断甚至断电等场景。灾难恢复可帮助公司保持业务连续性并避免与停机相关的收入损失。
故障转移群集是指一组两个或多个服务器一起工作以使故障转移成为可能。故障转移群集创建了支持高可用性 (HA) 或连续可用性 (CA) 的服务器冗余。
以尽可能少的停机时间(或 99.999% 的正常运行时间)为目标的系统被视为 HA。如果 HA 系统出现停机,它一次应该只持续几秒钟或几分钟。政府服务之类高度监管的行业可能需要满足高可用性标准以达到合规目的。
另一方面,CA 系统的创建是为了完全避免任何停机时间。无停机意味着用户可以始终保持与站点或应用程序的连接,即使在维护期间也是如此。例如,可能需要 CA 的一个领域是在线股票交易,该领域的交易对时间高度敏感。CA 系统的构建和维护更加复杂,因为它们必须考虑从服务器到物理位置再到电源访问的每一个故障点。
由于故障转移配置的运行方式可能略有不同,因此故障转移发生的速度可能会有所不同。一些负载平衡器提供快速故障转移,这意味着系统会监控服务器运行状况并在需要时快速进行故障转移。快速故障转移对于实现 HA 或 CA 至关重要。
Cloudflare 负载平衡通过主动监控服务器并在检测到问题时立即重新路由流量来实现快速故障转移,从而实现零停机时间。了解有关 Cloudflare 负载平衡的更多信息。