¿Qué es la conmutación por error del servidor? | Significado de la conmutación por error

En la conmutación por error del servidor, se configura un servidor de reserva para que tome el relevo cuando el servidor principal falle. Más información sobre cómo funciona la conmutación por error del servidor y por qué es fundamental para la recuperación ante desastres.

Objetivos de aprendizaje

Después de leer este artículo podrás:

  • Definir la conmutación por error del servidor
  • Entender por qué la conmutación por error del servidor es importante para la recuperación ante desastres y para aumentar la disponibilidad del sitio
  • Explicar cómo funcionan las diferentes configuraciones de conmutación por error del servidor

Copiar enlace del artículo

¿Qué es la conmutación por error del servidor?

La conmutación por error del servidor es la práctica de tener un servidor (o servidores) de reserva preparado para tomar el relevo de forma automática si se desconecta el servidor principal. La conmutación por error del servidor funciona como un generador de reserva. Cuando se va la luz en un edificio o en una casa, un generador de reserva restablece temporalmente la electricidad. Del mismo modo, en la conmutación por error del servidor, un servidor secundario toma el relevo cuando falla el servidor primario. El objetivo de la conmutación por error del servidor es mejorar la tolerancia a los fallos de una red o un sitio web, o su capacidad para seguir funcionando cuando falla una de sus partes.

El trabajo principal de un servidor es almacenar contenidos y datos para compartirlos con otros ordenadores. Aunque hay diferentes tipos de servidores, los servidores web son quizás los más conocidos, porque mantienen operativos los sitios web y las aplicaciones. Cuando los servidores web fallan, no pueden procesar las solicitudes, lo que significa que no pueden servir datos a los clientes. Sin la conmutación por error del servidor, un servidor que falle puede causar un error de carga o una interrupción del sitio.

Los servidores pueden fallar por muchas razones, como por ejemplo:

  • Cortes de energía
  • Catástrofes naturales
  • Aumentos inesperados del tráfico
  • Ciberataques (como ataques de Denegación de servicio distribuido (DDoS) )
  • Complicaciones de hardware (como problemas con los cables o sobrecalentamiento)
  • Problemas con el sistema operativo

Aunque nadie puede predecir del todo cuándo o cómo puede fallar un servidor, los responsables de TI saben que el fallo del servidor es inevitable. La conmutación por error es un plan de reserva que ayuda a evitar una interrupción total.

La conmutación por error suele ir acompañada de un proceso conocido como equilibrio de carga. Los equilibradores de carga aumentan la disponibilidad y el rendimiento de las aplicaciones al distribuir el tráfico entre más de un servidor. Para garantizar que las solicitudes se asignan a los servidores que pueden gestionar el tráfico, muchos equilibradores de carga supervisan el estado de los servidores e implementan la conmutación por error.

¿Qué es la redundancia de los servidores?

La redundancia de los servidores es una medida de cuántos servidores de reserva hay para respaldar un servidor primario. Por ejemplo, un sitio alojado en un servidor sin copias de seguridad no es redundante. La configuración de la conmutación por error crea una redundancia de servidores que mejora la disponibilidad y evita las interrupciones. "Disponibilidad" describe la cantidad de tiempo en la que un sitio o una aplicación está en línea.

¿Cuál es la diferencia entre conmutación por error y switchover?

Los términos "conmutación por error" y "switchover" se confunden a veces. En la conmutación por error, el cambio a un servidor redundante se produce de forma automática. Switchover es un proceso similar, solo que el cambio al servidor secundario se produce de forma manual, lo cual crea un breve periodo de inactividad. Ya que la conmutación por error se produce de forma automática, no suele haber tiempo de inactividad asociado al cambio a un servidor secundario.

¿Cómo funciona la conmutación por error del servidor?

Para que la conmutación por error del servidor funcione, los servidores deben estar conectados para que puedan detectar los problemas y tomar el control cuando sea necesario. Los cables físicos de "latido" pueden conectar los servidores y permitir la monitorización, al igual que un monitor de latido sigue los latidos del corazón de una persona. La supervisión de los servidores también puede realizarse por Internet.

Por ejemplo, el equilibrio de carga de Cloudflare envía periódicamente solicitudes HTTP/HTTPS a grupos de servidores para supervisar su estado. Si la comprobación de HTTP/HTTPS revela que un servidor está en mal estado o está desconectado, Cloudflare redirigirá el tráfico a un servidor disponible.

En función de la configuración, la conmutación por error funciona de forma ligeramente diferente. Las configuraciones de conmutación por error del servidor son activo-activo o activo-en espera.

Activo-en espera

En el modo activo-en espera, hay un servidor primario y uno o varios secundarios. En una configuración de dos servidores, el servidor secundario supervisa al primario, pero por lo demás permanece inactivo. Si el servidor secundario detecta algún cambio en el servidor primario, tomará el relevo y avisará al centro de datos de que el servidor primario necesita ser restaurado. Una vez restaurado el servidor primario, vuelve a tomar el relevo, y el servidor secundario retoma una posición de espera. El acto de reanudar las operaciones de un servidor primario se denomina conmutación por recuperación.

Activo-activo

En cambio, en una configuración activo-activo de dos servidores, ambos deben permanecer activos. Una configuración activo-activo suele estar asociada al equilibrio de carga, porque los servidores están configurados de la misma manera y comparten la carga de trabajo. Cuando un servidor falla en una configuración activo-activo, el tráfico se dirige al servidor o servidores operativos.

¿Por qué es necesaria la conmutación por error del servidor?

La conmutación por error del servidor es importante porque el fallo de un solo servidor podría dejar fuera de servicio un sitio que no la tuviera.

La disponibilidad del servidor puede afectar a los diversos sectores de forma diferente. Por ejemplo, las empresas de comercio electrónico y de videojuegos dependen completamente de que su sitio web funcione correctamente. Otros sectores, como las empresas de SaaS B2B, corren el riesgo de molestar a sus usuarios finales si no pueden acceder a la información que necesitan para hacer su trabajo. Al mismo tiempo, la disponibilidad es innegociable para los sectores que satisfacen necesidades urgentes, como los servicios médicos o de emergencia.

Además de la disponibilidad, la conmutación por error es un componente importante de la mayoría de los planes de recuperación ante desastres. Los planes de recuperación ante desastres incluyen escenarios como copias de seguridad fallidas, caída de la red o incluso cortes de energía. La recuperación ante desastres ayuda a las empresas a mantener la continuidad del negocio y evitar la pérdida de ingresos asociada al tiempo de inactividad.

¿Qué es un clúster de conmutación por error?

Un clúster de conmutación por error hace referencia a un grupo de dos o más servidores que trabajan juntos para hacer posible la conmutación por error. Los clusters de conmutación por error crean la redundancia de servidores que permite la alta disponibilidad (HA) o la disponibilidad continua (CA).

Los sistemas que aspiran a tener el menor tiempo de inactividad posible (o un 99,999% de tiempo de actividad) se consideran de HA. Si un sistema de HA experimenta un tiempo de inactividad, este solo debe durar unos segundos o minutos. Los sectores altamente regulados, como los servicios gubernamentales, pueden necesitar cumplir con normas de alta disponibilidad por motivos de cumplimiento.

En cambio, los sistemas de CA están creados para evitar cualquier tiempo de inactividad. Que no haya tiempo de inactividad significa que los usuarios pueden seguir conectados a un sitio o aplicación en todo momento, incluso durante el período de mantenimiento. Por ejemplo, un área en la que la CA puede ser necesaria es en el comercio bursátil en línea, donde las transacciones suelen ser urgente. Los sistemas de CA son más complejos de construir y mantener porque deben tener en cuenta todos los puntos de fallo, desde los servidores hasta la ubicación física y el acceso al sistema de alimentación.

¿Qué es la conmutación por error rápida?

Como las configuraciones de conmutación por error pueden funcionar de forma ligeramente diferente, la velocidad a la que esta puede variar. Algunos equilibradores de carga ofrecen una conmutación por error rápida, lo que significa que el sistema supervisa el estado del servidor y puede conmutar rápidamente cuando sea necesario. La conmutación por error rápida es fundamental para conseguir HA o CA.

El Equilibrio de carga de Cloudflare consigue una conmutación por error rápida al supervisar de forma activa los servidores y al redireccionar de forma instantánea el tráfico cuando se detecta un problema, lo que se traduce en un tiempo de inactividad nulo. Más información sobre el Equilibrio de carga de Cloudflare.