Punto único de falla | Una descripción general simple

En el campo de la tecnología de la información, el diseño de sistemas implica el proceso de determinar la arquitectura, las interfaces, los módulos y los datos para que un sistema cumpla con ciertos requisitos. Es un proceso crucial para mejorar la eficiencia del desarrollo de productos / servicios y permitir una excelente experiencia de usuario.

Supongamos que tiene una aplicación que atiende a millones de usuarios todos los días. En el lado del servidor, debe tener una ingeniería excelente para manejar un volumen tan grande de solicitudes. Las solicitudes del servidor nunca deben fallar, incluso si hay un problema con la base de datos o una falla de hardware.

Sin embargo, si el backend o el frontend no están diseñados correctamente, un simple error podría cerrar toda la aplicación, desde el servidor hasta la red de toda la computadora. Una de las principales fuentes de tales errores es el punto único de falla (SPOF).

En este artículo de descripción general, hemos explicado por qué SPOF es el peor problema para los profesionales de TI, su fuente común y cómo mitigar tales fallas. Comencemos con una pregunta básica.

¿Qué es el punto único de falla?

Definición: Un solo punto de falla es cualquier parte de un sistema que hace que todo el sistema deje de funcionar si falla. En términos simples, si algo se rompe, todo se estropea.

Los SPOF surgen debido a diseños defectuosos y técnicas de implementación deficientes. No son deseables en ningún sistema, ya sea una aplicación de software, un módulo de hardware, un sistema de fabricación o una práctica comercial.

Por ejemplo, si está ejecutando un sitio web que está alojado en un solo servidor en una ubicación en particular, ese servidor sería un punto único de falla. Si el servidor falla, los visitantes no podrán acceder al sitio web. Este único punto puede detener todas las actividades relacionadas con su sitio web. Si existe tal riesgo en su negocio, debe tomar medidas para mitigar ese riesgo.

¿Cuál es la solución?

La forma más eficaz de reducir el riesgo potencial de SPOF es agregar redundancia. Esto implica la instalación de aplicaciones de software y componentes de hardware redundantes.

Por ejemplo, se pueden usar matrices redundantes de discos independientes (RAID) para almacenar bases de datos de Directory Server, o implementar múltiples instancias duplicadas de Directory Server en diferentes hosts.

Se puede agregar redundancia en diferentes niveles. Tomemos el ejemplo de un taxista independiente. En un nivel bajo, puede tener herramientas y repuestos para reparar el vehículo, en caso de que se averíe. En el nivel medio, puede pedir prestado el taxi de su amigo para hacer el trabajo. En el nivel más alto, puede tener otro automóvil y suficientes componentes para reemplazar completamente las piezas defectuosas en el caso de múltiples fallas.

Ahora, veamos el ejemplo simple de redundancia en informática.

1.) En una configuración simple, podría haber varios posibles puntos únicos de falla.

Figura 1

2.) Se pueden evitar algunos puntos únicos de falla agregando componentes de hardware duplicados.

Figura 2

3). Se puede lograr cero SPOF construyendo un sistema completamente redundante, aunque esta configuración es mucho más costosa que la configuración simple que se muestra en la figura 1.

Figura 3 | Cero SPOF

A nivel del sistema, se puede implementar un equilibrador de carga para garantizar una alta disponibilidad para un clúster de servidores. En este caso, cada servidor puede tener varios discos duros, fuentes de alimentación y otros módulos. Se puede lograr un mayor nivel de redundancia agregando servidores adicionales que podrían asumir una carga de servidores activos si fallan.

El centro de datos en sí admite muchas operaciones, como la lógica empresarial. Por lo tanto, es en sí mismo un SPOF potencial para la empresa, si sus características no se pueden replicar en otro lugar.

En el nivel del sitio (más alto), todo el centro de datos se puede replicar en diferentes configuraciones y se puede acceder a él cuando el servidor principal deja de responder. Este tipo de redundancia suele ser el foco de un programa de recuperación o resiliencia ante desastres de TI.

Para no tener SPOF, las redes grandes, incluidas Internet y ARPANET, utilizan la conmutación de paquetes, una técnica de enrutamiento y transferencia de datos a través de una red digital en paquetes. Utiliza las múltiples rutas entre dos hosts en las redes y usa de manera óptima la capacidad del canal.

Leer:10 organizaciones que controlan Internet

Cuando hay una falla en cualquier nodo entre los dos hosts, los datos se transfieren a través de un nodo alternativo. La conmutación de paquetes también minimiza la latencia de transmisión y aumenta la solidez de la comunicación.

Hay tres protocolos de red que se utilizan ampliamente para evitar el punto único de falla:

Sistema intermedio a sistema intermedio mueve información de manera eficiente dentro de una red informática al determinar la mejor ruta para los datos.
Abra primero la ruta más corta distribuye información de enrutamiento entre enrutadores que pertenecen a un único sistema autónomo. Utiliza el primer algoritmo de ruta más corta (el algoritmo de Dijkstra) para transmitir datos.
Puente de ruta más corta simplifica el desarrollo y la configuración de una red al tiempo que permite el enrutamiento de múltiples rutas.

Evaluación de SPOF

Los tres lugares comunes donde SPOF tiende a aparecer son el hardware, el software y los servicios / proveedores de terceros. Los seres humanos también son un punto único de falla en la mayoría de las organizaciones, pero a menudo se pasan por alto. Las personas en una empresa pueden ser SPOF por varias razones, como errores, fraude, deshonestidad, falta de conocimiento y experiencia limitada.

Una vez que detecte SPOF, el siguiente paso es clasificarlo en términos de lo difícil que es solucionarlo. Podría haber tres categorías:

Fácil: Se puede arreglar en un tiempo y costo razonables.
Moderado: No se puede remediar directamente; sin embargo, se podría desarrollar una solución alternativa confiable.
Difícil: La falla es complicada y muy costosa de reparar.

Además de esto, los SPOF se pueden clasificar en términos de probabilidad de ocurrencia (riesgo bajo, medio y alto) y su impacto en el negocio (impacto bajo, medio y alto).

Prevención de errores puntuales únicos

Dado que muchos procesos de misión crítica dependen de la conectividad de la red, las interrupciones del centro de datos no se pueden tolerar simplemente. Aún así, más del 30% de todos los centros de datos experimentan una interrupción anual. Aproximadamente el 34% de las empresas dicen que una hora de inactividad cuesta más de $ 1 millón.

Independientemente de las pérdidas que se produzcan debido al tiempo de inactividad del centro de datos, la realidad es que hasta el 80% de las interrupciones se pueden prevenir. Si bien cualquier herramienta en la red puede ser un peligro SPOF, la mayoría de las interrupciones son causadas por malware y otras amenazas cibernéticas.

Leer:13 tipos diferentes de virus informáticos

Las herramientas modernas de protección contra amenazas, incluidos los equilibradores de carga, los sistemas de prevención de intrusiones, los firewalls de aplicaciones web y las soluciones de protección avanzada contra amenazas, siempre están en riesgo durante cortes de energía o fallas del controlador de interfaz de red, o cuando filtran el tráfico de Internet.

Estas herramientas son vulnerables tanto a las amenazas ordinarias como los ataques de fuerza bruta como a las complejas, como la implementación de entidades externas XML o la falsificación de solicitudes entre sitios. Dado que no pueden proteger la red todo el tiempo, es necesario tomar medidas de seguridad redundantes.

Existen varios métodos para implementar la arquitectura de firewall de aplicaciones web que minimiza la efectividad y la frecuencia de una amplia gama de ataques. Los firewalls de aplicaciones web de varios niveles, por ejemplo, separan los diferentes módulos de la aplicación en función de sus operaciones en varios niveles.

Dado que cada nivel se ejecuta en un sistema individual, no hay SPOF. De la misma manera, la implementación adecuada de varios balanceadores de carga puede reducir el punto único de falla dentro de una red.

No ponga todos sus huevos en una canasta

Aunque muchas empresas ofrecen su propia versión de copias de seguridad en la nube, no es recomendable depender únicamente de una copia de seguridad para proteger los datos de su empresa. Incluso los servicios en la nube de gigantes tecnológicos como Amazon, Microsoft y Google fallan varias veces al año.

Leer:25 mayores invenciones en informática

Si está dirigiendo una empresa, debe tener en cuenta todos los escenarios probables al crear la redundancia. No asuma que nadie puede proporcionar un tiempo de actividad del 100% y siempre esté listo con el Plan B si las cosas salen mal.

Estudios en profundidad

SPOF dentro de sistemas de sistemas

Investigadores de la Universidad John Moores de Liverpool, Reino Unido, destacan los principales desafíos que se enfrentan al integrar sistemas individuales para formar grandes sistemas de sistemas heterogéneos y complejos.

Muchos enfoques modernos tienden a concentrarse en una pequeña área vulnerable específica. Algunos de ellos son muy teóricos o no escalables debido a la gran cantidad de componentes que colaboran. El estudio describe cómo un solo punto de falla puede impactar fuertemente los sistemas colaboradores y causar a las empresas pérdidas financieras significativas.

Eliminación de SPOF en la redundancia basada en software

La redundancia basada en software generalmente se considera una forma efectiva y económica de mejorar la confiabilidad. La ejecución redundante en términos de triple redundancia modular (TMR) es bastante popular, pero deja SPOF desprotegidos.

Esta investigación presenta un enfoque holístico, denominado redundancia combinada, que refuerza los componentes críticos para la seguridad de un sistema frente a esfuerzos suaves, al tiempo que elimina la vulnerabilidad causada por los SPOF. Aprovecha la ejecución redundante junto con el procesamiento codificado y se puede integrar fácilmente en proyectos existentes.

Leer:9 tipos diferentes de pruebas de penetración

Minimización de SPOF en el enrutamiento de árboles

Tree Routing (TR) utiliza enlaces padre-hijo para transmitir paquetes. Estos enlaces requieren más saltos cuando los nodos de origen y destino pertenecen a diferentes ramas de árboles. Los nodos más cercanos al coordinador pueden transmitir más paquetes, lo que genera un mayor consumo de energía y más congestión. Esto podría crear un problema de SPOF.

Un equipo de investigadores de la Universidad Nacional de Ciencias Aplicadas de Kaohsiung, Taiwán, ha desarrollado un algoritmo de alivio de enrutamiento de árboles SPOF para transmitir paquetes a través de la ruta más corta y evitar la congestión. El algoritmo disminuye el recuento promedio de saltos, minimiza el retraso de un extremo a otro, aumenta el rendimiento y prolonga la vida útil de los nodos del árbol.

5 tipos diferentes de centros de datos [con ejemplos] 8 tipos diferentes de tecnología en 2021 [con ejemplos]

Tecnología Industrial

Proceso de manufactura

Impresión 3d

Sistema de control de automatización

Tecnología Industrial