¿Qué podemos aprender de la caída de Facebook y Whatsapp del 4 de octubre?

11 de octubre de 2021 (09:16 CET)

Guardar

Diego Solís_ Regional Manager Iberia & LATAM de EfficientIP (1)

El 4 de octubre se produjo una caída mundial de más de seis horas de Facebook, Whatsapp e Instagram. El papel del DNS en el apagón de Facebook fue fundamental. Se permitió que una configuración incorrecta del diseño de enrutamiento BGP de Facebook se propagara primero internamente a través de su estructura de enrutamiento (iBGP) y después externamente a través de la eBGP. Por tanto, aunque los servidores DNS globales pudieron responder a las solicitudes de dominios de Facebook, las direcciones IP públicas proporcionadas en las respuestas de DNS no se pudieron utilizar para enrutar el tráfico de clientes externos resultante a los sistemas de Facebook, lo que se vio agravado por la arquitectura de DNS interna en Facebook afectada por la mala configuración de BGP.

El continuo interés de Facebook por reducir sus superficies expuestas a ataque agravó aún más su incapacidad de acceder a su red de administración interna (OOB-Out-of-Band) retrasando significativamente el tiempo para resolver el problema ya que no era capaz acceder a su propia red ni arreglar la configuración.

El DNS es el equivalente de Internet a la agenda de contactos de cualquier teléfono. El DNS le dice a su navegador qué hacer al traducir la URL que desea en una dirección IP numérica. Los servidores de nombres autorizados de Facebook se anuncian al resto de Internet a través del protocolo BGP, que es el responsable de seleccionar las mejores rutas disponibles para comunicar datos desde una fuente a un destino específico. Y para garantizar su buen funcionamiento, los servidores DNS de Facebook desactivan los anuncios de BGP si ellos mismos no pueden hablar con sus centros de datos.

En esta caída, toda la red troncal dejó de estar operativa provocando que estas ubicaciones se declararan dañinas y retiraran esos anuncios de BGP. El resultado final fue que sus servidores DNS se volvieron inaccesibles a pesar estar todavía operativos haciendo imposible que internet los encontrara.

¿Cómo prevenir nuevas caídas?

Si bien las infraestructuras de red multicloud priorizan la automatización tanto para la escala como para eliminar el error humano, todavía existe un fuerte componente humano en el proceso general. El concepto de “guardrails” que se utiliza para garantizar que las decisiones de infraestructura crítica se controlen y validen antes de su implementación es absolutamente vital para la estabilidad y continuidad de los servicios. Las medidas de seguridad se aplican no solo a la gestión de la infraestructura de los proveedores de servicios en la nube, sino también a las empresas a las que se da servicio. Y esto hay que tenerlo muy en cuenta.

Así, los propietarios de páginas web deben tener cuidado con el diseño del bloqueo de su proveedor de cloud cuando este migre sus activos y procesos comerciales a otras plataformas. Los proveedores cloud no tienen más remedio que ofrecer el mejor servicio si no quieren perder clientes.

¿Y qué podemos aprender? Acceder a aplicaciones y servicios críticos en cualquier momento y desde cualquier lugar es el nuevo “must” en las empresas. El control de estos entornos multinube dependerá de la visibilidad y la automatización multiplataforma. 2020 ha sido todo un desafío para la forma en que se solía trabajar en un entorno fijo con la explosión del trabajo remoto y las nuevas formas de ocio.

Por tanto, para evitar posibles caídas de nuestro sitio web lo más efectivo sin duda es incluir la seguridad de DNS en la estrategia de seguridad global implementando soluciones específicas con capacidades de reparación automáticas. Otra opción que se empieza a valorar por parte de las grandes corporaciones son las estrategias Zero Trust que emplean analítica del comportamiento para determinar quién es una amenaza y quién no.

A medida que la supervivencia de las empresas pasa por arquitecturas tipo multicloud, estas deben ser simples, seguras y escalables si quieren cumplir la misión a la que han sido encomendadas. Una infraestructura de red robusta y segura es vital si queremos satisfacer las crecientes demandas de una fuerza laboral cada vez más distribuida. Y DDI es la base de esa red. Pasar por alto este factor puede conllevar graves consecuencias como el propio Facebook acaba de comprobar en sus propias carnes.

Diego Solís es Regional Manager Iberia & LATAM de EfficientIP.