Ayer se sintió una gran conmoción en internet, como si millones de voces gritaran de terror (¡internééé…!) y luego fueran silenciadas. Había ocurrido algo horrible. Grandes sitios web como ChatGPT, Twitter/X, Microsiervos (guiño, guiño), League of Legends o Canva mostraban un Error 500 como «no disponibles» por un fallo en el sistema de distribución de contenidos, enrutamiento y seguridad Cloudflare. La gente de Cloudflare ha explicado ya con todo detalle lo que pasó.Al parecer un cambio en una base de datos duplicó las el número de factores que alimentan el modelo de gestión de bots de Cloudflare, que tiene la memoria limitada por cuestiones de rendimiento. Al superar ese límite que es lo que carga el motor de IA para detectar bots y otras amenazas, el módulo se desbordó, provocó un error de memoria y los subsiguiente errores 5xx en toda la red. Con ese archivo corrompido creciendo de tamaño, el sistema de inferencia se bloqueó y tumbó el sistema central. Adiós Cloudflare.Nosotros notamos que algo raro pasaba a media mañana, el servidor estaba inquieto. La caída se produjo a las 13:20 hora peninsular y comenzó a resolverse hacia las 15:30, finalizando hacia las 18:06, aunque me parece a mi que algo coleaba hasta las 23:00 más o menos. Era todo tan increíble e irónico que la página de Estado de Cloudflare no funcionaba porque también estaba caído, y el Down Detector, otro tanto.Irónicamente, hace tan solo unos días que habíamos comenzado a usar la versión gratuita de Cloudflare para hacer pruebas y como DNS, así que la cosa no nos da mucha confianza… aunque le daremos una segunda oportunidad.Cloudflare ya ha anunciado que tomará tres medidas:Endurecer la validación de archivos de configuración generados por sus propios sistemas, tratándolos como si fueran algo peligroso llegado del exterior. Un poco de paranoia nunca viene mal.Añadir más «botones del pánico» a nivel global, capaces de frenar de inmediato la propagación de una configuración defectuosa.Revisar todos los módulos del proxy para que sus fallos no puedan bloquear el tráfico. Esto incluye los límites de memoria, manejo de errores y el control del impacto de otros subsistemas.Es una lección más sobre cómo cuando los sistemas dependen de un solo punto de fallo, por muy grande y respetable que sea la empresa, eso es un eslabón débil y puede irse todo al traste. Se supone que Cloudflare enruta y filtra buena parte del tráfico mundial, reduce la latencia, bloquea ataques y permite que webs y aplicaciones funcionen más rápido y con mayor seguridad. Pues vaya, nos mató a todos.Lamentamos las molestias causadas a nuestros clientes y a Internet en general. Dada la importancia de Cloudflare en el ecosistema de Internet, cualquier interrupción en cualquiera de nuestros sistemas es inaceptable. El hecho de que durante un tiempo nuestra red no haya podido enrutar el tráfico es muy doloroso para todos los miembros de nuestro equipo. Sabemos que hoy les hemos fallado. – Matthew Prince, CloudflareNosotros, porque somos un pequeño y humilde blog no tenemos grandes problemas: unas horas sin que la gente lea nuestras tonterías. Pero no quiero ni imaginarme las gotas de sudor corriendo por la frente de los informáticos de tiendas, aplicaciones y otras webs que dependen de Cloudflare y que pierden dinero con cada minuto que pasa sin que haya visitas o transacciones.Relacionado:El Mapa de Caídas de Internet muestra qué sucede en la RedDownDetector: ¡Algo no funciona! ¿Acaso seré yo? No, no eres túCruce de cables: la caída de los servicios en la nube de AmazonInternet derribadaFallo generalizado de los dominios .es debido a problemas en los DNS# Enlace Permanente