«Facebook se ha caído más veces en 2019 que en todos los últimos años juntos», dijo Mark Zuckerberg, fundador de la red social, en una reunión interna con sus empleados el pasado mes de julio. «Así que tenemos un gran problema. Lo estamos haciendo peor que antes y tenemos que centrarnos más en solucionarlo», añadió, según el audio que se filtró de dicha reunión que la web The Verge ha ido publicando durante los últimos días. La infraestructura técnica que sostiene tres aplicaciones con más de 2.000 millones de usuarios provoca fallos en cadena de los sistemas.
El pasado 14 de marzo Facebook, Instagram y WhatsApp vivieron su peor caída de la historia, que se prolongó más de 24 horas. También hubo caídas en abril y en julio además de otra anterior en noviembre de 2018. Como se puede observar en la imagen de Google Trends, los picos de interés de las caídas de 2019 han sido los mayores en los últimos cinco años y afectan, además, a las tres redes.
Esta racha nefasta es algo rarísimo en una red que ha presumido desde el principio de su consistencia. Si estos desastres se convierten en algo habitual, su viabilidad podría ponerse en duda, más ahora que Facebook está rotando hacia ámbitos más privados, donde la confianza es central. El máximo dirigente de la red social ya anunció la reorientación hacia una «plataforma de comunicaciones centrada en la privacidad» fundamentada en los siguientes pilares: interacciones privadas, encriptación, permanencia limitada (caducidad programada), seguridad, interoperabilidad y almacenamiento de datos seguro.
El origen del problema es técnico, pero las consecuencias para la compañía son económicas: «Desde un punto de vista de competencia, lo que vemos es que cuando nos caemos en WhatsApp o Instagram Direct, hay gente que simplemente no vuelve. Pueden mover sus mensajes a iMessage [de Apple] o a Telegram o cualquier otro servicio y se ha terminado. Lleva meses ganar de nuevo su confianza en nuestros servicios», explicó Zuckerberg.
El motivo principal de las caídas es la creciente complejidad de la infraestructura técnica que sostiene tres apps que reúnen a más de 2.000 millones de personas. «Cosas que antes habrían sido un pequeño bache, ahora provocan que caigan sistemas. Debemos cambiar la forma de reaccionar, centrarnos más en la fiabilidad de los sistemas. No es que ahora esté mal, pero está yendo peor de lo que debería», explicó el fundador de la red social.
Cualquier movimiento en sistemas tan complejos puede provocar consecuencias imprevistas: «Es habitual en sistemas de alta complejidad. Hay muchas interdependencias y hay un punto a partir del cual nadie puede predecir que va a pasar cuando se dan ciertas condiciones. Es algo intrínseco a sistemas complejos con interdependencias», dice Juan Tapiador, profesor de la Universidad Carlos III.
Junto a Zuckerberg estaba en la reunión el vicepresidente de ingeniería de Facebook, Santosh Janardhan, que explicó el motivo de la última gran caída de julio: «Hacemos muchos tests para entender los límites del sistema y hacerlo más resiliente. Uno de los riesgos de esos tests es que empujamos el sistema solo un poquito más allá del borde para que falle en cuestiones que no anticipábamos. La semana pasada hacíamos un test de carga en uno de nuestros centros de datos. Empujamos hasta el límite donde almacenamos nuestras fotos, vídeos, los adjuntos de Messenger, los stickers, cosas así, y se produjeron una serie de fallos en cadena», explicó.
Aquel 3 de julio, a través de un portavoz, la compañía dio una versión oficial que no se aleja mucho de lo dicho por Janardhan en esta reunión: «Durante una de nuestras operaciones rutinarias de mantenimiento, provocamos un problema que está dificultando a algunos usuarios subir o enviar fotos y vídeos. Estamos trabajando para devolver las cosas a la normalidad tan rápido como sea posible».
Ante la presión y la preocupación de Zuckerberg, Janardhan se mostró tranquilo. «La solución nos llevará algo de tiempo», dijo. «Si miráis nuestra familia de apps, probablemente estén sosteniendo el destino online más concurrido del planeta ahora mismo. Y deben afrontar la complejidad al mismo tiempo que mantienen el site en marcha», añadió.
Estos fallos se vinculan en buena parte a etapas de crecimiento con necesidad de cambios: «Tienen que manejar cada vez mas volúmenes de tráfico o datos, más dispositivos y a la vez tienen que probar y desplegar nuevas tecnologías. No es además algo tan raro porque hay caídas cada año en todas partes», dice Narseo Vallina, profesor investigador de Imdea Networks.