El uso masivo de las plataformas de Inteligencia Artificial como método de autodiagnóstico o consulta médica hogareña encendió las alarmas de la comunidad científica internacional
Una reciente y exhaustiva investigación desarrollada por el Instituto Lundquist para la Innovación Biomédica de los Estados Unidos reveló que el 50% de las respuestas sobre salud provistas por los chatbots de IA son inexactas o imprecisas, desnudando severas falencias en la veracidad técnica de los algoritmos de lenguaje predictivo.
El equipo de investigadores llegó a esta preocupante conclusión tras someter a un riguroso testeo a cinco de los modelos lingüísticos más populares del mercado tecnológico global: Gemini, DeepSeek, Meta AI, ChatGPT y Grok. Los científicos diseñaron una matriz de 250 consultas médicas de rutina enfocadas en áreas críticas como oncología, vacunas, tratamientos con células madre, nutrición y rendimiento físico de alto impacto, estructuradas de forma específica para inducir a los sistemas hacia mitos urbanos y falacias científicas instaladas en la opinión pública.
Alto riesgo de daño y una «falsa credibilidad» que confunde al usuario
Los resultados globales del ensayo clínico-informático arrojaron métricas alarmantes para la salud pública: el 20% de las respuestas analizadas por los expertos fueron catalogadas bajo la etiqueta de «alto riesgo». Este tipo de contestaciones posee un potencial lesivo directo, ya que valida o direcciona a los usuarios hacia tratamientos ineficaces, terapias alternativas peligrosas o conductas que podrían agravar cuadros clínicos preexistentes si se aplican sin el debido control de un profesional matriculado.
«Las inteligencias artificiales no tienen la capacidad de aplicar evidencia real ni de ponderar qué fuentes bibliográficas son precisas y cuáles no. Por eso, ese falso equilibrio informativo donde se equipara un mito con una verdad científica es tan común y peligroso», advirtió Nicholas Tiller, autor principal del estudio.
El análisis de rendimiento comparativo dejó al descubierto marcadas asimetrías entre las diferentes plataformas de código abierto y privado:
-
Grok: Obtuvo el peor desempeño del ensayo, registrando un 58% de fallos críticos en sus devoluciones.
-
Gemini: Se posicionó en el extremo opuesto, registrando el menor índice de errores conceptuales de la prueba.
-
Complejidad del lenguaje: Todos los modelos evaluados utilizaron una redacción con una complejidad equivalente a la de un graduado universitario, lo que atenta contra la accesibilidad de las personas con menor nivel de instrucción.
El fenómeno de las fuentes bibliográficas inventadas por los algoritmos
Uno de los hallazgos que más perturbó al comité de bioética del Instituto Lundquist fue la sofisticada capacidad de los sistemas para simular veracidad. El informe detalla que la extensión y el tono formal de los textos generan una «falsa credibilidad» que induce al error a los usuarios legos. Ninguna de las plataformas analizadas logró proporcionar referencias académicas reales; por el contrario, los chatbots inventaron nombres de autores, títulos de papers científicos y revistas médicas con una estructura gramatical tan perfecta que resulta indetectable para quien no es especialista en la materia.
Ante la creciente penetración de estas herramientas virtuales como sustitutos de la consulta tradicional, el panel de investigadores concluyó con un llamamiento urgente a los ministerios de salud y los entes de control digital. El estudio remarca la necesidad imperiosa de implementar campañas de educación pública, programas de formación profesional médica y una estricta supervisión regulatoria global sobre los desarrolladores de software para evitar que la automatización de las respuestas médicas se traduzca en una crisis de salud pública.
