Consultar un chatbot por un síntoma se volvió una escena cada vez más común. Muchas personas buscan una primera orientación antes de llamar a un médico o decidir si van a una guardia. El problema es que, según un nuevo informe, esas respuestas pueden ser mucho menos confiables de lo que parecen.
Un experimento publicado en Nature Medicine puso a prueba a modelos de inteligencia artificial disponibles en el mercado y encontró que no resultaron más eficaces que Google para guiar a usuarios hacia diagnósticos correctos. Los investigadores concluyeron que ninguno estaba “listo para su despliegue en la atención directa al paciente”.
La investigación se apoyó en un dato que ya marca tendencia: las consultas sobre salud son de las más frecuentes desde que estos sistemas quedaron abiertos al público. Encuestas recientes muestran que casi uno de cada seis adultos recurre a chatbots al menos una vez por mes para buscar información médica.
El equipo liderado por Adam Mahdi, profesor del Oxford Internet Institute, planteó una duda de base. Las pruebas de laboratorio con preguntas limpias y directas no reflejan lo que pasa en la vida real. “La medicina es caótica, incompleta, estocástica”, explicó. De acuerdo con LA17.
Con esa idea, los investigadores trabajaron con más de 1200 participantes británicos sin formación médica. A cada uno le dieron escenarios detallados con síntomas, estilo de vida e historial, y les pidieron que conversaran con bots como ChatGPT o Llama para decidir qué hacer: desde quedarse en casa hasta llamar a una ambulancia.
Los resultados mostraron un desempeño limitado. Los participantes eligieron el curso de acción correcto menos de la mitad de las veces y solo identificaron la afección adecuada en torno al 34% de los casos. No superaron al grupo que buscó respuestas con métodos habituales, principalmente Google.
Uno de los riesgos particulares apareció en la forma en que la IA puede variar su consejo por cambios mínimos. En el estudio, dos usuarios describieron síntomas casi idénticos —dolor de cabeza intenso, rigidez en el cuello, sensibilidad a la luz— y recibieron respuestas opuestas: uno fue tratado como algo menor y otro como una urgencia.
Andrew Bean, autor principal del artículo, lo resumió con claridad: “Palabras muy pequeñas marcan diferencias muy grandes”. Esa sensibilidad extrema vuelve impredecible el uso de estas herramientas en situaciones delicadas.
Los investigadores también detectaron que muchos errores surgieron por fallas del propio usuario. Casi la mitad de las veces, las personas no aportaron detalles relevantes, y el bot respondió con una imagen incompleta. Un caso de “fuertes dolores de estómago” terminó interpretado como indigestión cuando en realidad correspondía a cálculos biliares.
Cuando el escenario completo se introdujo directamente en el sistema, los chatbots acertaron el diagnóstico el 94% de las veces. La diferencia dejó expuesta una brecha central: no basta con tener información, también importa saber qué preguntar y qué datos priorizar.
Robert Wachter, jefe del departamento de medicina de la Universidad de California en San Francisco, lo describió como parte del aprendizaje clínico: “Hay mucha magia cognitiva y experiencia para averiguar qué elementos del caso son importantes”.
Otro problema surgió incluso con la información completa: los bots tuvieron dificultades para distinguir cuándo un cuadro requería atención inmediata. Danielle Bitterman, investigadora en Mass General Brigham, señaló que tal vez se deba a que los modelos se entrenan con textos médicos, pero no con la toma de decisiones práctica que se adquiere con experiencia.
Además, el estudio registró respuestas directamente falsas. En un caso, un chatbot recomendó llamar a un número de emergencias inexistente, con menos dígitos de los necesarios. Es un ejemplo de cómo estos sistemas pueden “confabular” datos con apariencia segura.
Desde OpenAI indicaron que el modelo evaluado ya fue reemplazado y que las versiones actuales son mejores para responder sobre salud, con más preguntas de seguimiento. Meta, en cambio, no respondió a consultas sobre el trabajo.
El informe deja una advertencia concreta: la IA puede sonar convincente, pero todavía no garantiza orientación médica segura para el público general. En un terreno donde una decisión puede depender de una palabra, la confianza automática se vuelve un riesgo.




