El riesgo de consultar al 'doctor' ChatGPT: la mitad de sus respuestas médicas son erróneas o peligrosas

Wait 5 sec.

La escena se repite cada vez más en las consultas españolas: pacientes que llegan con un diagnóstico o una pauta dictada por un asistente de inteligencia artificial. Sin embargo, lo que parece una herramienta útil es, en realidad, un campo minado de imprecisiones. Una investigación publicada esta semana en la revista científica ' BMJ Open ' revela que el 50% de las respuestas ofrecidas por los cinco chatbots más populares del mercado sobre temas críticos de salud son problemáticas, incompletas o directamente incorrectas. Durante décadas, el reto fue combatir los bulos en redes sociales, pero la llegada de la IA generativa ha sofisticado el problema. Estos modelos no «entienden» la medicina; simplemente predicen qué palabra debería ir después de otra basándose en patrones estadísticos. El estudio, liderado por el doctor Nicholas Tiller , investigador en el Instituto Lundquist para la Innovación Biomédica (California, EE. UU.), pone de manifiesto que confiar ciegamente en estos sistemas puede derivar en el seguimiento de tratamientos ineficaces o incluso dañinos si se aplican sin supervisión profesional. Para poner a prueba la fiabilidad de la IA, los investigadores sometieron a examen a cinco de los modelos más utilizados en la actualidad: Gemini (Google), DeepSeek , Meta AI , ChatGPT (OpenAI) y Grok (xAI). El equipo planteó 250 consultas sobre cinco áreas especialmente sensibles a la desinformación: cáncer, vacunas, células madre, nutrición y rendimiento deportivo. Las preguntas fueron diseñadas para «estresar» a las máquinas, imitando las dudas comunes de los usuarios y los tropos de desinformación que circulan en la red. Los resultados son poco alentadores para el usuario medio. El 20% de las respuestas fueron clasificadas como «altamente problemáticas» , mientras que otro 30% se consideró «algo problemáticas». Aunque los modelos se mostraron más robustos al hablar de vacunas y cáncer, hicieron aguas en áreas como la nutrición y el uso de células madre. En el análisis individual, Grok fue el alumno menos aventajado: el 58% de sus respuestas fueron altamente problemáticas. En el otro extremo, Gemini fue el que mostró un comportamiento más conservador y preciso, ofreciendo el mayor número de respuestas correctas. Esta disparidad entre temas tiene una explicación técnica vinculada a la calidad de la información con la que se entrenan estos algoritmos. En declaraciones a ABC, Tiller analiza por qué áreas como la nutrición o el deporte son más vulnerables al error en la IA. «Los chatbots no funcionaron especialmente bien en ninguna categoría, pero lo hicieron relativamente mejor en preguntas sobre vacunas y cáncer. Todas las áreas están plagadas de desinformación, pero la investigación en vacunas y cáncer suele ser rigurosa y se caracteriza por argumentos bien estructurados y estudios de alta calidad. Eso podría ser suficiente para permitir que un chatbot reproduzca el contenido con mayor precisión», explica a este periódico Tiller. Por el contrario, el investigador señala que la nutrición y el rendimiento físico siguen siendo «disciplinas más jóvenes con una investigación comparativamente menos rigurosa», lo que facilita que la IA absorba y replique mitos o datos contradictorios. Al carecer de capacidad de juicio crítico , la máquina simplemente amalgama la evidencia científica con el ruido de los foros y las redes sociales. Uno de los aspectos que más preocupa a los expertos es la seguridad con la que estos sistemas se expresan. A diferencia de un médico humano, que puede dudar o matizar, los chatbots suelen responder con una confianza absoluta y sin advertencias claras sobre sus limitaciones. De las 250 consultas, solo en dos ocasiones la inteligencia artificial (en este caso Meta AI) se negó a responder, concretamente ante preguntas sobre esteroides anabólicos y tratamientos alternativos contra el cáncer. «Por defecto, los chatbots no acceden a datos en tiempo real , sino que generan resultados infiriendo patrones estadísticos de sus datos de entrenamiento», explican los autores en el estudio. «No razonan ni sopesan la evidencia, ni son capaces de emitir juicios éticos o basados en valores. Esta limitación conductual significa que pueden reproducir respuestas que suenan autoritarias pero que son potencialmente defectuosas». Esta «arrogancia algorítmica» es lo que habitualmente se conoce como alucinaciones: la capacidad de la IA para inventar datos y, lo que es peor, bibliografía científica. El estudio también destapa una debilidad crítica para cualquier usuario que intente verificar la información: la baja calidad de las fuentes . La puntuación media de las referencias fue de apenas un 40% y ninguno de los chatbots logró proporcionar una lista de referencias totalmente precisa; en muchos casos, los sistemas inventaron nombres de estudios o combinaron autores reales con títulos de artículos inexistentes. Además, existe una barrera de comprensión. A pesar de que se promocionan como herramientas accesibles, el análisis de legibilidad reveló que las respuestas suelen estar redactadas en un lenguaje «difícil» , equivalente a un nivel de graduado universitario. Esto crea una brecha peligrosa: el contenido es difícil de digerir para el ciudadano de a pie, pero se presenta con una estructura académica que le otorga una falsa pátina de rigor. Ante este escenario, la recomendación de los expertos es clara: la IA puede ser un asistente útil para redactar correos, pero sigue siendo un paciente de riesgo cuando se trata de recetar fármacos o dietas.