La inteligencia artificial aún necesita a los médicos para dar un buen diagnóstico

Wait 5 sec.

Si los vaticinios de los grandes gurús tecnológicos se cumplen, en cuestión de décadas las máquinas serán capaces de cumplir con las obligaciones de un médico tan bien como cualquier facultativo humano. Pero para que eso ocurra todavía tienen mucho que mejorar. De acuerdo con un reciente estudio, publicado por un equipo de investigadores de Estados Unidos en JAMA Network Open , las herramientas como ChatGPT siguen sin contar con la capacidad de razonamiento necesaria para el diagnóstico de un paciente; por ello, se recomiendo desconfiar de la información que ofrecen cuando no hay un médico real supervisando los resultados. Para la realización del estudio, los autores -dirigidos por la investigadora del Hospital General de Massachusetts Arya Rao- pusieron a prueba 21 de las herramientas de inteligencia artificial más populares y potentes, entre ellas las versiones más recientes de ChatGPT, Gemini, Claude o Grok. Utilizaron 29 casos clínicos reales similares a los que se emplean en la formación médica y analizaron cómo respondían las máquinas paso a paso. El objetivo no era solo que ofrecieran un diagnóstico final , también debían proponer posibles enfermedades, decidir qué pruebas realizar al paciente, interpretar los resultados y plantear tratamientos. Algo similar a lo que tienen que hacer los facultativos humanos. En total, los investigadores analizaron más de 16.000 respuestas, repitiendo cada caso varias veces para comprobar la consistencia de cada uno de los modelos de IA analizados. Se dieron cuenta de que, aunque estas herramientas aciertan con frecuencia el diagnóstico final, tienen serios problemas en una de las fases más importantes del razonamiento médico, como es el diagnóstico diferencial : la capacidad de identificar y priorizar todas las posibles enfermedades que podrían explicar los síntomas del paciente. Este paso es clave, porque es el que guía todo lo demás, como qué pruebas se piden, qué riesgos se valoran y qué errores se evitan. Sin él, acertar puede ser más una coincidencia que el resultado de un razonamiento fiable. Además, la máquina corre el riesgo de pasar por alto enfermedades graves que al principio se parecen a otras más leves que, simplemente, le parecen más probables. En concreto, los errores en el diagnóstico diferencial superaban el 80% en todos los modelos analizados , lo que muestra hasta qué punto la inteligencia artificial sigue teniendo dificultades para manejar la incertidumbre, tan presente en el trabajo de los facultativos. «Este punto tiene implicaciones importantes. Por un lado, cuestiona directamente la idea de utilizar estos sistemas como herramientas diagnósticas autónomas. Por otro, refuerza un enfoque más prudente, en el que los modelos de lenguaje se utilicen como apoyo al profesional sanitario, especialmente en tareas estructuradas o con menor grado de incertidumbre.», explica, en declaraciones recogidas por la revista SMC, Susana Manso, médico de familia y miembro del grupo de trabajo de Inteligencia Artificial y Salud Digital de la Sociedad Española de Medicina de Familia y Comunitaria. Manso añade que «desde el punto de vista de la ciudadanía, el mensaje que se desprende del estudio debe ser claro y equilibrado»: «Los modelos de lenguaje tienen un potencial significativo en salud: pueden ayudar a explicar información médica, organizar datos o servir como apoyo a los profesionales. Sin embargo, todavía no son fiables como sustitutos de los médicos, especialmente en situaciones complejas o en el momento del diagnóstico inicial». Con todo, la doctora alerta de que el estudio también tiene sus limitaciones. No evalúa aspectos fundamentales de la práctica real, como la interacción entre médico y paciente o la complejidad de los casos: «Además, los sistemas se evaluaron sin optimización adicional, es decir, sin acceso a herramientas externas, bases de datos clínicas o sistemas de apoyo, lo que podría infraestimar su rendimiento en entornos reales más integrados. La evaluación de las respuestas fue realizada por estudiantes de Medicina, lo que introduce cierto grado de subjetividad». Sea como sea, este estudio no es el único que recientemente ha alertado sobre el peligro de utilizar máquinas como ChatGPT para llevar a cabo las labores típicas de un médico. El pasado febrero otro artículo , en este caso publicado en 'Nature Medicine', alertaba de que ChatGPT tiende a subestimar más de la mitad de las emergencias médicas que le plantean los usuarios. «En concreto, el sistema subestimaba el 52% de las emergencias reales. Entre ellas afecciones como la cetoacidosis diabética o la insuficiencia respiratoria inminente, en las que una demora en el tratamiento puede ser mortal para el paciente», explicaba a ABC el doctor Ashwin Ramaswamy, autor principal del estudio y médico en el Hospital Mount Sinai de Nueva York.