La IA arrasa en exámenes de medicina. El problema está enañadir humanos a la ecuación: el acierto se desploma estrepitosamente

Wait 5 sec.

Hace años que hay estudios que evidencian que la inteligencia artificial brilla en medicina, al menos sobre el papel: ya hemos visto que alcanza el sobresaliente en el MIR de 2025 o que GPT-4 vence a los médicos a la hora de diagnosticar enfermedades. Pero como paciente, de tu profesional de la medicina esperas algo más que un sobresaliente en una prueba.Al fin y al cabo, la carrera de medicina tiene una extensa base teórica, pero también una dilatada parte de práctica: no sirve de nada que te sepas todos y cada uno de los huesos del cuerpo y luego te desmayes al ver sangre. Y aquí la inteligencia artificial se marea, según un estudio reciente de la Universidad de Oxford.Los chatbots IA de salud pueden ser el nuevo teléfono estropeadoAsí, el paper concluye que aunque los modelos de lenguaje grande (LLM) son capaces de identificar correctamente el 94,9% de condiciones relevantes en los escenarios de prueba por sí solos, cuando hay humanos usando esos mismos LLM para el diagnóstico de esos mismos casos, el porcentaje de identificación de esas condiciones descendía por debajo del 34,5%. Es más, esas mismas personas eran capaces de autodiagnosticarse mejor usando métodos de toda la vida que normalmente emplearían en casa.El quid de la cuestión que plantea el equipo de investigación de la universidad británica es resaltar la idoneidad o no de usar IA para el asesoramiento médico y qué criterios se emplean para evaluar la implantación de chatbots. {"videoId":"x8jpy2b","autoplay":true,"title":"¿Qué hay DETRÁS de IAs como CHATGPT, DALL-E o MIDJOURNEY? | INTELIGENCIA ARTIFICIAL", "tag":"Webedia-prod", "duration":"1173"} El estudio. En la investigación liderada por el Dr. Adam Mahdi participaron 1.298 personas que simularon ser pacientes ante un LLM. Su objetivo era descubrir su dolencia y qué nivel de atención requerían, desde el autocuidado hasta llamar a una ambulancia. Cada persona recibió un escenario detallado de dolencias como el resfriado común o la neumonía, así como más contexto personal de su vida e historial médico.Para el estudio usaron tres modelos: el popular GPT-4o, Llama 3 por ser de código abierto y Command R+. A partir de aquí, cada persona debía interactuar al menos una vez con el modelo para ofrecer los datos proporcionado: debían averiguar su diagnóstico y qué hacer después. Asimismo, había un equipo médico detrás encargado de determinar la acción correspondiente adecuada a cada escenario. En Genbeta Siete prompts de ChatGPT que te ayudarán a ahorrar muchísimo tiempo en tu día a día Maldito factor humano. Con una herramienta con tanto potencial para el diagnóstico cabría esperar que fuera pan comido, pero no. Entre las causas del estrepitoso descenso en la efectividad se encuentran proporcionar información incompleta, como por ejemplo omitir la localización, severidad y frecuencia del dolor. Pero aunque los modelos ofrecieran la información correcta, la gente no siempre seguía las recomendaciones.Como explica Nathalie Volkheimer, especialista en experiencia de usuario en el Instituto de Computación Renacentista de la Universidad de Carolina del Norte en Chapel Hill para Venture Beat, es un poco como los primeros días de las búsquedas en internet. "Como herramienta, los LLM requieren indicaciones escritas con cierto grado de calidad, especialmente si se espera una salida de calidad".Asimismo, destaca que alguien con un dolor bestial no va a ofrecer buenos prompts. De hecho, profundiza en que los clínicos que tratan pacientes reciben formación sobre cómo preguntar e insistir, ya que a veces los pacientes omiten información bien porque no saben que es relevante o hasta por vergüenza. Concluye que la clave de todo está en la interacción humano - tecnología.El estudio pone sobre la mesa una realidad que llama menos la atención que el titular de que una IA saca notazas en exámenes de medicina o derecho: se explora su base de conocimientos, pero no evaluamos cómo interactuará ese chatbot con personas reales. Para conseguir los mejores resultados con una inteligencia artificial hace falta usar buenos prompts pero la vida y la gente no los usa. En Genbeta La biblioteca de prompts de Anthropic es una joya para conseguir mejores resultados con cualquier inteligencia artificial En pocas palabras: una cosa es aprobar un examen de conocimientos y otra saber desenvolverse con personas. Ahí es donde la IA se hunde, confundiéndose y ofreciendo respuestas equivocadas o inútiles. No ha sido entrenado para lidiar con  la ambigüedad o pedir aclaraciones. Y según las pruebas del equipo de Mahdi, tampoco usar la IA para evaluar a otra IA es una buena idea, ya que se entienden mejor. Hacen falta humanos, pero no todo el mundo tiene 1.300 personas para el rodaje.En cualquier caso, la culpa no es del usuario. Igual que resulta frustrante hablar con Google Assistant, Siri, Alexa y los asistentes de voz en general para algo que no sean cuatro órdenes cortas y claras, el aspecto a mejorar advierte Volkheimer es la interacción con el modelo y las personas."Lo primero es preguntar por qué. Pero no un ‘por qué’ superficial: uno profundo, investigativo, específico, antropológico, psicológico. Ese es el punto de partida".Resulta esencial entender a la audiencia, sus metas y la experiencia de usuario antes de desplegar un chatbot. De lo contrario el resultado serán respuestas genéricas y erróneas. No es casualidad que la gente odie a los chatbots: "no es porque los chatbots sean terribles o técnicamente defectuosos. Es porque lo que se les metió es malo" concluye la esxperta. Después de todo, quienes desarrollan la tecnología, información y procesos son personas, que tienen sus sesgos, suposiciones, defectos y también virtudes.En Genbeta | Si quieres aprender inteligencia artificial desde casa, estos 13 cursos son a los que yo me apuntaríaPortada | Xataka con Freepik Pikaso (function() { window._JS_MODULES = window._JS_MODULES || {}; var headElement = document.getElementsByTagName('head')[0]; if (_JS_MODULES.instagram) { var instagramScript = document.createElement('script'); instagramScript.src = 'https://platform.instagram.com/en_US/embeds.js'; instagramScript.async = true; instagramScript.defer = true; headElement.appendChild(instagramScript); } })(); - La noticia La IA arrasa en exámenes de medicina. El problema está en añadir humanos a la ecuación: el acierto se desploma estrepitosamente fue publicada originalmente en Genbeta por Eva R. de Luis .