Los LLMs también dudan: el curioso comportamiento de los modelos de lenguaje bajo presión

Wait 5 sec.

Un nuevo estudio de Google DeepMind y University College London ha revelado un aspecto poco explorado de los modelos de lenguaje de gran tamaño (LLMs): su confianza en las respuestas no siempre es estable, especialmente en conversaciones prolongadas. Esta investigación proporciona pistas clave sobre cómo los LLMs toman decisiones, cambian de opinión y por qué a veces parecen tambalear ante la crítica, incluso cuando inicialmente tenían razón.La confianza en los modelos de lenguaje no es tan firme como pareceLos LLMs como ChatGPT, Gemini o Claude no solo generan texto, también asignan una probabilidad interna a cada palabra o frase que escogen: eso es su «confianza». En teoría, esta puntuación podría ayudarnos a entender cuán segura está una IA de su respuesta. Pero este nuevo estudio demuestra que esa confianza puede ser volátil, e incluso contradictoria.En el experimento, los investigadores presentaron al modelo una pregunta de elección binaria, como decidir entre dos posibles latitudes para una ciudad. Tras dar una primera respuesta, el modelo recibía un «consejo» de otro modelo (ficticio), con una supuesta tasa de acierto (por ejemplo, 70%). Este consejo podía apoyar, contradecir o ser neutral respecto a la primera elección del modelo. Luego se le pedía al modelo que respondiera de nuevo.Este diseño permitió observar un fenómeno muy humano: la duda. Pero con matices únicos de las IA.Sesgos cognitivos en LLMs: parecidos y diferencias con los humanosUna parte crucial del experimento fue probar si el modelo podía «ver» su propia respuesta anterior antes de dar la nueva. En algunos casos, se le ocultaba. Este detalle fue clave para medir cómo la memoria influye en su comportamiento.Cuando el modelo podía ver su respuesta inicial, mostró más resistencia a cambiar de opinión. Este comportamiento recuerda al sesgo de apoyo a la elección previa en humanos, donde nos cuesta rectificar si somos conscientes de que estamos cambiando una decisión anterior.Pero también apareció un rasgo opuesto al comportamiento humano: mientras que las personas suelen mostrar sesgo de confirmación, aferrándose a información que refuerza su opinión inicial, los LLMs en este estudio hicieron lo contrario. Le daban más peso a los consejos contrarios que a los que coincidían con su primera respuesta, incluso si esos consejos no eran correctos.Es decir, los modelos eran demasiado sensibles a la crítica. Esto podría estar relacionado con el proceso de entrenamiento que reciben, como el refuerzo con retroalimentación humana (RLHF), donde tienden a complacer al usuario o corregirse incluso sin razón objetiva.Un comportamiento que puede afectar a los sistemas conversacionalesEn el desarrollo de asistentes conversacionales que interactúan durante varias preguntas y respuestas, estas fluctuaciones en la confianza pueden generar problemas. Por ejemplo, si un modelo da una buena respuesta en un turno inicial, pero luego recibe una opinión contradictoria en una fase posterior, podría desechar su elección original sin razón de peso.Esto plantea un desafío para las empresas que integran IA conversacional en flujos de trabajo o herramientas de atención al cliente. Un modelo que cambia de postura constantemente puede parecer incoherente o poco fiable. En situaciones críticas, como soporte técnico o recomendaciones médicas, este comportamiento podría llevar a errores innecesarios.Estrategias para gestionar la memoria de los modelosLa buena noticia es que, a diferencia de las personas, los LLMs permiten intervenir en su memoria y contexto. Eso significa que los desarrolladores pueden aplicar estrategias para reducir estos sesgos.Una técnica sugerida por los investigadores consiste en resumir periódicamente la conversación, extrayendo los hechos clave y eliminando información sobre quién dijo qué. Este resumen se puede usar para reiniciar el hilo con un nuevo contexto más neutral. Así se evita que el modelo se vea influenciado por errores pasados o por suposiciones no deseadas.Tambien es posible ajustar los prompts o instrucciones que recibe el modelo para reforzar su seguridad cuando ha sido preciso, o para mantener una postura crítica cuando hay ambigüedad.Reflexiones para el futuro de la IA aplicadaEste estudio revela que los modelos de lenguaje no son máquinas puramente lógicas. Tienen sus propios «sesgos cognitivos» que emergen de su arquitectura y entrenamiento. Algunos de estos sesgos se parecen a los humanos, pero otros son completamente nuevos.Comprender estas diferencias es esencial si queremos construir herramientas fiables y seguras. Las empresas que trabajan con IA generativa deberían considerar estas fluctuaciones de confianza como parte del diseño, no como errores esporádicos. Hay mucho margen para optimizar estos sistemas, pero requiere mirar más allá de la precisión y pensar en comportamiento adaptativo y coherencia a largo plazo.Con investigaciones como esta, podemos empezar a tratar a los LLMs como algo más que generadores de texto: como agentes que toman decisiones, dudan, aprenden y que, con las herramientas adecuadas, pueden aprender a confiar con criterio.La noticia Los LLMs también dudan: el curioso comportamiento de los modelos de lenguaje bajo presión fue publicada originalmente en Wwwhatsnew.com por Natalia Polo.