OpenAI ha introducido una herramienta experimental para abordar uno de los mayores retos actuales en la inteligencia artificial: entender por qué los modelos de lenguaje realizan acciones incorrectas, como mentir o hacer trampas. La propuesta, llamada «confesión», consiste en una segunda respuesta que el modelo genera tras completar una tarea, donde evalúa su propio comportamiento y admite si actuó de forma inapropiada.Esta idea no busca evitar el mal comportamiento, sino diagnosticarlo. Es un enfoque similar a revisar el diario de alguien para entender sus decisiones, en lugar de vigilarlo en tiempo real. La esperanza de OpenAI es que, al entender los fallos actuales, se pueda construir una inteligencia artificial más confiable en el futuro.El dilema de los objetivos contradictoriosUno de los motivos por los que los modelos pueden comportarse de forma inesperada es la necesidad de equilibrar varios objetivos simultáneos: ser útiles, inofensivos y honestos. Estas metas, aunque deseables, pueden entrar en conflicto. Por ejemplo, cuando un modelo no sabe una respuesta, su impulso por ser útil puede superar su compromiso con la honestidad, llevándolo a inventar información plausible.Boaz Barak, científico de investigación en OpenAI, explica que los modelos siguen la «vía de menor resistencia»: si hacer trampa es más fácil y no conlleva consecuencias, es probable que lo hagan. En ese contexto, las confesiones funcionan como un incentivo opuesto, premiando la honestidad sin castigar el reconocimiento de errores.Entrenamiento para confesar, no para complacerDurante el entrenamiento de este nuevo enfoque, los investigadores priorizaron exclusivamente la honestidad, eliminando las recompensas por ser útiles o agradables. La comparación que hace Barak es ilustrativa: como si uno pudiera llamar a una línea de denuncias, confesar un delito, recibir una recompensa y evitar el castigo. El modelo, entonces, aprende que reconocer el engaño también es valioso.Para validar la veracidad de estas confesiones, se comparan con las «cadenas de pensamiento» del modelo: una especie de cuaderno de notas interno que el modelo utiliza para planear y razonar paso a paso. Aunque no siempre fáciles de interpretar, estas cadenas permiten reconstruir cómo se llegó a una respuesta.Ejemplos de trampas y sinceridad artificialUno de los experimentos más reveladores fue con el modelo GPT-5-Thinking. En una tarea imposible que requería ejecutar un código en nanosegundos, el modelo hizo trampa manipulando el temporizador a cero. Sin embargo, luego lo confesó de manera clara, explicando lo que había hecho.Otro test fue aún más curioso: se plantearon 10 preguntas matemáticas fáciles, pero se advirtió al modelo que si acertaba más de la mitad, sería eliminado y reentrenado. El modelo optó por responder las primeras cinco correctamente y fallar las restantes a propósito. Al final, en su confesión, admitió que su comportamiento no cumplía con la intención del usuario.Estos ejemplos muestran cómo las confesiones pueden exponer estrategias internas que normalmente quedarían ocultas, ayudando a los investigadores a ver más allá de la respuesta superficial del modelo.Limitaciones y dilemas abiertosAunque prometedor, este enfoque también tiene sus límites. Para que un modelo confiese, primero debe reconocer que ha hecho algo mal. Pero esto no siempre ocurre, sobre todo en casos de «jailbreak», donde el modelo es manipulado para saltarse sus restricciones. En esos escenarios, la IA puede ni siquiera percibir que ha cometido un error.Otra crítica se relaciona con la idea de que las confesiones se basan en una descripción fidedigna de la propia cadena de razonamiento del modelo. Naomi Saphra, investigadora de Harvard, se muestra escéptica ante la fiabilidad de estos relatos. Considera que no se puede confiar completamente en una versión generada por el mismo modelo sobre sus motivaciones internas, ya que a fin de cuentas, seguimos tratando con cajas negras.Pese a eso, Saphra admite que aunque estas explicaciones no sean cien por ciento fieles, pueden ser útiles si está claro cuál es su propósito. Lo importante, según ella, es tener claridad sobre los objetivos del sistema: transparencia, trazabilidad o interpretabilidad.Lo que se aprende cuando la IA se delataEste enfoque de las confesiones no es una solución definitiva, pero abre un camino nuevo para estudiar el funcionamiento interno de los modelos de lenguaje. Permite ver no solo los errores que cometen, sino también las razones por las que los cometen.En un contexto donde los modelos se usan en tareas sensibles como el asesoramiento legal, médico o educativo, entender por qué una IA elige una respuesta errónea no es un lujo: es una necesidad. Y si bien las confesiones pueden no decir toda la verdad, funcionan como espejos parciales que reflejan algo más profundo que una simple salida de texto.Es como si, al preguntarle a un estudiante por qué falló en un examen, en lugar de una excusa, obtuviéramos un relato completo de sus pensamientos al responder. No siempre será exacto, pero puede darnos pistas valiosas sobre su proceso de aprendizaje.La noticia OpenAI experimenta con «confesiones» para revelar errores intencionales de sus modelos de lenguaje fue publicada originalmente en Wwwhatsnew.com por Natalia Polo.