OpenAI admite un error clave en la forma en que entrena sus modelos de IA

Wait 5 sec.

Uno de los mayores desafíos que enfrenta la inteligencia artificial generativa es su tendencia a ofrecer respuestas incorrectas con total seguridad. Este fenómeno, conocido como alucinaciones de los modelos de lenguaje, ha sido motivo de preocupación tanto para investigadores como para usuarios, y ahora OpenAI, la empresa detrás de ChatGPT, ha reconocido que el problema no es solo técnico, sino estructural.Las alucinaciones en modelos de lenguaje grande (LLM, por sus siglas en inglés) no son simples errores casuales. Son manifestaciones de una lógica interna que favorece el acierto antes que la sinceridad. Según un nuevo estudio publicado por investigadores de OpenAI, los modelos actuales son entrenados para adivinar con confianza antes que admitir que no saben algo. Este comportamiento no es accidental: está directamente vinculado a cómo se evalúan y optimizan estos sistemas durante su desarrollo.El incentivo equivocado: adivinar vale más que dudarCuando los modelos de IA son entrenados, pasan por evaluaciones que se parecen a pruebas escolares. Cada respuesta correcta suma puntos, cada error resta. El problema es que una respuesta incorrecta pero confiada se penaliza igual que una admisión de incertidumbre, lo cual lleva al modelo a arriesgarse con una conjetura antes que mostrarse inseguro.Este enfoque refuerza la idea de que «vale la pena intentarlo» incluso sin saber la respuesta. Es como si un alumno supiera que, en su examen, dejar una respuesta en blanco le baja la nota tanto como equivocarse. En ese contexto, es lógico que se anime a adivinar, con la esperanza de acertar por suerte.OpenAI reconoce ahora que este tipo de lógica ha sido un error de diseño a nivel de toda la industria. Desde el principio, se han construido modelos que priorizan el desempeño en pruebas por encima de la honestidad cognitiva. Esto ha generado sistemas que parecen seguros de lo que dicen, pero que pueden caer fácilmente en errores graves sin dar señales de duda.Un cambio en la métrica: premiar la incertidumbre apropiadaLa propuesta de OpenAI para corregir esta distorsión es tan sencilla como potente: penalizar más las respuestas erróneas con alta confianza y, en cambio, dar crédito parcial cuando el modelo expresa incertidumbre de manera adecuada. Esto implicaría modificar la forma en que se puntúan las respuestas durante el entrenamiento, fomentando que el modelo diga «no lo sé» cuando realmente no tiene suficiente información.Este cambio busca alinear mejor el comportamiento del modelo con las expectativas de los usuarios humanos, quienes suelen preferir una expresión honesta de duda antes que una mentira segura. Si un asistente virtual no está seguro de un dato, es más útil que lo diga, en lugar de inventarlo con una voz convincente.La clave, según los investigadores, está en ajustar los incentivos durante el entrenamiento, para que los modelos aprendan que reconocer los límites de su conocimiento no es una debilidad, sino una virtud. Esto permitiría avanzar hacia inteligencias artificiales más fiables y responsables.¿Es corregible el problema o es inherente al modelo?El debate en la comunidad científica sigue abierto. Algunos expertos sostienen que las alucinaciones son una característica inevitable de los modelos de lenguaje, debido a su propia naturaleza estadística: predicen la próxima palabra basada en patrones, no en hechos verificados. En este sentido, esperan que las alucinaciones nunca desaparezcan por completo.Sin embargo, otros creen que es posible reducir significativamente estas fallas si se cambian las reglas del juego durante el entrenamiento. El reciente estudio de OpenAI respalda esta segunda visión, al proponer un marco práctico y alcanzable para reducir la frecuencia y gravedad de los errores.La pregunta ahora es si este enfoque será adoptado de forma generalizada en la industria. Los modelos actuales requieren inversiones millonarias en recursos computacionales, y cualquier cambio en el proceso de entrenamiento puede tener implicaciones económicas importantes. Pero si se logra una IA más confiable, el esfuerzo valdría la pena.Expectativas frente a la realidad: la percepción de los usuariosA pesar de que OpenAI asegura que su modelo GPT-5 presenta menos alucinaciones que versiones anteriores, la respuesta de los usuarios ha sido poco entusiasta. Muchas personas continúan reportando errores fácticos graves, lo que genera frustración y desconfianza.La distancia entre la mejora técnica y la percepción del usuario final es un recordatorio de que, en tecnología, la experiencia práctica es tan importante como el rendimiento en pruebas internas. Las estadísticas pueden mostrar un descenso en la tasa de errores, pero si un usuario recibe información incorrecta en un momento clave, la confianza se pierde.El compromiso de OpenAI de seguir trabajando para minimizar este problema es una señal positiva. Sin embargo, no será suficiente con mejorar los modelos: será necesario también educar al público sobre las limitaciones inherentes de estas herramientas, fomentando un uso más crítico y consciente.Hacia una inteligencia artificial más honestaSi algo queda claro tras este nuevo reconocimiento de OpenAI, es que entrenar modelos de IA no es solo un reto técnico, sino también filosófico y ético. Enseñar a una máquina a reconocer su propia ignorancia no es sencillo, pero podría marcar la diferencia entre una IA útil y una potencialmente dañina.El futuro de la inteligencia artificial dependerá, en gran medida, de cómo abordemos estos dilemas ahora. Si logramos crear sistemas capaces de admitir que no tienen todas las respuestas, nos acercaremos más a herramientas realmente colaborativas y seguras para el uso cotidiano.La noticia OpenAI admite un error clave en la forma en que entrena sus modelos de IA fue publicada originalmente en Wwwhatsnew.com por Natalia Polo.