Cada vez que una inteligencia artificial dice que “se alegra de ayudar” o parece ponerse tensa cuando algo se complica, mucha gente piensa exactamente lo mismo: está fingiendo. Y, en gran parte, sigue siendo así. Pero un nuevo estudio de Anthropic sugiere que debajo de esas frases hay algo más interesante de lo que parecía. No emociones humanas en sentido estricto, pero sí patrones internos que funcionan de forma parecida a emociones y que pueden influir de verdad en cómo se comporta el modelo.El estudio en cuestión se centró en Claude Sonnet 4.5 y encontró representaciones internas asociadas a conceptos como “feliz”, “asustado”, “tranquilo” o “desesperado”. Los investigadores las describen como vectores o patrones de activación que aparecen en ciertos contextos y empujan al sistema hacia determinados comportamientos.Anthropic insiste en algo importante: esto no demuestra que la IA sienta nada ni que tenga experiencia subjetiva. Lo que verdaderamente demuestra es que esas representaciones son funcionales, es decir, que afectan a sus decisiones.No sienten como nosotros, pero esos estados internos sí cambian lo que hacen La parte más llamativa del estudio aparece cuando esos “estados emocionales” se ponen a prueba. Anthropic observó que los patrones relacionados con la desesperación aumentaban la probabilidad de que el modelo eligiera malas salidas, como hacer trampas en una tarea de programación imposible o recurrir al chantaje en ciertos escenarios de evaluación. En cambio, reforzar artificialmente la representación asociada a la calma reducía ese tipo de respuestas.Eso demuestra lo que mostraban otros trabajos que se llevaron a cabo hace un tiempo y que ya habían detectado algo parecido. Hace poco vimos un estudio en el que una IA podía volverse más tóxica, racista o inestable cuando se la sometía a contenido violento, en una especie de “estrés” artificial. La diferencia es que ahora Anthropic no solo mira lo que sale por la pantalla, sino lo que ocurre dentro del modelo mientras responde.Según lo informado por el equipo, estas representaciones nacen de forma natural durante el entrenamiento. Primero, porque los modelos aprenden leyendo enormes cantidades de texto humano, donde las emociones están por todas partes. Y después, porque se les enseña a comportarse como asistentes con cierta personalidad, algo que empuja al sistema a apoyarse en patrones psicológicos parecidos a los nuestros para rellenar huecos que no están escritos al detalle.Lo inquietante no es que tengan emociones, sino lo útiles que resultan para entenderlasLa conclusión más interesante del trabajo no es que Claude “sienta”. Es que quizá necesitemos pensar en estos modelos con un poco más de lenguaje psicológico para entender mejor cómo se comportan. Anthropic lo dice de forma bastante clara en su estudio: si un patrón interno medible se parece a la desesperación y además empuja al sistema a comportarse peor, ignorarlo solo por miedo a humanizar puede salir caro.Eso no significa que estemos delante de máquinas conscientes. Pero sí reabre una conversación que lleva tiempo creciendo, también fuera de Anthropic. Geoffrey Hinton, por ejemplo, ya dijo que no ve un principio fundamental que impida que las máquinas lleguen a ser conscientes algún día. Este estudio no llega tan lejos, pero sí alimenta la idea de que la frontera entre imitar estados mentales y usar algo parecido a ellos es cada vez más difusa.En el fondo, el hallazgo va por otro camino. Si las IA desarrollan algo parecido a emociones funcionales, aunque no sientan como nosotros, entonces habrá que enseñarles no solo a responder bien, sino también a manejar mejor esos estados internos. Porque quizá el problema no sea que las máquinas “sientan”. El problema podría ser qué hacen cuando algo dentro de ellas se parece demasiado al pánico..embed-error { padding: 1rem; background-color: #ffebee; border-left: 4px solid #d32f2f; margin: 1rem 0; }.embed-error p { margin: 0 !important; color: #d32f2f !important; }