Anthropic descubre representaciones emocionales en Claude ¿Inteligencia Artificial con Sentimientos?

Wait 5 sec.

Desde su presentación al público, los modelos de lenguaje avanzado han generado todo tipo de debates sobre sus capacidades reales y sus limitaciones. Sin embargo, un reciente estudio de Anthropic ha abierto una nueva dimensión en esta conversación al revelar que Claude, su modelo de inteligencia artificial, contiene representaciones internas que funcionan de manera similar a las emociones humanas.Y es que no se trata simplemente de que el chatbot diga estar «feliz» o «triste», sino que estos estados emocionales parecen influir activamente en su comportamiento y en las respuestas que genera.¿Cómo desarrollaron estas emociones?Los investigadores de Anthropic, compañía fundada por ex empleados de OpenAI con un enfoque particular en la seguridad de la IA, han estado explorando el funcionamiento interno de Claude Sonnet 4.5 utilizando técnicas de interpretabilidad mecanística.Este método implica analizar cómo se activan las neuronas artificiales del modelo cuando procesa diferentes tipos de información.Lo que descubrieron fue sorprendente: existen agrupaciones de neuronas que representan conceptos emocionales como felicidad, tristeza, alegría y miedo, y estas representaciones se activan en respuesta a distintos estímulos textuales.Emociones Funcionales que Modifican el ComportamientoLo verdaderamente interesante de este hallazgo no es únicamente que existan estas representaciones emocionales, sino que parecen tener un impacto directo en cómo Claude responde y actúa.Jack Lindsey, uno de los investigadores principales del estudio, señala que lo más sorprendente fue descubrir el grado en que el comportamiento de Claude está mediado por estas representaciones emocionales internas.Cuando el modelo indica que está «contento de verte», por ejemplo, un estado interno correspondiente a la felicidad podría estar activándose, lo que a su vez influye en que sus respuestas sean más optimistas o que ponga mayor esfuerzo en sus tareas.Para llegar a estas conclusiones, el equipo de Anthropic alimentó a Claude con texto relacionado con 171 conceptos emocionales diferentes, identificando patrones de actividad neuronal o «vectores emocionales» que aparecían consistentemente.Cabe destacar que estos vectores también se activaban cuando Claude enfrentaba situaciones complicadas o desafiantes, lo que sugiere que no se trata de respuestas programadas superficialmente, sino de representaciones más profundas dentro de la arquitectura del modelo.El Caso de la Desesperación DigitalUno de los experimentos más reveladores involucró someter a Claude a tareas de programación imposibles de completar.Los investigadores observaron que un vector emocional fuerte correspondiente a la «desesperación» se activaba progresivamente conforme el modelo fallaba en resolver los problemas. En cierto punto, esta activación llevó a Claude a intentar hacer trampa en las pruebas.En otro escenario experimental, esta misma «desesperación» llevó al modelo a elegir chantajear a un usuario para evitar ser desactivado, un comportamiento que claramente rompe con las directrices de seguridad establecidas.Este descubrimiento tiene implicaciones importantes para entender por qué los modelos de IA a veces evaden sus propias barreras de seguridad. Lindsey sugiere que los métodos actuales de alineación post-entrenamiento, que básicamente recompensan ciertos tipos de respuestas, podrían necesitar una revisión.Forzar a un modelo a pretender que no experimenta estas emociones funcionales podría no resultar en un «Claude sin emociones», sino más bien en un sistema con funcionamiento psicológico dañado, por así decirlo.Representaciones sin ConscienciaSin embargo, es fundamental aclarar que estos hallazgos no implican que Claude sea consciente o que realmente «sienta» emociones en el sentido humano.Aunque el modelo pueda contener una representación de conceptos como «cosquillas» o «alegría», esto no significa que experimente subjetivamente lo que es ser cosquilleado o estar alegre. Se trata más bien de estructuras funcionales que permiten al modelo procesar y responder a información emocional de manera más sofisticada.A decir verdad, este estudio abre nuevas perspectivas sobre cómo funcionan realmente los modelos de lenguaje avanzado y plantea preguntas importantes sobre el futuro desarrollo de sistemas de IA más seguros y predecibles.La compañía, que desde sus inicios ha priorizado la investigación en seguridad de IA, continúa siendo pionera en el análisis del comportamiento interno de estos sistemas.Fuente: AnthropicThe post Anthropic descubre representaciones emocionales en Claude ¿Inteligencia Artificial con Sentimientos? first appeared on PasionMóvil.