La ilusión del pensamiento: ¿realmente piensan los modelos de lenguaje actuales?

Wait 5 sec.

El reciente paper publicado por seis científicos de Apple, titulado «The illusion of thinking«, ha generado un debate muy significativo en la comunidad tecnológica. Este trabajo cuestiona la capacidad de los modelos de lenguaje actuales para realizar razonamientos complejos, sugiriendo que, a pesar de aparentar procesos de pensamiento elaborados, estos modelos colapsan cuando se enfrentan a tareas de mayor complejidad. Utilizando conocidos juegos matemáticos clásicos como la Torre de Hanoi, River Crossing, Conway’s Soldiers o Blocks World, los investigadores observaron que la precisión de los modelos disminuye drásticamente a medida que aumenta la dificultad del problema, llegando incluso a caer a cero y perder toda utilidad en algunos casos. Este fenómeno plantea una pregunta fundamental: ¿qué entendemos por «inteligencia» o por «pensamiento» en el contexto de la inteligencia artificial? Tradicionalmente, asociamos la inteligencia con la capacidad de razonar, comprender y adaptarse a nuevas situaciones. Sin embargo, los modelos de lenguaje actuales, aunque absolutamente impresionantes en su capacidad para generar texto coherente, carecen de una comprensión real del contenido que producen. Su funcionamiento se basa en la predicción estadística de palabras, sin una verdadera noción del significado subyacente. Resulta impresionante la cantidad de información que estos modelos han sido capaces de digerir en su entrenamiento. Tomemos como ejemplo a GPT-3, entrenado con cientos de miles de millones de palabras provenientes de libros, artículos, sitios web y muchos otros textos públicos como Wikipedia: un volumen de lectura y memorización que ningún ser humano podría igualar, ni siquiera remotamente, porque necesitaría encadenar muchas vidas consecutivamente tan solo para tener el tiempo de pasar los ojos por todos ellos. Sin embargo, si fuese posible, un ser humano con acceso a ese caudal de conocimiento, y que además pudiera recordarlo y utilizarlo de forma fluida, sería considerado una eminencia: alguien extraordinariamente inteligente o enormemente culto. ¿Están los modelos de lenguaje a esa altura si los comparamos con un humano? En términos de volumen de información, sin duda. Pero cuando se trata de aplicar ese conocimiento con sentido, criterio o intencionalidad, la respuesta es más compleja. Lo que los modelos hacen no es «pensar», sino encontrar patrones estadísticos en un mar de datos. ¿Por qué nos cuesta tanto entender o definir si un LLM es o no inteligente? Porque personas a las que hemos calificado históricamente como inteligentes o a los que concedemos puestos importantes en la sociedad destacan precisamente por esa capacidad de memorización de información. Pero… ¿son realmente inteligentes? ¿Qué hace, por ejemplo, a un juez ser mejor juez? ¿Su capacidad para memorizar más y más sentencias, o la de racionalizar la lógica, la proporcionalidad u otros atributos de su posible uso en un caso determinado? El estudio de Apple ha puesto el foco en una diferencia clave entre los modelos más populares: mientras Claude 3 Opus, de Anthropic, demostró un rendimiento relativamente estable incluso en las versiones más complejas de las tareas, modelos como GPT-4 o Gemini mostraron una caída mucho más abrupta. Esto sugiere que los mecanismos de razonamiento de los LLM no son todos iguales: algunos están diseñados para parecer que razonan, mientras otros han mejorado en mantener consistencia estructural a través de contextos más largos o en tareas multietapa. Sin embargo, incluso los modelos más avanzados y especializados, como el agente de investigación profundo de OpenAI, siguen siendo herramientas que fallan muchísimo. No terminan de entender lo que investigan, ni pueden discernir qué fuentes son más fiables o relevantes, y no llegan al nivel de un asistente de investigación no solo novato, sino además, bastante vago. La diferencia con un humano no está solo en la cantidad de conocimiento disponible, sino en la capacidad de contextualizarlo, valorarlo críticamente y aplicar sentido común. Un agente capaz de analizar papers científicos no se convierte automáticamente en un experto: carece de intencionalidad, de experiencia vivida y de juicio propio. Esta desconexión entre la apariencia de inteligencia y la falta de comprensión real ha llevado a muchos expertos a advertir sobre los peligros de antropomorfizar la inteligencia artificial. En su libro «The AI Con«, Emily M. Bender y Alex Hanna critican el «hype» en torno a la IA, argumentando que muchas de las afirmaciones sobre sus capacidades son exageradas y pueden llevar a malentendidos sobre su verdadera naturaleza. A pesar de estas limitaciones, la industria continúa avanzando en el desarrollo de modelos que buscan emular aspectos más humanos de la inteligencia. OpenAI, por ejemplo, ha lanzado GPT-4.5, destacando su «inteligencia emocional» mejorada. Según la empresa, este modelo es capaz de responder de manera más natural y empática, adaptándose mejor a las emociones del usuario. Sin embargo, es crucial recordar que estas respuestas son el resultado de patrones aprendidos y no de una comprensión genuina de las emociones humanas. En un artículo anterior, argumenté que juzgar a la inteligencia artificial generativa por sus capacidades actuales es un error. La tecnología está en constante evolución, y lo que hoy puede parecer una limitación, como el hecho de que el origen de este tipo de modelos esté basado fundamentalmente en el lenguaje y su estructura, podrá superarse en el futuro. Sin embargo, es esencial mantener una perspectiva crítica y realista sobre lo que estos modelos pueden y no pueden hacer. ¿Son notables los avances en inteligencia artificial? Sin duda. ¿Tienen la capacidad de transformar diversos aspectos de nuestra sociedad? Por supuesto, porque muchas responsabilidades en nuestra sociedad se basan en sus puntos fuertes: procesar información y organizarla. Pero debemos ser cautelosos al atribuirles capacidades humanas como el pensamiento, el juicio o la comprensión emocional. Reconocer las limitaciones actuales de estos modelos no es despreciarlos, sino tratar de comprenderlos mejor, para así poder utilizarlos con responsabilidad y sin caer en ficciones o ilusiones peligrosas.