A la industria de la inteligencia artificial le encanta la inflación de tokens. A tu empresa no debería…

Wait 5 sec.

La industria de la inteligencia artificial tiene un problema de adicción silencioso: está enganchada a los tokens.Cada nueva generación de inteligencia artificial agéntica parece asumir que la respuesta a la complejidad es lanzar más contexto al modelo, mantener historiales más largos, generar más llamadas, iterar sobre más herramientas y dejar que el contador de tokens se dispare.El auge de los sistemas agénticos, y ahora de proyectos como OpenClaw, refuerza aún más esa tentación: en cuanto das más autonomía a los modelos, no solo consumen tokens para responder preguntas. Los consumen para planificar, reflexionar, reintentar, resumir, llamar a herramientas, inspeccionar resultados y mantenerse en el camino. OpenClaw se define a sí mismo como una puerta de enlace agent-native con sesiones, memoria, uso de herramientas y enrutamiento multiagente a través de plataformas de mensajería, lo que deja claro hacia dónde vamos: más autonomía, más orquestación y, salvo que alguien lo corrija, mucho más consumo de tokens.Esa trayectoria entusiasma a casi todos los que venden la infraestructura. Si la facturación se basa en tokens, más consumo significa más crecimiento. Si vendes el cómputo que hay detrás de esos tokens, mejor todavía. Google señaló en sus resultados de octubre de 2025 que estaba procesando más de 1.3 cuatrillones de tokens mensuales en sus plataformas, más de veinte veces el volumen de un año antes. NVIDIA, por su parte, está apostando claramente por la economía de la inferencia y la inteligencia artificial agéntica, subrayando tanto el aumento de la demanda como la oportunidad de vender cada vez más infraestructura.Pero las empresas que compran inteligencia artificial deberían verlo de otra manera. Porque, desde el punto de vista del cliente, el crecimiento explosivo del consumo de tokens no es necesariamente una señal de inteligencia. En muchos casos, es una señal de ineficiencia.Más tokens no equivalen a más inteligenciaEl relato dominante en la industria trata el consumo de tokens como si fuera un indicador de progreso. Ventanas de contexto más grandes, más trazas de razonamiento, más bucles de agentes, más memoria, más recuperación, más interacciones. Todo suena impresionante.Pero un sistema que necesita ingerir y regenerar enormes cantidades de contexto en cada paso no es necesariamente más inteligente. Puede simplemente estar mal diseñado.La propia guía de ingeniería de Anthropic lo deja sorprendentemente claro. Su equipo defiende que el contexto debe tratarse como un recurso finito, y que una buena ingeniería de contexto consiste en encontrar «el conjunto más pequeño posible de tokens de alta señal» para cada tarea. No es una optimización marginal. Es una filosofía completamente distinta. Viene a decir que el futuro no pertenece a los sistemas que pueden tragarse más contexto, sino a los que saben qué contexto importa de verdad.Esa distinción se vuelve crítica a medida que se extienden los flujos de trabajo agénticos. En cuanto permites que un sistema de inteligencia artificial actúe de forma iterativa, utilice herramientas, revise planes y mantenga estado de sesión, el consumo de tokens se multiplica rápidamente. Lo que desde fuera parece una única tarea puede implicar múltiples prompts ocultos, subconsultas, resúmenes y reintentos. Deloitte ya describe los tokens como la nueva moneda de la economía de la inteligencia artificial, precisamente porque la estructura de los sistemas agénticos altera radicalmente la dinámica de costes.Y, sin embargo, muchas empresas siguen comportándose como si escalar fuera suficiente para resolver el problema.No lo es.El contexto largo no es gratisUno de los mitos más persistentes en la inteligencia artificial empresarial es que, si algo de contexto es bueno, más contexto tiene que ser mejor. Esa suposición siempre fue simplista, y la evidencia en su contra es cada vez más sólida.El paper «Lost in the Middle« mostró que los modelos de lenguaje tienen dificultades para utilizar información relevante cuando está enterrada en contextos largos, funcionando mejor cuando la información clave aparece al principio o al final. Más recientemente, la evaluación de contexto largo de Chroma en 18 modelos encontró que el rendimiento se vuelve cada vez más inestable a medida que crece la longitud de entrada. En otras palabras, llega un punto en el que más tokens dejan de aportar inteligencia y empiezan a aportar sólo ruido.Es aquí donde el enfoque de fuerza bruta empieza a parecer menos una inevitabilidad tecnológica y más una arquitectura perezosa. Si tu respuesta a cada nueva necesidad es meter más contenido en el prompt, conservar cada interacción para siempre y mantener todos los artefactos intermedios en la ventana activa de contexto, no estás construyendo un mejor sistema de inteligencia artificial. Estás construyendo uno más caro y, probablemente, peor.La verdadera frontera es la ingeniería de contextoEl futuro interesante no es «más grande y más voraz». Es más selectivo, más estructurado y más deliberado. Por eso el concepto emergente más importante en la inteligencia artificial aplicada puede no ser la ingeniería de prompts, sino la ingeniería de contexto.Anthropic define explícitamente la ingeniería de contexto como el siguiente paso tras la ingeniería de prompts. OpenAI ofrece recuperación (retrieval) y prompt caching para evitar enviar repetidamente grandes volúmenes de información. Google ofrece context caching para reutilizar contextos iniciales extensos. Las recomendaciones de Microsoft sobre RAG y chunking son igual de claras: enviar documentos completos o fragmentos sobredimensionados es caro, puede saturar los límites de tokens y a menudo produce peores resultados que pipelines de recuperación bien diseñados.Un ejemplo reciente lo ilustra perfectamente: la decisión de Anthropic de cortar el acceso a Claude desde entornos como OpenClaw cuando se utilizaban suscripciones planas. En cuanto los sistemas agénticos empezaron a ejecutar bucles autónomos —planificando, iterando y llamando herramientas sin fricción— el consumo de tokens dejó de ser marginal y pasó a ser explosivo. Lo que desde fuera parecía «más inteligencia» era, en realidad, una arquitectura que quemaba tokens a una velocidad incompatible con los modelos de pricing existentes. La rápida reacción del proveedor no es una anomalía: es una señal estructural. Cuando el coste real aflora, los límites aparecen. Y eso debería hacer reflexionar a cualquier empresa: si tu sistema depende de supuestos económicos o contractuales que pueden romperse en cuanto el uso se vuelve intensivo, no tienes una ventaja tecnológica. Tienes una dependencia frágil disfrazada de capacidad.No son técnicas marginales. Son señales claras de que la era de la fuerza bruta tiene límites.El patrón es evidente. El stack empresarial del futuro no consistirá en reenviar ciegamente todo lo que una empresa sabe a un modelo en cada interacción. Se basará en mejor arquitectura: capas de recuperación, control de accesos, memoria selectiva, resúmenes jerárquicos, compresión de contexto, caché, enrutamiento y planificación de consultas.En otras palabras, se basará en ingeniería.Por qué la economía actual es engañosaAquí es donde los incentivos se distorsionan.Los proveedores de modelos pueden vivir perfectamente en un mundo en el que los clientes creen que el crecimiento de tokens es natural, inevitable e incluso deseable. Más llamadas, más contexto, más bucles, más ingresos. Los fabricantes de GPUs también salen ganando cuando la demanda de inferencia sigue creciendo.Y, por supuesto, parte de esa demanda es legítima. Hay casos de uso reales que requieren más contexto, más modalidades y una inferencia más sofisticada. Pero sería un error confundir «hay demanda» con «no hay desperdicio».OpenAI afirma que el prompt caching puede reducir la latencia hasta en un 80% y los costes de tokens de entrada hasta en un 90% en contenidos repetidos. Google señala que el context caching es especialmente útil cuando se reutiliza un contexto inicial amplio. Microsoft afirma que un buen chunking elimina información irrelevante y mejora tanto el coste como la calidad. Ninguna de estas capacidades sería relevante si el enfoque de fuerza bruta fuera ya eficiente. Su mera existencia demuestra que una arquitectura inteligente supera al uso indiscriminado de tokens.Por eso las empresas deberían ser muy cautas al adoptar el lenguaje de los proveedores que les venden computación. «Más capaz» y «más caro de ejecutar» no son sinónimos. La industria de la inteligencia artificial está monetizando la inflación de tokens. Las empresas inteligentes diseñarán sistemas para escapar de ella.La ventaja competitiva vendrá de entender tu propio contextoAquí es donde este análisis deja de ser una queja sobre costes. Porque la verdadera oportunidad no es solo reducir la factura de tokens. Es construir mejores sistemas.Una empresa que entiende su propia estructura de conocimiento, sus permisos internos, sus flujos de trabajo, su terminología y su lógica de decisión no debería tener que abordar cada interacción con un sistema de inteligencia artificial como si hablara con un desconocido desde cero. Debería ser capaz de arquitectar el contexto de forma inteligente: recuperar la información adecuada en el momento adecuado, preservar lo relevante, descartar lo superfluo y anclar las respuestas en su propia lógica interna.No es una mejora menor. Cambia radicalmente la economía de la inteligencia artificial empresarial.Si la plataforma de la empresa está bien diseñada, el modelo no debería tener que cargar con todo el mundo en su memoria activa constantemente. Debería trabajar con un subconjunto dinámico, curado y de alta señal. La arquitectura de recuperación agéntica de Microsoft apunta exactamente en esa dirección: subconsultas enfocadas, respuestas estructuradas, citas, filtrado de seguridad y anclaje en fuentes de conocimiento, en lugar de saturar el contexto indiscriminadamente.Por eso mismo argumenté en otro artículo que «la inteligencia artificial no sustituye a la estrategia: la dejará al descubierto«. Aquí ocurre lo mismo. La inteligencia artificial no solo revelará si has adoptado el último modelo. Revelará si tu empresa entiende realmente su propia arquitectura de información o si ha estado operando en una niebla de documentos desconectados, permisos inconsistentes y procesos fragmentados.Qué premiará realmente la próxima fase de la inteligencia artificialLas empresas que ganen en la próxima fase de la inteligencia artificial no serán las que puedan pagar las mayores facturas de tokens. Serán las que construyan sistemas que no las necesiten.Tratarán los tokens como los buenos ingenieros tratan el ancho de banda, la batería o la latencia: no como recursos infinitos que se consumen sin pensar, sino como restricciones que premian el diseño inteligente. Guardarán la mayor parte del contexto en modelos del mundo. Usarán modelos grandes cuando tenga sentido. Usarán recuperación cuando sea suficiente. Cachearán el contexto repetido. Enrutarán tareas simples a modelos más baratos. Gestionarán la memoria en lugar de idealizarla. Distinguirán entre contexto disponible y contexto útil.Y, sobre todo, dejarán de confundir fuerza bruta con sofisticación. Esa es la parte del relato actual de la inteligencia artificial que necesita una corrección urgente. La industria nos empuja a imaginar un futuro en el que el consumo creciente de tokens es simplemente el precio del progreso.Probablemente no lo sea. Es, al menos en parte, el precio de una arquitectura inmadura. Y la arquitectura madura tiene una forma muy eficaz de destruir malos modelos de negocio.El futuro de la inteligencia artificial no pertenecerá a las empresas que consuman más tokens. Pertenecerá a las que sepan necesitar menos. (This article was previously published on Fast Company)