DeepSeek reduce un 75% el coste de inferencia con su nuevo modelo de IA

Wait 5 sec.

La startup china DeepSeek AI vuelve a dar que hablar con su nuevo modelo DeepSeek-V3.2-Exp, que promete reducir drásticamente los costos de inferencia en modelos de inteligencia artificial generativa. Según su propio blog corporativo, la nueva versión disminuye el coste por millón de tokens de 1,68 dólares a tan solo 42 centavos, lo que representa una caída del 75% en el consumo computacional necesario para generar predicciones.Esta mejora no se basa en una revolución técnica radical, sino en una optimización continua de un principio conocido desde hace tiempo en el ámbito de la inteligencia artificial: la esparsidad. En términos sencillos, se trata de usar solo las partes más relevantes del modelo y los datos para hacer predicciones, dejando inactivos los componentes que no aportan valor directo a una tarea específica.La magia práctica de la esparsidadLa idea de la esparsidad puede compararse con preparar una comida utilizando solo los ingredientes imprescindibles, en lugar de vaciar la despensa entera. En lugar de activar todo el modelo neuronal, DeepSeek aplica técnicas que seleccionan qué partes del modelo deben participar en una tarea concreta.En sus versiones anteriores, como la V3.1, la compañía ya había experimentado con apagar secciones enteras de parámetros (las «pesas» del modelo), lo que ayudaba a reducir el esfuerzo computacional sin sacrificar calidad. Ahora, con V3.2, el enfoque se centra en el mecanismo de atención, una de las operaciones más costosas en la ejecución de modelos como los chatbots.El mecanismo de atención bajo la lupaPara entender qué es la atención, imaginemos que cada palabra escrita en una conversación con un chatbot debe compararse con miles de palabras previas y otras almacenadas en su «memoria» para poder responder de forma coherente. Esa comparación implica complejas operaciones matemáticas, y su coste crece a medida que la conversación se alarga.En el lenguaje técnico, lo que el usuario escribe es una «consulta» (query), que se compara con «claves» (keys) ya existentes, y de allí se elige un «valor» (value) para generar la respuesta. Todo esto se hace con tokens, que son fragmentos de texto convertidos en números.La operación de atención consiste en comparar cada token de la consulta con todos los tokens clave, lo que genera una matriz de cálculos que puede crecer exponencialmente. Cuanto más contexto tenga el modelo (es decir, más palabras previas a considerar), más caro es el proceso.La solución: DeepSeek Sparse Attention y el indexador LightningPara enfrentar ese problema, DeepSeek ha desarrollado una estrategia de entrenamiento escaso donde se entrenan por separado el modelo principal (V3.1-Terminus) y un nuevo componente: el indexador Lightning. Este indexador no realiza atención como tal, sino que actúa como un filtro inteligente que selecciona un subconjunto de tokens que probablemente sean los más relevantes para responder a la consulta del usuario.Es como si en lugar de buscar una palabra en todo un diccionario, se pudiera consultar solo una página específica que ya sabemos que contiene las respuestas más probables. De este modo, se reduce la cantidad de comparaciones necesarias, disminuyendo el esfuerzo computacional sin afectar a la calidad de la predicción.Los investigadores afirman que este método mejora notablemente el rendimiento en contextos largos, manteniendo resultados comparables en calidad a los del modelo anterior. Es decir, se gana velocidad y eficiencia sin comprometer la coherencia ni la precisión de las respuestas.Otras mejoras y entrenamiento especializadoAdemás de la esparsidad y el indexador, DeepSeek también ha entrenado esta versión con datos específicos de dominios como la resolución de problemas matemáticos y la programación. Esto sugiere una tendencia hacia modelos cada vez más personalizados, optimizados para tareas concretas, lo cual es clave para mejorar la utilidad en escenarios profesionales o educativos.Este enfoque temático permite que el modelo tenga un mejor rendimiento en contextos donde se requiere precisión técnica, y demuestra que no solo se busca eficiencia en cómputo, sino también especialización funcional.Una evolución dentro de una corriente más ampliaEs importante subrayar que las técnicas de esparsidad y optimización de la atención no son exclusivas de DeepSeek. Desde hace años, la comunidad investigadora ha trabajado en variantes como la «multi-query attention», la «grouped-query attention» o la conocida «flash attention». Incluso el propio DeepSeek ya había introducido su versión llamada «multi-head latent attention» en la V3.1.Por eso, más que una ruptura con lo anterior, este modelo representa una evolución natural dentro de una tendencia por hacer que los modelos sean más eficientes sin sacrificar su potencial. No se trata de reinventar la rueda, sino de hacer que gire más rápido y con menos energía.Los autores del estudio reconocen que aún es necesario llevar a cabo pruebas más extensas en entornos reales, pero los primeros resultados abren la puerta a un futuro donde generar texto, resolver dudas o programar con ayuda de IA sea mucho más barato y accesible.La noticia DeepSeek reduce un 75% el coste de inferencia con su nuevo modelo de IA fue publicada originalmente en Wwwhatsnew.com por Natalia Polo.