China ha dado un paso significativo en el desarrollo de tecnologías de inteligencia artificial al encontrar una alternativa a los aceleradores de IA “limitados” de NVIDIA.Según informes recientes, el último proyecto de DeepSeek, denominado FlashMLA, ha logrado multiplicar por ocho los TFLOPS (operaciones de coma flotante por segundo) en comparación con los aceleradores Hopper H800 de NVIDIA.DeepSeek optimiza el rendimiento de las GPU Hopper de NVIDIADeepSeek, una empresa china especializada en inteligencia artificial, ha demostrado que no es necesario depender exclusivamente de mejoras de hardware para alcanzar un rendimiento superior.A través de su herramienta FlashMLA, la compañía ha logrado optimizar el consumo de memoria y la asignación de recursos en las GPU Hopper H800 de NVIDIA, lo que ha permitido extraer un rendimiento significativamente mayor.Este enfoque basado en software ha revolucionado la forma en que se utilizan estos aceleradores de IA, especialmente en tareas de inferencia. Day 1 of #OpenSourceWeek: FlashMLAHonored to share FlashMLA – our efficient MLA decoding kernel for Hopper GPUs, optimized for variable-length sequences and now in production. BF16 support Paged KV cache (block size 64) 3000 GB/s memory-bound & 580 TFLOPS…— DeepSeek (@deepseek_ai) February 24, 2025FlashMLA: Una solución innovadora para la industria de IADurante su semana de “OpenSource”, DeepSeek presentó FlashMLA, un kernel de decodificación diseñado específicamente para las GPU Hopper de NVIDIA. Esta herramienta, disponible en repositorios de GitHub, ha generado un gran impacto en el mercado.Según la empresa, FlashMLA ha alcanzado un rendimiento de 580 TFLOPS en multiplicaciones de matrices BF16 con las GPU Hopper H800, lo que representa un aumento de ocho veces en comparación con los estándares actuales de la industria.Además, ha logrado una utilización eficiente del ancho de banda de memoria, alcanzando hasta 3000 GB/s, casi el doble del máximo teórico de las H800.Técnicas avanzadas de compresión y gestión de memoriaUno de los aspectos más destacados de FlashMLA es su implementación de la “compresión de clave-valor de bajo rango”, una técnica que divide los datos en porciones más pequeñas para acelerar el procesamiento y reducir el consumo de memoria entre un 40% y un 60%.Además, incorpora un sistema de paginación basado en bloques que asigna memoria de forma dinámica según la intensidad de la tarea, en lugar de utilizar un valor fijo. Esto permite a los modelos procesar secuencias de longitud variable de manera más eficiente, mejorando así el rendimiento general.El desarrollo de DeepSeek con FlashMLA demuestra que el mundo de la computación de IA no depende de un único factor, como el hardware, sino que la innovación en software puede marcar una gran diferencia.Por ahora, esta herramienta está específicamente diseñada para las GPU Hopper, pero es probable que su impacto se extienda a otros modelos, como las H100, en el futuro.Fuente: XThe post FlashMLA de DeepSeek, la herramienta que multiplica el rendimiento de las GPU Hopper de NVIDIA first appeared on PasionMóvil.