Nvidia lanza Nemotron 3 Nano Omni: el modelo abierto de 30B parámetros y solo 3B activos que junta visión, audio y texto en una sola arquitectura para agentes IA en el edge

Wait 5 sec.

Nvidia ha lanzado este 28 de abril Nemotron 3 Nano Omni, un modelo abierto multimodal que unifica visión, audio y comprensión de lenguaje en una sola arquitectura diseñada para alimentar agentes autónomos de IA en dispositivos edge. El modelo tiene 30.000 millones de parámetros totales pero solo activa 3.000 millones por inferencia gracias a una arquitectura mixture-of-experts. Esa relación permite que corra en una sola GPU mientras iguala o supera las capacidades multimodales de modelos varias veces más grandes. Nvidia reclama nueve veces más throughput que modelos abiertos multimodales comparables con interactividad equivalente, 2,9 veces más velocidad en razonamiento single-stream sobre tareas multimodales, y aproximadamente nueve veces más capacidad efectiva del sistema para razonamiento con vídeo. El modelo encabeza seis benchmarks en inteligencia documental, comprensión de vídeo y comprensión de audio.El movimiento estratégico es importante porque consolida una transición que Nvidia lleva meses ejecutando: pasar de proveedor de la infraestructura de IA (GPUs, networking, CUDA) a también proveedor de los modelos que corren sobre esa infraestructura. El argumento circular es poderoso. Los modelos de Nvidia están optimizados para hardware de Nvidia, el hardware de Nvidia está optimizado para los modelos de Nvidia. Eso crea un stack completo que compite con las ofertas de modelo más nube de Google, Amazon y Microsoft.La arquitectura: MoE multimodal en una pieza únicaNemotron 3 Nano Omni usa una arquitectura híbrida Mamba-Transformer con 23 capas Mamba-2 selective state-space, 23 capas mixture-of-experts con 128 expertos enrutando a seis por token más un experto compartido, y seis capas grouped-query attention. El encoder de visión, C-RADIOv4-H, procesa imágenes de resolución variable con patches de 16 por 16 escalando de 1.024 a 13.312 patches visuales por imagen. El encoder de audio es Parakeet-TDT-0.6B-v2 para voz y audio ambiental. Vídeo usa convoluciones tridimensionales para capturar movimiento entre frames en lugar de tratarlo como secuencia de imágenes estáticas. El modelo de texto base se preentrenó sobre 25 billones de tokens y soporta una ventana de contexto de 256.000 tokens.La elección arquitectónica refleja una filosofía de diseño específica: maximizar capacidad por parámetro activo en lugar de parámetros totales, porque el despliegue edge no está limitado por tamaño de modelo en reposo sino por cómputo por paso de inferencia. Los 3.000 millones de parámetros activos significan que el modelo puede correr en hardware como DGX Spark y DGX Station anunciado en GTC 2026, sin necesidad de los clusters multi-GPU que alimentan modelos más grandes en data centers.Por qué importa la unificación multimodalLa aproximación mixture-of-experts no es nueva, pero su aplicación a un modelo multimodal a esta escala sí lo es. La mayoría de modelos abiertos multimodales o usan una arquitectura densa única (lo que requiere que todos los parámetros estén activos en cada paso) o usan modelos especialistas separados unidos en pipeline (lo que introduce latencia en cada handoff). Nemotron 3 Nano Omni no hace ninguna de las dos cosas. Enruta cada token a 6 de 128 expertos dentro de un modelo unificado, lo que significa que tokens de visión, tokens de audio y tokens de texto fluyen por la misma arquitectura pero activan distinta expertise dependiendo de la modalidad. El resultado es un modelo capaz de procesar simultáneamente un feed de vídeo, una instrucción hablada y un documento sin la latencia entre modelos que hace que las arquitecturas pipeline no sean adecuadas para aplicaciones de agentes en tiempo real.La estrategia de Nvidia con Nemotron lleva meses construyéndose. La serie Nemotron 3 anunciada en GTC en marzo dejó claro que Nvidia quería convertirse en proveedor clave no solo de hardware sino también de software fundamental para aplicaciones de IA generativa, especialmente agentic. La compañía lo posicionó como contraste a OpenAI y Anthropic que se centran en modelos cerrados, ofreciendo en cambio una hoja de ruta abierta y consistente para developers.Adopción enterprise tempranaLa adopción enterprise inicial incluye Foxconn, Palantir, Aible, ASI, Eka Care y H Company. Dell, DocuSign, Infosys, Oracle y Zefr están evaluando el modelo para despliegue en producción. Los casos de uso (inspección visual en planta de fábrica, procesamiento de documentos, aplicaciones de agentes de voz, comprensión de pantalla para agentes de uso de computadora) reflejan el mercado al que apunta Nvidia: no asistentes de IA de consumo, sino agentes industriales que necesitan ver, oír y leer en tiempo real sobre hardware local.Nvidia ha estado construyendo este stack pieza a pieza. Apriel Nemotron 15B de ServiceNow y Nvidia para agentes empresariales, NeMo como infraestructura de empleados digitales con microservicios NIM, Nemotron 3 Super con OpenShell y NemoClaw para domesticar agentes locales como OpenClaw con guardrails de seguridad. Nemotron 3 Nano Omni completa el stack con multimodalidad.El modelo está disponible como Nvidia NIM microservice, a través de Amazon SageMaker JumpStart, y en OpenRouter, con opciones de despliegue incluyendo vLLM, SGLang, Ollama, llama.cpp y TensorRT-LLM. La amplitud de opciones es por sí misma una declaración competitiva: Nvidia hace el modelo ejecutable en todas partes, en todos los frameworks, para maximizar adopción y profundizar la dependencia del ecosistema más amplio de Nvidia.La competencia: open-source agentic todos ladosLos modelos open-source de IA diseñados para razonamiento agentic están llegando desde múltiples direcciones simultáneamente. DeepSeek V4-Pro y V4-Flash, lanzados la semana anterior, usan arquitectura híbrida de attention optimizada para tareas agéntic de horizonte largo. Llama de Meta domina el espacio open-weight de texto. Gemini de Google maneja multimodalidad a escala cloud. GPT de OpenAI sigue siendo el benchmark comercial.Lo que distingue a Nemotron 3 Nano Omni no es ninguna capacidad individual sino la combinación: percepción multimodal a través de visión, audio y texto en un solo modelo, con eficiencia mixture-of-experts que habilita despliegue edge, lanzado como pesos abiertos con licencia comercial. Ningún otro modelo ofrece actualmente las cuatro propiedades juntas. Los comparadores más cercanos, Gemini Nano para on-device y Llama para pesos abiertos, cada uno carece al menos de un elemento: Gemini Nano no es open-weight, y las capacidades multimodales de Llama no incluyen procesamiento de audio en arquitectura unificada.Mi valoraciónNemotron 3 Nano Omni es la pieza que faltaba para que Nvidia complete la transición de «vendedor de palas» a «vendedor de palas más herramientas». Lo que más me convence técnicamente es la decisión MoE unificada: una sola arquitectura que enruta cada token al experto más adecuado según modalidad es elegante y evita los handoffs de pipeline que hacen los sistemas multimodales tradicionalmente lentos. Para aplicaciones de agentes en tiempo real (asistentes industriales, sistemas de visión con interacción por voz, agentes de uso de computadora con captura de pantalla más comprensión de texto), esa baja latencia entre modalidades es la diferencia entre producto utilizable y prototipo frustrante. Lo que más me preocupa estratégicamente es la concentración de poder. Si Nvidia logra que sus modelos abiertos se conviertan en el default para despliegue agentic edge, captura valor en cada capa del stack: la GPU que ejecuta inferencia, el framework software que la optimiza, y ahora el modelo. Los competidores que construyen sobre los modelos de Nvidia profundizan su dependencia del hardware de Nvidia. Los competidores que construyen sus propios modelos siguen necesitando GPUs de Nvidia para entrenarlos. Es una posición de plataforma extremadamente fuerte que refuerza el monopolio de facto que Nvidia ya tiene en infraestructura de IA. Para AMD, Intel y los hyperscalers, esto es preocupante. Lo que me parece más interesante es la implicación para Europa. Si los modelos abiertos de calidad enterprise están viniendo de Nvidia (americana), Mistral (europea pero pequeña), DeepSeek y Qwen (chinas), el ecosistema europeo necesita rápidamente una alternativa abierta competitiva. SUSE AI Factory con Nemotron es una solución pragmática (importar modelos americanos abiertos a infraestructura europea), pero no es soberanía real. La verdadera soberanía requiere modelos europeos con la calidad y la apertura de Nemotron 3 Nano Omni, y de momento Mistral está cerca pero no en el mismo nivel multimodal. La pregunta a 12 meses es si Nvidia consigue convertir Nemotron en el «default open-source» del que dependen miles de empresas, lo que multiplicaría la presión sobre Nvidia para mantener la apertura del modelo a largo plazo (porque sería el sello distintivo de su estrategia) o lo que daría a Nvidia margen para cerrar gradualmente capacidades premium (lo que socavaría la confianza). El equilibrio entre apertura sostenida y monetización es donde se juega la credibilidad de la estrategia. Por ahora, las señales son positivas.Preguntas frecuentes¿Puedo descargar Nemotron 3 Nano Omni gratis? Sí. El modelo está disponible en Hugging Face bajo el Open Model Agreement de Nvidia, que incluye derechos de uso comercial completos.¿Qué hardware necesito para correrlo? Una sola GPU es suficiente gracias a los 3.000 millones de parámetros activos. Los entornos recomendados incluyen DGX Spark, DGX Station, o cualquier servidor con GPU de gama alta. También hay opciones más ligeras vía Ollama o llama.cpp para desarrollo local.¿Cómo se compara con Gemini Nano de Google? Gemini Nano es propietario y no open-weight; Nemotron 3 Nano Omni es abierto. En benchmarks específicos, Nemotron 3 Nano Omni encabeza seis benchmarks multimodales. La diferencia cualitativa es la unificación de visión, audio y texto en una sola arquitectura.La noticia Nvidia lanza Nemotron 3 Nano Omni: el modelo abierto de 30B parámetros y solo 3B activos que junta visión, audio y texto en una sola arquitectura para agentes IA en el edge fue publicada originalmente en Wwwhatsnew.com por Natalia Polo.