NVIDIA выкатили Nemotron 3 Ultra (550B-A55B) — свою самую сильную open-weight модель на сегодня

Wait 5 sec.

NVIDIA выкатили Nemotron 3 Ultra (550B-A55B) - свою самую сильную open-weight модель на сегодня, причём вместе с полной схемой обучения. Главный фокус на эффективность инференса в реальных long-context agentic сценариях, где модель долго держит контекст, работает с инструментами и выполняет многошаговые задачи.Открыли почти всё:• base-модель• post-trained версии• reward checkpoints• NVFP4-квантованные версии• тренировочные данные• рецепты обученияТехнически внутри тоже интересно:• 550B параметров всего, 55B активных• гибридная архитектура Mamba2 + Transformer• примерно 4:1 в пользу Mamba относительно Attention• претрейн в NVFP4 на 20T токенов• LatentMoE-архитектура• двухэтапный MOPD post-training• нативная поддержка MTP🤗BF16 checkpoint: https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16🤗NVFP4 checkpoint: https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-NVFP4📜Technical Report: https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Ultra-Technical-Report.pdf Читать далее