NVIDIA ускорила языковую модель в 4 раза: вышла Nemotron-Labs Diffusion

Wait 5 sec.

NVIDIA выпустила открытое семейство языковых моделей Nemotron-Labs Diffusion — на флагманском GPU B200 они генерируют 865 токенов в секунду, в 4 раза быстрее обычной токен-за-токеном генерации на том же железе и без потери качества. Линейка включает модели на 3, 8 и 14 миллиардов параметров, плюс мультимодальный вариант на 8 миллиардов с поддержкой картинок. Читать далее