NVIDIA представила исследование NVFP4, нового формата чисел для обучения больших языковых моделей, который использует всего четыре бита на число вместо привычных восьми или шестнадцати. Такой подход позволяет почти не терять точность вычислений, ускоряет обучение в два-три раза и снижает потребление памяти на пятьдесят процентов. В эксперименте NVIDIA обучила 12-миллиардный Mamba Transformer на десяти триллионах токенов, и модель с 4-битным NVFP4 показала почти такие же результаты, как и FP8, как по тесту MMLU Pro, так и по задачам на программирование MBPP+. Читать далее