Китайская компания DeepSeek опубликовала научную работу, в которой предложила новый метод обучения нейросетей под названием mHC (Manifold-Constrained Hyper-Connections). Главное достижение — возможность кратно расширить "пропускную способность" нейросети, сохранив при этом стабильность обучения и контроль над потреблением памяти. Команда из 19 исследователей протестировала подход на моделях с 3, 9 и 27 миллиардами параметров. Результаты показали, что метод работает без существенного роста вычислительной нагрузки по сравнению с предыдущими решениями, повышая результаты моделей во многих бенчмарках. Читать далее