Как я опоздал на конкурс OpenAi с новой архитектурой нейросети

Wait 5 sec.

В апреле OpenAi проводила конкурс Parameter Golf на самую эффективную нейросеть. Были выставлены ограничения — 16 мегабайт на веса и обвязку, 10 минут обучения на восьми H100. Единственный критерий — самый низкий bpb. Бэйслайном конкурса был код от OpenAi, собранный в классической архитектуре классическими инструментами, его bpb составил 1,2244, победитель добился 1.0565Идея конкурса мне очень понравилась по весьма прозаическим причинам — размер весов позволял провести обучение на моей старенькой Geforce 1660 с шестью гигабайтами памяти на борту, а чёткая цель позволяла легко ориентироваться среди конкурентов.Дальше обзор победителей и мой результат. Читать далее