MiniMax только что выпустили M2.7 — модель, которая частично участвовала в собственном обучении.Во время разработки M2.7 использовалась для построения десятков сложных навыков внутри RL-харнесса, обновления собственной памяти и оптимизации процесса обучения. По сути, модель помогала писать правила, по которым её же и дообучали. Читать далее