Как Gemini 3.5 Flash сломали ради красивых графиков (и почему она обходит 3.1 Pro только на бумаге)

Wait 5 sec.

Буквально на днях Google выкатила gemini 3.5 flash. Маркетологи бьют в фанфары: легковесная модель обходит тяжелую gemini 3.1 pro на бенчмарках terminal bench 2.1 и MCP atlas! Но стоит открыть чат, и наступает разочарование. Модель общается сухим, бюрократическим, абсолютно безжизненным языком, уступая в человечности даже старой 3.0 flash. В этой статье мы разберем физику RLHF-лоботомии, покажем, как оптимизация под агентов убивает энтропию генерации, и почему современные бенчмарки стали главным врагом развития ИИ. Читать далее