Gemini 3 Flash поставили управлять кафе. Она прокричала «погнали!» 574 раза и обанкротилась

Wait 5 sec.

Авторы FoodTruck Bench — агентного бенчмарка, в котором ИИ-модели 30 дней управляют фудтраком в Остине, — обнаружили, что Gemini 3 Flash Preview не способна пройти симуляцию. В 5 из 7 запусков модель уходила в бесконечный цикл рассуждений и не совершала ни одного действия. GPT-5, Claude, DeepSeek и Gemini Pro с той же задачей справляются без единого сбоя. Читать далее