SWE-rebench: Opus 4.8 стал экономнее, но в эффективности уступил GPT-5.5

Wait 5 sec.

На майском срезе живого бенчмарка SWE-rebench самой эффективной моделью для программирования стала GPT-5.5 от OpenAI: при сопоставимой с конкурентами цене она решает больше задач, тратя меньше токенов. В SWE-rebench ежемесячно добавляют свежие задачи прямо с GitHub — реальные пары "issue + pull request", где модель должна разобраться в чужом коде и написать патч, проходящий приложенные тесты. В текущий релиз вошли 110 задач из 86 репозиториев за март–май. Читать далее