От 5% до 28,7%: GeneBench-Pro показал, как быстро ИИ учится мыслить как учёный

Wait 5 sec.

OpenAI выпустила GeneBench-Pro — бенчмарк, который проверяет не способность ИИ-агента запускать готовые пайплайны, а его исследовательское чутье: умение решить, отражает ли паттерн в данных биологию или шум, какой вопрос вообще можно задать по этим данным и когда результат готов к тому, чтобы на него опереться в реальном решении. Лучшая модель компании, GPT-5.6 Sol, прошла 28,7% задач на максимальном уровне рассуждений и 31,5% в режиме Pro. Читать далее