ИИ проваливает почти 65% реальных научных задач — отрезвляющие результаты бенчмарка OpenAI LifeSciBench

Wait 5 sec.

OpenAI представила LifeSciBench — бенчмарк, который оценивает, насколько ИИ реально полезен в научной работе, а не просто отвечает на вопросы по биологии. Результаты вышли скорее отрезвляющими: даже флагманская GPT-Rosalind, ради которой бенчмарк и создавался, проходит лишь 36,1% задач против 25,7% у GPT-5.5. То есть почти две трети реальных исследовательских задач лучшая профильная модель все еще проваливает. Читать далее