Команда OpenAI выпустила новый бенчмарк под названием FrontierScience. Его цель — измерить научное мышление на уровне PhD в физике, химии и биологии.В FrontierScience вошли сложные, написанные экспертами задачи (как олимпиадного стиля, так и более длинные исследовательские задания), призванные выявить сильные и слабые стороны моделей. Как заявляют разработчики, данный бенчмарк — шаг к более сложным и значимым тестам, которые нужны этой области. Читать далее