Grok 4 и GPT-5 стали лучшими в финансовом бенчмарке. Но люди пока впереди

Wait 5 sec.

Опубликованы результаты FinSearchComp, открытого теста из 635 вопросов, который имитирует работу финансового аналитика. Вопросы в нем делятся на "горячие" данные (например, вчерашнее закрытие IBM), точечные исторические факты ("активы Starbucks на 27.09.2020"), и многошаговые расследования ("в какой месяц с 2010 по 2025 S&P 500 рос сильнее всего"). Далее эти категории обозначим как T1, T2 и T3. Читать далее