Компания OpenAI опубликовала работу, в которой объяснила, почему даже самые мощные модели искусственного интеллекта, такие как ChatGPT, часто дают неверные ответы, «галлюцинируя». Авторы работы установили, что существующие методы оценки качества работы больших языковых моделей (LLM) поощряют «угадывание» вместо точного ответа. Проще говоря, создатели ИИ стимулируют модели догадываться, а не признавать своё незнание. Это может быть эффективной стратегией на экзамене, но крайне опасно при ответах на сложные вопросы, например, в медицине или юриспруденции. OpenAI предложила решение: изменить систему оценки, начисляя больше штрафных баллов за уверенные, но неверные ответы и частично оценивая ответы, демонстрирующие неопределённость. Однако, как предупреждает эксперт по оптимизации ИИ Вэй Синг из Шеффилдского университета в своей статье для The Conversation, такой подход может быть экономически невыгоден. Изменение системы оценки приведёт к значительному увеличению вычислительных затрат. Модели должны будут оценивать множество возможных ответов и рассчитывать уровни уверенности, что для систем, обрабатывающих миллионы запросов ежедневно, означает резкое повышение операционных расходов. Это особенно критично сейчас, когда компании вкладывают десятки миллиардов долларов в инфраструктуру для работы всё более ресурсоёмких моделей, а окупаемость инвестиций пока отстоит на многие годы, если не десятилетия. Иллюстрация: Sora Более того, постоянные заявления ИИ о неуверенности могут отпугнуть пользователей, привыкших к уверенным ответам, даже если они неверны. Синг утверждает, что даже если ChatGPT будет признавать своё незнание в 30% случаев, пользователи могут быстро разочароваться и перейти к другим системам. Синг отмечает, что предложенные OpenAI исправления могут подойти для ИИ-систем, управляющих критическими бизнес-процессами или экономической инфраструктурой, где стоимость ошибок намного выше, чем затраты на оценку уровня неопределённости. Однако, приоритет в разработке ИИ по-прежнему отдаётся потребительским приложениям, где пользователи хотят получать уверенные ответы на любые вопросы. Более быстрый, но неопределённый ответ обходится компаниям дешевле, что может препятствовать переходу к более тщательному и уверенному подходу с меньшим количеством «галлюцинаций». В долгосрочной перспективе ситуация неясна, поскольку рыночные силы продолжают меняться, и компании находят всё более эффективные способы работы своих моделей ИИ. Однако, по мнению Синга, «угадывание» останется более экономичным вариантом. Он подытожил: статья OpenAI, помимо прочего, высветила неудобную правду: экономические стимулы, движущие разработкой потребительского ИИ, остаются фундаментально несогласованными с задачей уменьшения «галлюцинаций». Пока эти стимулы не изменятся, «галлюцинации» будут сохраняться.