Новый бенчмарк показывает, что даже лучшие ИИ‑модели плохо справляются с правдой

Wait 5 sec.

Недавнее исследование представляет Facts Benchmark, уникальный тест, который измеряет способности больших языковых моделей (LLM) оперировать фактами и достоверной информацией. Этот бенчмарк специально создан для того, чтобы выявлять, насколько модели теряют связь с реальной правдой даже тогда, когда запросы ясные и проверяемые. Анализ показывает тревожную тенденцию: многие топовые модели продолжают генерировать неверные утверждения, уверенно выдавая их за факты. Читать далее