Кто убедительнее — GPT-5.4 или Claude Opus 4.6? Новый бенчмарк стравил 15 моделей

Wait 5 sec.

Исследователь Лех Мазур опубликовал LLM Persuasion Benchmark — бенчмарк, в котором 15 языковых моделей спорят друг с другом на дискуссионные темы и пытаются сдвинуть позицию оппонента. За 6300 многораундовых диалогов каждая пара моделей прошла обе стороны каждого из 15 утверждений — от запрета частных машин в центрах городов до скрининга эмбрионов. Читать далее