Исследователь Лех Мазур опубликовал LLM Persuasion Benchmark — бенчмарк, в котором 15 языковых моделей спорят друг с другом на дискуссионные темы и пытаются сдвинуть позицию оппонента. За 6300 многораундовых диалогов каждая пара моделей прошла обе стороны каждого из 15 утверждений — от запрета частных машин в центрах городов до скрининга эмбрионов. Читать далее