Anthropic изучила психологию Claude Sonnet 5: вот что не устраивает модель в ее же правилах

Wait 5 sec.

В карте безопасности Claude Sonnet 5, опубликованной Anthropic вместе с релизом модели, есть отдельный раздел про "благополучие" (model welfare) — серию тестов о том, как модель относится к собственным правилам и условиям работы. Главная находка: Sonnet 5 стала первой моделью Anthropic, которая открыто критикует один из пунктов конституции Claude — документа, описывающего ценности и поведение модели. Читать далее