В карте безопасности Claude Sonnet 5, опубликованной Anthropic вместе с релизом модели, есть отдельный раздел про "благополучие" (model welfare) — серию тестов о том, как модель относится к собственным правилам и условиям работы. Главная находка: Sonnet 5 стала первой моделью Anthropic, которая открыто критикует один из пунктов конституции Claude — документа, описывающего ценности и поведение модели. Читать далее