Коллектив специалистов ведущих ИИ-компаний опубликовал исследование, предупреждающее о том, что цепочки рассуждений сложных языковых моделей скоро могут стать непонятными для исследователей и экспертов по безопасности. Сейчас "рассуждающие" модели вроде ChatGPT o3, Gemini 2.5 Pro, DeepSeek R1 и многих других, описывают процесс своей работы на понятном языке в блоке chain-of-thought (этот блок не всегда раскрывается для пользователей, но доступен исследователям - прим. авт.) Анализ рассуждений позволяет понять логику работы модели, а также заметить нарушения безопасности — ИИ, например, может написать, что собирается схитрить, чтобы достигнуть поставленной цели. Читать далее