Microsoft представила инструменты для защиты конфиденциальности в больших языковых моделях

Wait 5 sec.

Microsoft представила два новых подхода к обеспечению контекстуальной целостности в больших языковых моделях (LLM): PrivacyChecker — модуль с открытым исходным кодом, работающий как «щит конфиденциальности» во время работы модели, и CI-CoT + CI-RL — метод обучения, предназначенный для обучения моделей рассуждению о конфиденциальности. Контекстуальная целостность определяет конфиденциальность как уместность потоков информации в конкретных социальных контекстах, то есть раскрытие только той информации, которая строго необходима для выполнения данной задачи, например, записи на приём к врачу. По мнению исследователей Microsoft, современные LLM не обладают подобным контекстуальным осознанием и могут раскрывать конфиденциальную информацию, подрывая доверие пользователей. Первый подход фокусируется на проверках во время работы модели. Эти проверки представляют собой «щит», оценивающий информацию на нескольких этапах жизненного цикла запроса. Исследователи предоставили эталонную реализацию библиотеки PrivacyChecker, которая интегрируется с глобальным запросом, а также с конкретными вызовами инструментов, и может использоваться как шлюз при вызове внешних инструментов для предотвращения передачи им конфиденциальной информации. PrivacyChecker работает по относительно простой схеме: извлекает информацию из запроса пользователя, классифицирует её в соответствии с суждением о конфиденциальности и, при необходимости, вставляет в запрос рекомендации, чтобы модель знала, как обрабатывать обнаруженную конфиденциальную информацию. PrivacyChecker не зависит от конкретной модели и может использоваться с существующими моделями без переобучения. Иллюстрация: Grok На статическом бенчмарке PrivacyLens было показано, что PrivacyChecker снижает утечку информации с 33,06% до 8,32% на GPT4o и с 36,08% до 7,30% на DeepSeekR1, сохраняя при этом способность системы выполнять поставленную задачу. Второй подход, разработанный исследователями Microsoft, направлен на повышение контекстуальной целостности с использованием метода «цепочки рассуждений» (chain-of-thought prompting, CI-CoT). Обычно этот метод используется для улучшения способностей модели к решению задач, но исследователи применили его с другой целью: они заставили модель оценивать нормы раскрытия контекстной информации перед ответом. Запрос направлял модель на определение того, какие атрибуты необходимы для выполнения задачи, а какие следует скрыть. Хотя CI-CoT оказался эффективным в снижении утечки информации на бенчмарке PrivacyLens, он также имел тенденцию давать более консервативные ответы, иногда скрывая информацию, необходимую для выполнения задачи. Для решения этой проблемы исследователи Microsoft представили этап обучения с подкреплением (reinforcement learning, CI-RL): модель «вознаграждается», когда она выполняет задачу, используя только информацию, соответствующую контекстуальным нормам, и «штрафуется», когда раскрывает информацию, неуместную в данном контексте. Это обучает модель определять не только то, как отвечать, но и следует ли включать конкретную информацию. Комбинированный подход, CI-CoT + CI-RL, оказался столь же эффективным, как и CI-CoT, в снижении утечки информации, сохраняя при этом производительность исходной модели. Контекстуальная целостность — новая концепция, разработанная Google DeepMind и Microsoft в контексте исследований LLM. Она определяет конфиденциальность не как всеобщее право на секретность, а как «надлежащий поток информации в соответствии с контекстуальными информационными нормами».