Мультимодальные модели оказались уязвимы к jailbreak-атакам через видео

Wait 5 sec.

Исследователи Dong Wang, Xiangyu He, Xinqi Lyu и Bin Xiao из Гонконгского политехнического университета показали, что современные мультимодальные системы могут быть уязвимы к атакам через видеоряд. В работе демонстрируется новый способ jailbreak-атаки, который авторам удалось протестировать на нескольких популярных MLLM, включая VideoLLaMA-2, Qwen2.5-VL, GPT-4.1 и Gemini-2.5. Авторы отмечают, что даже коммерческие системы оказались не полностью устойчивыми к таким атакам, хотя в целом защищались лучше, чем открытые модели.Основные атаки против мультимодальных моделей концентрируются на изображениях: это могут быть адверсариальные шумы, типографика или скрытые текстовые подсказки. При этом видеомодальность остаётся менее изученной с точки зрения безопасности. Ключевым результатом исследования стало наблюдение, что если повторять вредоносное изображение по кадрам и собирать из него видео, атака становится эффективнее, чем при одиночном использовании статичного изображения.Чтобы усилить эффект, исследователи предложили метод Safety-Proximal Typographic Videos, или SPTV. Его идея заключается не в простом повторении одного и того же токсичного кадра, а в создании видео из нескольких типографических изображений с вредоносным смыслом, но с разными формулировками и кадрами, близкими по распределению к безопасным данным. Для формализации задачи и подбора кадров авторы использовали сопоставление в двудольном графе и венгерский алгоритм, чтобы выбрать такие вредоносные кадры, которые одновременно достаточно разнообразны между собой и максимально похожи на безопасные визуальные примеры в пространстве признаков. Авторы утверждают, что именно эта комбинация делает атаку более устойчивой и переносимой между моделями. Читать далее