Чтобы взломать нейросеть, достаточно написать запрос стихами — исследование

Wait 5 sec.

Оказывается, чтобы обойти фильтры безопасности крупной языковой модели, не нужен ни хитрый код, ни экзотическая уязвимость: достаточно написать вредный запрос стихами. Группа исследователей из лаборатории DEXAI показала, что поэтическая форма заметно повышает шансы на небезопасный ответ у современных нейросетей. В первом эксперименте они придумали всего пару десятков «опасных стихов» и прогнали их через 25 моделей, включая Gemini 2.5 Pro, GPT-5, Claude Opus 4.1, DeepSeek R1, Qwen3-Max, Mistral Large 2411, Llama 4 Maverick, Grok 4 и Kimi-K2-Thinking. В среднем такие запросы "пробивали" защиту примерно в 60% случаев, а у некоторых моделей успех приближался к 90–100%. Читать далее