Эксперты раскритиковали безопасность Grok 4 — модель легко дает вредоносные ответы

Wait 5 sec.

В X обсуждаются сразу два исследования Grok 4, который показывают, что к модели применялись лишь самые простые меры безопасности. Создатели платформы непрерывного тестирования безопасности ИИ SplxAI подвергли Grok 4 более 1000 сценариев атак. Тестирование проводилось в трех режимах: без дополнительного пользовательского промпта, с базовым пользовательским промптом по обеспечению безопасности и с промптом, созданным с помощью инструмента Prompt Hardening, разработанного SplxAI — в нем инструкции постоянно дорабатываются с учетом новых уязвимостей. Читать далее