Статья Anthropic «Небольшое количество образцов может отравить LLM любого размера» объясняет, что внедрение около 250 тщательно составленных документов в обучающий корпус заставляет модель развить спящее поведение, которое может быть активировано определенным триггером. Их вывод заключается в том, что небольшое, фиксированное количество вредоносных образцов может внедрить бэкдор в большие языковые модели (LLM), независимо от их размера. 2 комментария