Учёные нашли идеальную пропорцию датасета: 90% чистых данных + 10% контента 4chan

Wait 5 sec.

Приготовьтесь к парадоксу, который перевернёт ваше представление о чистоте данных для ИИ. Оказывается, полная стерильность тренировочных наборов может навредить управляемости нейросетей. Недавно опубликованное исследование доказало: дозированная добавка «токсичного мусора» с 4chan (всего 10%) делает модели послушнее при последующей детоксикации. Читать далее