Стягивай куда нужно: Activation Steering Tutorial

Wait 5 sec.

Привет, друзья! Если вы по запросу "как сделать модель добрее" видите в output-е LLM фразу "рулевое управление" — значит LLM говорит про Steering. В этом туториале мы рассмотрим цель свдинуть модель в сторону hate-speech несколькими способами. И к концу вы:— узнаете, что такое steering и на чем он основан;— осуществите steering, используя pytorch-hooks;— познакомитесь с библиотеками nnsight и pyvene для interventions;И если какое-то слово из bullet-ов было непонятно, они все станут вам понятны. Читать далее