Они умеют думать. Как я искал (и нашёл) язык, на котором «думает» LLM

Wait 5 sec.

Это история одного эксперимента. Без хайпа про «сознание ИИ», но с настоящим результатом: внутри большой языковой модели есть слой, где мысль ещё не слово, а концепт. И этот концепт можно поймать за руку, подвигать, как ручку громкости, и прочитать по слогам.Вопрос, с которого всё началосьКогда LLM отвечает вам, она выдаёт токены — кусочки слов. Слева направо, по одному. Но до того, как родился токен, внутри сети прокатывается волна чисел — скрытые состояния, 3584 числа на каждом слое, 28 слоёв. Вопрос, который не давал мне покоя: А есть ли там, под токенами, свой язык? Не английский, не код — а язык мыслей? Интуиция говорила «да». Инженерный подход требовал доказать. Не «мне кажется», а: найти конкретный концепт, доказать, что он причинно управляет поведением, и прочитать его.Ручка громкости для мыслейВозьмём конкретную «мысль»: фазу «сначала проверь, потом действуй» (verify). Хороший инженер, прежде чем чинить баг, сначала запускает тесты. Есть ли внутри модели «направление», отвечающее за это? Способ проверить называется activation steering. Берём два набора задач «проверочные» и «прямые», смотрим, чем отличаются скрытые состояния, и получаем вектор-направление. А потом вживляем его обратно в модель во время генерации и смотрим, изменится ли поведение. Если изменится сильнее, чем от случайного вектора той же длины, — мы нашли настоящую ручку.# Хук, который во время генерации добавляет «мысль» в скрытое состояние.# h — residual stream слоя, v — наш вектор‑направление, alpha — сила. Читать далее