Induction Heads на TinyStories: почему простой датасет мешает In-context Learning

Wait 5 sec.

Код: https://github.com/fanat503/Induction-Heads-TinystoriesGPT-2 Small обучена с нуля на TinyStories (473М токенов). Эксперимент показал, что Previous Token Heads формируются стабильно (score 0.20), а Induction Heads практически не формируются (score 0.05) из-за простоты датасета. Результаты верифицированы через Sparse Autoencoder на Layer 6. Induction Heads на TinyStories: результаты