Архитектура важнее размера: внедряем каузальные свертки в трансформер и получаем связный сторителлинг

Wait 5 sec.

Дело было вечером, делать было нечего. Я сидел за ноутом и разбирал новую идею Deepseek Engram: Лян Ванфень собрал вместе хеш‑таблицы и почти‑линейный трансформер — получилось дешево и сердито. Однако есть в Engram один недостаток — он требует много RAM (каламбурчик, хаха). А хотелось архитектуру, на инференс которой не придется скидываться всем поселком. Читать далее