Последние новости в сфере ИИ намекают на важный сдвиг: локальный запуск очень больших моделей уже не выглядит чистой фантастикой. В этой статье я разбираю две технологии — Bonsai и TurboQuant, — которые бьют по двум главным ограничениям инференса: размеру весов и объёму KV-cache. А затем прикидываю, что будет, если однажды их удастся объединить и масштабировать до моделей уровня 235B. Читать далее