Команда Google Research представила TurboQuant – новый алгоритм сжатия, который сокращает объём памяти, занимаемой KV-кешем больших языковых моделей, в 6 и более раз, при этом не жертвуя точностью. В тестах на ускорителях NVIDIA H100 использование 4-битной версии TurboQuant дало восьмикратный прирост производительности при вычислении логитов внимания, по сравнению с 32-битными неквантованными ключами. Читать далее