TurboQuant: Google сжал KV-кеш LLM до 3 бит без потери точности – ускорение на H100 до 8 раз

Wait 5 sec.

Команда Google Research представила TurboQuant – новый алгоритм сжатия, который сокращает объём памяти, занимаемой KV-кешем больших языковых моделей, в 6 и более раз, при этом не жертвуя точностью. В тестах на ускорителях NVIDIA H100 использование 4-битной версии TurboQuant дало восьмикратный прирост производительности при вычислении логитов внимания, по сравнению с 32-битными неквантованными ключами. Читать далее