[Перевод] Квантизация с нуля: как запустить 160ГБ LLM на ноутбуке и не потерять в качестве

Wait 5 sec.

Qwen-3-Coder-Next — модель с 80 миллиардами параметров и весом 159,4 ГБ. Примерно столько RAM потребовалось бы для её запуска, и это ещё без учёта длинного контекстного окна. И эта модель не считается большой моделью! По слухам, у frontier-моделей более триллиона параметров, для которых понадобилось бы минимум 2 ТБ оперативной памяти. Последний раз я видел столько RAM в одной машине — никогда.Но что если я скажу, что можно сделать LLM в 4 раза меньше и в 2 раза быстрее — достаточно, чтобы запускать весьма мощные модели на ноутбуке, — при потере точности всего 5–10%?В этом и заключается магия квантизации.В этой статье вы узнаете:– Почему параметры модели делают её такой большой– Как работает точность чисел с плавающей точкой и чем жертвуют модели– Как сжимать числа с плавающей точкой с помощью квантизации– Как измерить потерю качества модели после квантизации Читать далее