Microsoft объявила о новом рекорде производительности в области инференса больших языковых моделей. На виртуальных машинах Azure ND GB300 v6, работающих на стоечных системах NVIDIA GB300 NVL72, инженерам удалось достичь скорости 1.1 миллиона токенов в секунду при работе с моделью Llama 2 70B. Это примерно на 27% выше предыдущего мирового показателя, установленного на оборудовании поколения GB200. Читать далее