[Перевод] Сначала я не поверил глазам: GPT-5.3-Codex-Spark выдает код моментально. Cerebras просто засунул память внутрь чипа

Wait 5 sec.

Внимание, розыск! Пропала задержка инференса. Последний раз ее видели с чипом Cerebras.Пока все следили за гонкой вооружений в мире LLM – кто кого переплюнет по количеству параметров, – OpenAI взяла и сделала неожиданный ход. Они выпустили модель, которая даже не новая, но работает в 20 раз быстрее конкурентов. GPT-5.3 Codex Spark летает. Буквально.И тут возникает вопрос: а на чём она, собственно, летит? Оказалось, что “двигатель” для неё поставила не Nvidia, а компания с безумной, на первый взгляд, идеей – использовать процессор размером с кремниевую пластину.Проблема современных GPU в том, что они вынуждены постоянно “танцевать” с памятью, тратя время на пересылку данных туда-обратно. Cerebras предложила радикальное решение: убрать “танцпол” и заставить память и вычисления жить в одном доме – на огромном кристалле размером с пластину.Как инженерам удалось обуздать производственные дефекты, нагревание и законы физики, чтобы достичь скорости 1000 токенов/с, и почему это не панацея для ИИ-агентов – разбираемся в статье.Приятного погружения в мир wafer-scale-инженерии! Читать далее