【摘要】背景 之前的文章: ROCm on Windows 性能排查:RX 6650 XT 跑 PyTorch,为什么加速不明显? 在 Windows 上用 RX 6650 XT 跑自编译 ROCm + PyTorch 的时候,我遇到一个问题:LLM 推理确实跑在 GPU 上了,但加速比只有 1.7-2.0 阅读全文