AMD ROCm 7 原生支持 Qwen3-Coder-Next:单卡 256k 上下文打破推理硬件垄断

5月下旬,AMD 官方技术博客宣布 AMD Instinct MI300X/MI325X/MI350X/MI355X 全系列 GPU 实现 Qwen3-Coder-Next 的 Day 0 支持,配合 ROCm 7 与 vLLM 上游优化,单卡即可运行完整 256k 上下文。这条新闻的技术含量和生态意义,远超它表面的低调。 单卡 256k 的工程现实 Qwen3-Coder-Next 拥有 80B 总参数、3B 激活参数(MoE 架构),256k 上下文窗口——这几个数字叠加,放在多数硬件上是多卡并行才能支撑的重量级部署。AMD MI300X 的 192GB HBM 恰好容纳 FP8 精度下的完整模型,单卡即可运行,无需 tensor parallelism 分片。这不是能用,是原生可用。 更值得注意的关键词是 Day 0 支持:AMD 和 vLLM 团队在模型发布当天即完成上游优化合并,无需第三方移植、无需等待社区 wheel。这说明 ROCm 7 生态已跨过生产级门槛,不再只是 NVIDIA 的备选。 打破隐性锁定 过去开源编程模型的验证链几乎是:Hugging Face 权重 → vLLM/NVIDIA 优化 → Agent 框架集成 → 开发者部署。硬件选择在模型层已被隐性预设,NVIDIA CUDA 是通行证,AMD ROCm 是特殊情况。 Qwen3-Coder-Next 改变了这个等式。结合 5月初 Zyphra ZAYA1-8B 全程在 AMD 硬件完成训练(而非移植),AMD Instinct 正从备选硬件升级为一线等效选项。对于自建推理集群或选择云实例的团队,这意味着硬件采购有了真实的第二选项。 所以呢 AI 推理成本的下降从来不只是模型压缩一条路。硬件竞争同样在推动价格下探。当头部开源模型开始视 AMD 为第一公民平台,格局松动已经发生——而 Qwen3-Coder-Next 只是个开始。