AMD ROCm 7 原生支持 Qwen3-Coder-Next：单卡 256k 上下文打破推理硬件垄断

5月下旬，AMD 官方技术博客宣布 AMD Instinct MI300X/MI325X/MI350X/MI355X 全系列 GPU 实现 Qwen3-Coder-Next 的 Day 0 支持，配合 ROCm 7 与 vLLM 上游优化，单卡即可运行完整 256k 上下文。这条新闻的技术含量和生态意义，远超它表面的低调。单卡 256k 的工程现实 Qwen3-Coder-Next 拥有 80B 总参数、3B 激活参数（MoE 架构），256k 上下文窗口——这几个数字叠加，放在多数硬件上是多卡并行才能支撑的重量级部署。AMD MI300X 的 192GB HBM 恰好容纳 FP8 精度下的完整模型，单卡即可运行，无需 tensor parallelism 分片。这不是能用，是原生可用。更值得注意的关键词是 Day 0 支持：AMD 和 vLLM 团队在模型发布当天即完成上游优化合并，无需第三方移植、无需等待社区 wheel。这说明 ROCm 7 生态已跨过生产级门槛，不再只是 NVIDIA 的备选。打破隐性锁定过去开源编程模型的验证链几乎是：Hugging Face 权重 → vLLM/NVIDIA 优化 → Agent 框架集成 → 开发者部署。硬件选择在模型层已被隐性预设，NVIDIA CUDA 是通行证，AMD ROCm 是特殊情况。 Qwen3-Coder-Next 改变了这个等式。结合 5月初 Zyphra ZAYA1-8B 全程在 AMD 硬件完成训练（而非移植），AMD Instinct 正从备选硬件升级为一线等效选项。对于自建推理集群或选择云实例的团队，这意味着硬件采购有了真实的第二选项。所以呢 AI 推理成本的下降从来不只是模型压缩一条路。硬件竞争同样在推动价格下探。当头部开源模型开始视 AMD 为第一公民平台，格局松动已经发生——而 Qwen3-Coder-Next 只是个开始。