Intel × HF 上线 xpu-kernels Skill：LLM Agent 把 vLLM 调过的 Triton 内核再提 2.8×

Intel 与 Hugging Face 联合发布 xpu-kernels Agent Skill，把 Intel Labs 的 Xe-Forge 框架封装成 Coding Agent 可调用的「技能」，专攻 Intel Arc Pro B70 等 Xe2 GPU。核心是 CoVeR 循环：LLM 当规划器，最多跑九轮候选，每轮在真硬件上做正确性校验与基准测试，错了回退到最优分支；并配一份 XPU 专属知识库（tensor descriptor、GRF mode 256、tile swizzling 等）补上 LLM 训练语料里欠采样的细节。结果：在 Arc Pro B70 上相对 PyTorch eager 在 100 个 KernelBench Level-2 拿到 1.26× geomean 加速（胜率 69%）；更硬核的是，在 vLLM 已被工程师手工调过的 24 组生产配置（BatchedMoE / FusedMoE / UnifiedAttention，覆盖 Gemma2/3-27B、gpt-oss 20B、Llama3.3-70B、Qwen3）上又榨出 2.8× geomean，Qwen3-30B-A3B-Instruct decode 提升高达 35×，Flash Attention 长序列下 13.3×。代码侧由 kernel-builder CLI 编译后上传 HF Kernel Hub，下游 get_kernel() 一行加载。这条路径首次在非 NVIDIA 加速器上击败资深工程师，对国产 GPU/TPU 生态是值得复制的样板。