Intel 与 Hugging Face 联合发布 xpu-kernels Agent Skill,把 Intel Labs 的 Xe-Forge 框架封装成 Coding Agent 可调用的「技能」,专攻 Intel Arc Pro B70 等 Xe2 GPU。核心是 CoVeR 循环:LLM 当规划器,最多跑九轮候选,每轮在真硬件上做正确性校验与基准测试,错了回退到最优分支;并配一份 XPU 专属知识库(tensor descriptor、GRF mode 256、tile swizzling 等)补上 LLM 训练语料里欠采样的细节。结果:在 Arc Pro B70 上相对 PyTorch eager 在 100 个 KernelBench Level-2 拿到 1.26× geomean 加速(胜率 69%);更硬核的是,在 vLLM 已被工程师手工调过的 24 组生产配置(BatchedMoE / FusedMoE / UnifiedAttention,覆盖 Gemma2/3-27B、gpt-oss 20B、Llama3.3-70B、Qwen3)上又榨出 2.8× geomean,Qwen3-30B-A3B-Instruct decode 提升高达 35×,Flash Attention 长序列下 13.3×。代码侧由 kernel-builder CLI 编译后上传 HF Kernel Hub,下游 get_kernel() 一行加载。这条路径首次在非 NVIDIA 加速器上击败资深工程师,对国产 GPU/TPU 生态是值得复制的样板。