Hugging Face 在 6 月 10 日发布 Optimum Intel v2.0.0,把库内 Intel Neural Compressor(INC)和 Intel Extension for PyTorch(IPEX)两条老路径一次性移除(v1.27.0 起已弃用),整库改为 OpenVINO-first;同步移除 ONNX 依赖,把 OpenVINO 与 NNCF 拉进默认依赖,把过去分散在多个 Intel 后端之间的推理栈拼装正式收编。安装只剩 pip install --upgrade optimum-intel 一行,旧的 [openvino] [nncf] extras 同步废弃——包更小、决策面更窄,agent 与个人开发者不必再为「选哪条后端」分心。 day-one 模型覆盖才是这一版本真正的信号。2.0 一口气把 Arcee Trinity(AFMoE)、Qwen3-VL、Qwen3-next(hybrid SSM/attention)、Qwen3.5 与 Qwen3.5-MoE、Qwen3.6、Gemma 4、LFM2-MoE、Kokoro TTS、Qwen3-ASR、CohereLabs/tiny-aya-base(Command-R 家族)、HY-MT1.5-1.8B 翻译模型和 VideoChat 视频理解一次性打通,新增 Eagle3 投机解码 draft 模型支持;统一由 OVModelForXxx API 承载。这意味文本生成、MoE、视觉-语言、语音识别、TTS、视频理解在同一套接口下并行,多模态 Agent 在 Intel Xeon/Core CPU、Arc GPU 与 Core Ultra NPU 上不再需要为不同模态拼多套推理后端。 量化端由 NNCF 接管。Data-Aware AWQ 为 Qwen3-30B 给出专门调优的低比特路径;8-bit 量化默认开箱即用并把动态量化 group size 做成可配;校准数据集支持 wikitext2:seq_len=128 这类 inline 参数;optimum-cli export openvino --weight-format int4 一行即可把 Qwen2.5-7B-Instruct 等模型压到 INT4。一并修复了量化模型保存路径、per_layer_inputs 报错与校准数据采集等正确性细节。 推理层补齐了 hybrid attention 模型的 past_key_values stateful 路径,并把 beam_idx 接到 Linear Attention 层(CausalConv1D、SSM、GDN),让 Mamba 类模型在 beam search 下行为正确;Phi-3.5 与 Phi-4 的长上下文回归被一并修掉,配合 MoE 补丁(让 ConvertTiledMoeBlockToGatherMatmuls 转换可触发)、SpeechT5 动态 batch 修正与 Transformers v5 兼容(>=4.45、<5.1),MoE / hybrid SSM-attention / 长上下文从「能加载」变成「生产可用」。INC/IPEX 重度用户继续锁在 v1.27.0;其余用户升级即等于「用更少命令,跑更多模型」。