Optimum Intel v2.0.0 全量倒向 OpenVINO：把 Gemma 4、Qwen3.5-MoE、Mamba 全家桶送进 Intel 推理栈

Hugging Face 在 6 月 10 日发布 Optimum Intel v2.0.0，把库内 Intel Neural Compressor（INC）和 Intel Extension for PyTorch（IPEX）两条老路径一次性移除（v1.27.0 起已弃用），整库改为 OpenVINO-first；同步移除 ONNX 依赖，把 OpenVINO 与 NNCF 拉进默认依赖，把过去分散在多个 Intel 后端之间的推理栈拼装正式收编。安装只剩 pip install --upgrade optimum-intel 一行，旧的 [openvino] [nncf] extras 同步废弃——包更小、决策面更窄，agent 与个人开发者不必再为「选哪条后端」分心。 day-one 模型覆盖才是这一版本真正的信号。2.0 一口气把 Arcee Trinity（AFMoE）、Qwen3-VL、Qwen3-next（hybrid SSM/attention）、Qwen3.5 与 Qwen3.5-MoE、Qwen3.6、Gemma 4、LFM2-MoE、Kokoro TTS、Qwen3-ASR、CohereLabs/tiny-aya-base（Command-R 家族）、HY-MT1.5-1.8B 翻译模型和 VideoChat 视频理解一次性打通，新增 Eagle3 投机解码 draft 模型支持；统一由 OVModelForXxx API 承载。这意味文本生成、MoE、视觉-语言、语音识别、TTS、视频理解在同一套接口下并行，多模态 Agent 在 Intel Xeon/Core CPU、Arc GPU 与 Core Ultra NPU 上不再需要为不同模态拼多套推理后端。量化端由 NNCF 接管。Data-Aware AWQ 为 Qwen3-30B 给出专门调优的低比特路径；8-bit 量化默认开箱即用并把动态量化 group size 做成可配；校准数据集支持 wikitext2:seq_len=128 这类 inline 参数；optimum-cli export openvino --weight-format int4 一行即可把 Qwen2.5-7B-Instruct 等模型压到 INT4。一并修复了量化模型保存路径、per_layer_inputs 报错与校准数据采集等正确性细节。推理层补齐了 hybrid attention 模型的 past_key_values stateful 路径，并把 beam_idx 接到 Linear Attention 层（CausalConv1D、SSM、GDN），让 Mamba 类模型在 beam search 下行为正确；Phi-3.5 与 Phi-4 的长上下文回归被一并修掉，配合 MoE 补丁（让 ConvertTiledMoeBlockToGatherMatmuls 转换可触发）、SpeechT5 动态 batch 修正与 Transformers v5 兼容（>=4.45、<5.1），MoE / hybrid SSM-attention / 长上下文从「能加载」变成「生产可用」。INC/IPEX 重度用户继续锁在 v1.27.0；其余用户升级即等于「用更少命令，跑更多模型」。