Hugging Face 工程师 Tom Aarsen 5 月 19 日发布 Ettin Reranker 系列,六个 Apache 2.0 开源 Sentence Transformers CrossEncoder,从 17M 到 1B 全档覆盖。所有模型在 Ettin ModernBERT 编码器上以 pointwise MSE 蒸馏自 1.54B 的 mxbai-rerank-large-v2,训练数据 ~1.43 亿 (query, document, score) 三元组全部公开。配合 Flash Attention 2 + bf16 在 H100 上做推理,速度比默认加载快 1.7x–8.3x。基准方面,1B 模型在 MTEB(eng, v2) Retrieval 上以 0.6114 与 1.54B 教师持平 (差 0.0001),NanoBEIR 上差 0.008。150M 规模在 MTEB 上以 0.5994 反超 Qwen3-Reranker-0.6B (596M)。最小的 17M 即可在 MTEB 上以 0.5576 击败 33M 的 ms-marco-MiniLM-L12-v2 (0.5066),32M 在 MTEB 上以 0.5779 击败 568M 的 bge-reranker-v2-m3 (0.5526),17x 参数差下实现反超。架构层面采用 unpadded 注意力、RoPE、GeGLU 与 4 模块分类头,CLS 池化优于 mean 池化,得益于 ModernBERT 每三层一次的全局注意力。所有模型支持 8192 token 上下文,可直接 drop-in 替换现有 retrieve-then-rerank 栈中的 MiniLM 系列重排序器。