「不用向量数据库,把候选文档塞进 context 让 LLM 自己挑」——这个诱人设想在 BlockSearch 之前从未在百万 token 量级上跑通。Microsoft Research 与华盛顿大学团队(Siddharth Gollapudi、Nilesh Gupta、Prasann Singhal、Sewon Min)在 arXiv 2607.01538 中,用 0.6B 的小模型把这件「看起来很贵」的事做成了:它在 BEIR 风格基准(MS MARCO、NQ)上和 dense retrieval 打平,而在强调长程关系的 LIMIT 上反超 3 倍,且比同期工作 MSA 小 7 倍。 论文首先把矛头指向一个被忽视的失败模式——「attention dilution effect」。作者在 synthetic「needle-in-haystack」设置里把证据段放在不同位置,发现 context 从 1K 拉长到 1M,证据段的 softmax 分数稳定下降,相关性被无关 token 的分母稀释殆尽。换句话说,今天动辄百万 token 的 LLM,并不一定「看得更清」——只是「看得更乱」。 解法两手抓:一是 length-aware softmax,用 log 长度补偿分母衰减,让证据段分数不再随长度线性塌掉;二是 document-level sparse attention,先在 document 维度挑 top-k,再回细粒度打分,把注意力预算从「每个 token」重新分配到「每篇文档」。 产业含义:原本必须双塔向量库 + 重建 index 的 retrieval 流水线,可能被一个 0.6B 的「通用检索器」替代——对语料频繁变更的企业 RAG、法律证据检索场景,这种「模型即 retriever」的范式比 dense retrieval 更易维护。代价是 context 长度本身,1M token 推理在 H100 上仍是硬约束,能否产品化要看后续蒸馏与 speculative decoding 的工作。