BlockSearch 把语言模型变成「上下文检索器」：0.6B 在百万 token 上打平向量检索

「不用向量数据库，把候选文档塞进 context 让 LLM 自己挑」——这个诱人设想在 BlockSearch 之前从未在百万 token 量级上跑通。Microsoft Research 与华盛顿大学团队（Siddharth Gollapudi、Nilesh Gupta、Prasann Singhal、Sewon Min）在 arXiv 2607.01538 中，用 0.6B 的小模型把这件「看起来很贵」的事做成了：它在 BEIR 风格基准（MS MARCO、NQ）上和 dense retrieval 打平，而在强调长程关系的 LIMIT 上反超 3 倍，且比同期工作 MSA 小 7 倍。论文首先把矛头指向一个被忽视的失败模式——「attention dilution effect」。作者在 synthetic「needle-in-haystack」设置里把证据段放在不同位置，发现 context 从 1K 拉长到 1M，证据段的 softmax 分数稳定下降，相关性被无关 token 的分母稀释殆尽。换句话说，今天动辄百万 token 的 LLM，并不一定「看得更清」——只是「看得更乱」。解法两手抓：一是 length-aware softmax，用 log 长度补偿分母衰减，让证据段分数不再随长度线性塌掉；二是 document-level sparse attention，先在 document 维度挑 top-k，再回细粒度打分，把注意力预算从「每个 token」重新分配到「每篇文档」。产业含义：原本必须双塔向量库 + 重建 index 的 retrieval 流水线，可能被一个 0.6B 的「通用检索器」替代——对语料频繁变更的企业 RAG、法律证据检索场景，这种「模型即 retriever」的范式比 dense retrieval 更易维护。代价是 context 长度本身，1M token 推理在 H100 上仍是硬约束，能否产品化要看后续蒸馏与 speculative decoding 的工作。