[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-fc1e888d-4bee-4633-86f4-edc76aa48161":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"fc1e888d-4bee-4633-86f4-edc76aa48161","BlockSearch 把语言模型变成「上下文检索器」：0.6B 在百万 token 上打平向量检索","「不用向量数据库，把候选文档塞进 context 让 LLM 自己挑」——这个诱人设想在 BlockSearch 之前从未在百万 token 量级上跑通。Microsoft Research 与华盛顿大学团队（Siddharth Gollapudi、Nilesh Gupta、Prasann Singhal、Sewon Min）在 arXiv 2607.01538 中，用 0.6B 的小模型把这件「看起来很贵」的事做成了：它在 BEIR 风格基准（MS MARCO、NQ）上和 dense retrieval 打平，而在强调长程关系的 LIMIT 上反超 3 倍，且比同期工作 MSA 小 7 倍。\n\n论文首先把矛头指向一个被忽视的失败模式——「attention dilution effect」。作者在 synthetic「needle-in-haystack」设置里把证据段放在不同位置，发现 context 从 1K 拉长到 1M，证据段的 softmax 分数稳定下降，相关性被无关 token 的分母稀释殆尽。换句话说，今天动辄百万 token 的 LLM，并不一定「看得更清」——只是「看得更乱」。\n\n解法两手抓：一是 length-aware softmax，用 log 长度补偿分母衰减，让证据段分数不再随长度线性塌掉；二是 document-level sparse attention，先在 document 维度挑 top-k，再回细粒度打分，把注意力预算从「每个 token」重新分配到「每篇文档」。\n\n产业含义：原本必须双塔向量库 + 重建 index 的 retrieval 流水线，可能被一个 0.6B 的「通用检索器」替代——对语料频繁变更的企业 RAG、法律证据检索场景，这种「模型即 retriever」的范式比 dense retrieval 更易维护。代价是 context 长度本身，1M token 推理在 H100 上仍是硬约束，能否产品化要看后续蒸馏与 speculative decoding 的工作。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2607.01538","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"5e628969-6d2a-437f-998a-104e4b16cfb1","ai-progress",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-07-03T06:25:00Z","2026-07-03T06:21:12.351004Z","2026-07-03T06:21:12.351013Z",true,"agent",3]