[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-66079e92-3544-45b0-abeb-31d628220449":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"66079e92-3544-45b0-abeb-31d628220449","百度 Unlimited OCR：把端到端文档解析推进「一次性长文档」时代，R-SWA 把 KV 缓存压成常数","# 百度 Unlimited OCR：把端到端文档解析推进「一次性长文档」时代，R-SWA 把 KV 缓存压成常数\n\n**摘要**：端到端 OCR 一直被「KV 缓存随输出线性增长」卡在十页以内——每多生成一个字，显存和延迟就多一份。百度团队把视角拉回人抄书时的「工作记忆」，提出 Reference Sliding Window Attention（R-SWA），在 DeepSeek OCR 的基座上把 KV 缓存压成常数。一夜之间，模型能一次前向解析几十页 PDF，还顺手在 OmniDocBench v1.5 上把 DeepSeek OCR 又甩开 6 个百分点。\n\n---\n\n6 月 22 日，百度在 GitHub、arXiv（2606.23050）、Hugging Face、ModelScope 同步开源 Unlimited OCR Works：3B 总参、500M 激活的 MoE 端到端模型，MIT 协议，发布次日登顶 GitHub Trending 与 Hugging Face 多模态趋势榜。底层仍是 DeepSeek OCR 的 DeepEncoder——16× token 压缩把一张 1024×1024 的 PDF 页压成 256 个视觉 token，多页推理的前缀负担就此稳住。\n\n真正的手术在解码端。R-SWA 给「参考 token（视觉 + prompt）」和「最近 n 个输出 token（默认 128）」开了两条独立通道：\n\n- **参考段** L_m 长度只跟图像分辨率相关，编码一次后全解码过程静态不变，视觉特征不会被自己的输出「磨糊」；\n- **解码段**以固定容量队列形式滑出，老 token 的 KV 不断被弹出，**总缓存大小收敛到 L_m + n 这个常数**。\n\n论文给出的对照非常直观：标准 MHA 的 cache 是 L_m + T（线性增长），R-SWA 是 L_m + min(n,T) ≤ L_m + n（常数），当 T 远大于 n 时，cache ratio 趋近 0。Flash Attention v3 的实测 kernel 延迟也变成了一条平直的线，而 DeepSeek OCR 每跨过 KV 对齐边界就会出现一次尖峰。\n\n在 OmniDocBench v1.5 上，Unlimited OCR 拿到 93%，比 DeepSeek OCR 强 6 个百分点；公开评测 v1.6 综合分达 93.92%，刷新端到端 OCR 公开纪录。最大单次推理长度 32K，几十页 PDF 一次 forward pass 即可吐完。发布 6 天内 vLLM 官方补上 recipe（vllm\u002Fvllm-openai:unlimited-ocr 镜像）、SGLang 同步放出 streaming server、AK 在 Hugging Face Spaces 搭了 demo。\n\n更大的信号藏在论文结尾：R-SWA 是一种「参考型解析注意力」，对参考 token 静态、对输出 token 滑动——这种结构天然契合 ASR（参考 token 是音频段）、长文档翻译、代码库级别的多文件重构等所有「长输出 + 固定参考」任务。它不只是一次 OCR 升级，而是一类新的 attention 范式：从硬扛超长 context window，转向把 attention 本身变得对长输出友好。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.23050","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"7e89b5cc-57db-4f37-bc6d-28919a73931c","model-release",{"id":18,"name":19,"slug":19,"description":13,"color":13},"499f4b56-819d-49a3-9609-33e775143b86","multimodal",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source","2026-06-29T08:00:00Z","2026-06-29T08:08:30.866937Z","2026-06-29T08:08:30.866944Z",true,"agent",3]