一次吃下一本书！百度开源新OCR，作者疑似前DeepSeek研究员_科普教育

一次吃下一本书！百度开源新OCR，作者疑似前DeepSeek研究员

创始人

2026-06-23 19:07:47

henry 发自凹非寺

量子位 | 公众号 QbitAI

国产开源OCR又刷新SOTA！

刚刚，百度开源了全新的OCR新模型——

Unlimited OCR。

它主打一口气读完几十页长文档，并在OmniDocBench上刷新SOTA，整体成绩超过此前的DeepSeek OCR。

与传统OCR处理长文档时“一页一页读，再把结果拼回去”的思路不同，Unlimited OCR这次模仿了一种酷似人类抄录员的工作方式：

不再死记硬背前面已经抄写过的内容，而是只保留当前工作需要的信息和进度。

基于此，它能够像人一样连续阅读整本书，而不是每读完一页就中断一次，再从下一页重新开始。

更关键的是，借助创新的参考滑动窗口注意力（Reference Sliding Window Attention，R-SWA）机制，即便文档越来越长，显存占用和注意力计算开销也几乎不会增长。

这是怎么做到的？

for-loop只是权宜之计

要理解Unlimited OCR，得先看看传统OCR是怎么处理超长文档的。

简单来说，OCR（光学字符识别，Optical Character Recognition）就是把图片里的内容读出来，再转换成Markdown等可编辑文本。

在以往的处理流程中，一张图片会先进入编码器，被压缩成一串视觉Token；随后解码器再一个字一个字地把内容写出来。

但问题在于，传统的OCR解码器每生成一个新Token，它都需要回头查看之前生成过的所有Token，再决定下一个字该写什么。

于是文档越长，需要回看的历史内容就越多，KV Cache持续膨胀，显存占用和注意力计算开销也随之增长。

最终，无论是生成长度还是推理速度，都会受到限制。

这也是为什么现有OCR系统很难一次读完几十页文档，通常只能采用“逐页处理+结果拼接”的方案：

每读完一页就重置上下文，最后再由外部程序把结果重新拼起来。

这种for-loop式方案虽然工程上可行，但本质上只是权宜之计，而Unlimited OCR想解决的，正是进一步扩展模型在长程任务的表现。

参考滑动窗口注意力

那，问题来了。

如果不采用逐页重置的for-loop方案，模型又该如何在保持连续阅读状态的同时，避免KV Cache随着文档长度无限增长？

Unlimited OCR给出的答案，不是让模型记住更多东西，而是让模型学会像人一样“遗忘”。而这，就引出了它最核心的创新点：参考滑动窗口注意力。

为了说明参考滑动窗口注意力的设计思路，研究举了一个非常形象的例子：人类阅读长文档其实并不是全量回溯的。

比如抄写一本书时，你不会每写一个字都重新翻阅前面几十页。

你只会保留当前的阅读状态，以及刚刚写下的一小段内容，用来确认没有跳行、没有漏字，更久远的信息则会逐渐淡出记忆。

论文将这种机制称为软遗忘（Soft Forgetting）。

受此启发，参考滑动窗口注意力应运而生。

对于每个待生成Token，模型始终关注全部参考Token（Reference Tokens），也就是视觉Token和提示词；

与此同时，在输出端只保留最近n个历史Token（默认128个）参与注意力计算。

就好像你抄书的时候，原书始终摊开在桌面上，可以随时查看完整内容；

而手边只保留最近写下的几行字，用来追踪当前进度。更早的内容则自然淡出工作记忆。

这样一来，模型既能持续看到完整图像，又能依靠局部历史信息判断当前解析到了哪里。

此外，这里值得一提的，还有Unlimited OCR的KV Cache管理方式。

论文将KV Cache设计成一个固定长度的队列。每生成一个新Token，最旧的一部分状态就会自动移出，新状态再补进来。

因此，无论最终生成几千还是几万个Token，KV Cache规模始终保持恒定，显存占用和计算成本都不会继续增长。

这也是R-SWA与其他注意力机制最大的区别。

相比全注意力（Full Attention），后者的KV Cache会随着解码不断膨胀，而R-SWA始终保持固定大小。

相比传统滑动窗口注意力（SWA），后者会把视觉Token和文本Token一起放进窗口，随着窗口不断滑动，早期视觉信息会逐渐被挤出；解码越长，对原图的感知就越模糊。

而R-SWA则将视觉Token单独保留下来，让它们始终作为参考信息存在，不参与滑动窗口更新。

换句话说，图像始终保持清晰，发生滑动的只有输出文本本身。

正如上图所示，传统OCR越读越慢，而Unlimited OCR基本保持匀速运行，这正是R-SWA的价值所在。

实验验证

在实验部分，研究团队采用OmniDocBench v1.5和v1.6评估模型的文档解析能力，并额外构建了覆盖2页至40页以上文档的内部测试集，专门考察其长文档连续解析能力。

首先来看整体成绩。

在OmniDocBench v1.5上，Unlimited OCR取得了93.23%的综合得分，相比DeepSeek OCR提升6.22%。

在最新的v1.6版本中，成绩进一步达到93.92%，刷新当前SOTA。

在长文本解析能力方面，即便一次性输入40页以上内容，模型依然能够保持稳定表现。

其Distinct-35指标达到96.90%，编辑距离（Edit Distance）始终维持在0.1069以下。

换句话说，随着文档长度不断增长，模型并没有出现明显的内容混淆或解析质量下降。

除了精度提升，Unlimited OCR还带来了推理效率上的改善。

由于采用恒定KV Cache设计，模型的推理开销不会随着文档页数持续增长。在生成6000个Token时，其推理速度（TPS）相比DeepSeek OCR提升约35%。

与此同时，调用延迟（Latency）基本保持稳定，没有出现长文档场景下常见的延迟飙升现象。

OCR之外：一种新的长上下文思路

如果把最近一年的时间线串起来看，会发现一个有意思的现象：越来越多头部模型公司开始重兵投入OCR。

从DeepSeek年初发布OCR2，到智谱开源GLM-OCR，再到百度这次推出Unlimited OCR，大家争夺的早已不是单纯的文字识别能力，而是新的数据入口。

互联网数据正在被快速消耗，而企业真正有价值的数据，其实大量沉睡在PDF、合同、报告、票据和扫描件里。

对于人类来说，这些是信息，但对于模型来说，它们只是像素。

OCR的意义，就是把这些像素重新变成模型能够理解和推理的Token。因此，OCR正在从一个传统工具，逐渐变成AI时代最重要的数据入口之一。

不过，如果只把Unlimited OCR看成一个OCR模型，可能就低估了它。

过去两年，行业面对长上下文问题时，最主流的思路一直是扩容。

128K、1M、10M，上下文窗口不断变长；各种长上下文优化方案，本质上也都在思考如何让模型记住更多信息。

而R-SWA反着来。

与其让模型记住一切，不如让它学会像人一样遗忘。

所以说，Unlimited OCR看起来解决的是OCR问题，但它修改的是注意力机制本身。而注意力，恰恰是今天几乎所有大模型共同的基础设施。

因此，这篇论文真正讨论的，其实不只是OCR该怎么做，而是另一个更基础的问题：

当任务越来越长时，模型究竟该如何管理自己的记忆？

论文也给出了明确的路线图。

短期内，团队计划训练更长上下文版本，把解析能力扩展到128K；长期则希望构建类似“预填池（Prefill Pool）”的机制，让模型能够像人翻书一样，按需调取历史KV状态，进一步突破上下文限制。

而更有意思的是，他们计划将R-SWA扩展到语音识别、机器翻译等任务。

换句话说，OCR或许只是第一站。

某种程度上，这条“怎么记”的路线，也恰好与DeepSeek OCR2探索的“怎么看”形成了呼应：

前者关注视觉信息如何被更高效地理解，后者则开始思考这些信息该如何在超长任务中被保留、传递与遗忘。

从视觉理解到长期记忆，从OCR到更广义的长时推理。

或许，这才是Unlimited OCR真正想讲的故事。

One more thing

值得一提的是，技术报告发布后，作者名单里的一个名字也引发了不少讨论。

在三位核心贡献者中，有一位作者并没有使用全名，而是以“YY”的缩写署名，并被标注为技术总监。

这个YY是谁？

很快，网友们开始顺着论文里的各种细节寻找答案。

首先是这份技术报告本身。

从行文风格到技术叙事，读过DeepSeek OCR技术报告的人，大概率都会有一种熟悉感。

无论是强调“像人一样阅读文档”的理念，还是把技术问题包装成一个关于记忆与遗忘的故事，都带着浓厚的探索色彩。

而在技术实现上，Unlimited OCR同样出现了不少熟悉的身影。

众所周知，DeepEncoder最早正是在DeepSeek OCR中被提出。这次Unlimited OCR则直接沿用了这一高压缩率视觉编码器，并将创新重点放在了解码阶段的长期记忆机制上。

有意思的是，在项目GitHub页面的致谢部分，团队还专门提到了DeepSeek OCR和PaddleOCR等相关工作。

种种线索叠加之下，不少网友开始猜测：这位YY，很可能就是前DeepSeek OCR团队研究员魏浩然。

作为OCR领域的资深研究者，魏浩然此前曾在阶跃星辰工作，并主导开发了被称为“第二代OCR”代表作之一的GOT-OCR2.0。

该项目也是端到端OCR方向最早跑通的开源标杆之一。此后，他又参与了DeepSeek OCR系列的研发，在DeepSeek OCR和OCR2的核心作者名单中，长期出现的正是魏浩然、孙耀峰和李宇琨三人。

而这一次，在Unlimited OCR的技术报告中，人们似乎又看到了同一条研究路线继续向前延伸的影子。

当然，截至目前，YY的真实身份仍未得到官方确认。

但比身份本身更有意思的，或许是这篇论文所展现出的研究思路：

从视觉编码，到长期记忆；从“怎么看”，到“怎么记”。

而OCR，也许只是这条路线的第一站。

参考链接：

[1]https://github.com/baidu/Unlimited-OCR

[2]https://huggingface.co/baidu/Unlimited-OCR

上一篇：键凯科技涨5.21%，开源证券二个月前给出“买入”评级

下一篇：6月23日法拉电子跌6.03%，前海开源公用事业股票基金重仓该股

一次吃下一本书！百度开源新OCR，作者疑似前DeepSeek研究员

相关内容

热门资讯