别再一页一页翻了,Baidu Unlimited-OCR 正把 OCR 带进“整本读取”时代
如果你对OCR的印象还停留在“拍一页识别一页翻一页再来一页”Unlimited-OCR的出现会让这条赛道的重点发生变化。它真正吸引人的地方不是把单页识别再卷高一点而是把多页长文档的一次性解析推到更接近“连续阅读”的层面。过去的 OCR 工具常常像流水线先切页、再识别、再拼接遇到长 PDF、教材、研报、论文、表格混排材料时后处理成本很快就会冒出来。Unlimited-OCR 想解决的正是这个痛点让模型一次看完整份材料并尽量从第一页稳定读到最后一页。聚一口气读几十页告别单页孤岛Unlimited-OCR 的核心是One-shot Long-horizon Parsing也就是一次性长程解析。它不再把一份文档天然拆成很多彼此孤立的小任务而是希望像人读材料一样保持连续状态把多页内容放进同一次处理流程里。这类能力对真实场景非常关键。单页 OCR 做得再好遇到几十页报告时仍然会被页间顺序、上下文衔接、表格跨页、图片说明和段落连续性拖住。Unlimited-OCR 把“整份文档能不能稳定读完”放到模型能力中心使 OCR 从“识别工具”更接近“文档入口”。Unlimited-OCR 整体架构与类人工作记忆示意模拟人脑工作记忆长文处理不卡顿Unlimited-OCR 的设计灵感很直观人抄书时不会反复回看自己已经写过的全部内容而是始终盯着原文同时保留刚刚写下的一小段上下文。远处内容逐渐淡出近处信息保持清晰这种“工作记忆”让长时间转写不会越来越沉重。模型中的 R-SWA就是在模拟这种节奏。它让生成中的每个token都能看到完整参考内容同时只关注最近一段输出上下文。这样做的好处是文档越长系统不必背着全部历史输出继续前进KV cache 不会随着生成长度无限膨胀速度和显存压力也更容易被控制住。它不是更会死记硬背而是更会保持方向感。对于长文档OCR来说这一点比单纯堆上下文更重要。R-SWA 与普通注意力的对比示意高精度交付所见即所得长文档能力如果只停留在“能跑很长”并不能真正说服用户。Unlimited-OCR更值得关注的地方是它在文档解析指标上同样给出了强结果在OmniDocBench v1.5上整体分数达到93.23相比DeepSeek-OCR基线提升6.22在 v1.6 上达到93.92继续保持第一梯队表现。这意味着它不是牺牲识别质量换取长输出而是在文本、公式、表格结构、阅读顺序等文档关键环节上同步推进。对内容团队、知识库团队和企业文档场景来说这种“交付感”比单一指标更重要。长篇 PDF、白皮书、研报、招股书等连续文档论文、教材、讲义、试卷等图文混排资料需要批量转 Markdown、纯文本或知识库素材的整理链路需要保留阅读顺序、表格结构和公式信息的归档场景OmniDocBench v1.5/v1.6结果对比表从“识字”到“读资料”重塑工作流Unlimited-OCR 的想象空间不只在 OCR 本身。它是让模型在长程解析任务中保持稳定记忆、持续输出和较低资源压力。这种能力未来也可能迁移到语音转写、长文本翻译等需要“参考内容 连续输出”的任务里。对实际工作流来说OCR 过去常被当成第一步小工具把图片里的字拿出来任务就结束了。但现在OCR 更像一个入口它把纸面世界、扫描件和长 PDF 拉进可搜索、可编辑、可总结、可入库的数字链路。内容生产旧资料、长报告、PDF 文章可以更快进入二次编辑流程知识库建设扫描件和长文档更容易沉淀为可检索素材企业文档制度、合同、手册、档案的电子化成本有机会下降教育科研教材、论文、试卷、讲义的整理效率会更接近批量化处理当然“Unlimited”并不等于在有限上下文下真正无限。它更准确的意义是把 OCR 从短任务推进到长程任务让模型在几十页级别的文档里仍然尽量保持节奏。过去大家比的是“能不能识别”现在开始比的是“能不能连续、稳定、像人一样读完整份资料”。解码时延曲线社区地址OpenCSG社区https://opencsg.com/models/baidu/Unlimited-OCRHugging Face社区https://huggingface.co/baidu/Unlimited-OCR关于OpenCSGOpenCSG是全球领先的开源大模型社区平台致力于打造开放、协同、可持续生态AgenticOps是人工智能领域的一种AI原生方法论由OpenCSG开放传神提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的 一站式托管、协作与共享服务具备业界领先的模型资产管理能力支持多角色协同和高效复用。

相关新闻

【实战避坑】git clone 三大经典网络报错排查与修复指南

【实战避坑】git clone 三大经典网络报错排查与修复指南

1. 为什么git clone总在关键时刻掉链子? 每次git clone卡住的时候,我都恨不得把键盘砸了。上周团队新来的实习生对着终端红了眼眶,就因为死活拉不下来代码库。这场景太熟悉了——明明昨天还能用,今天突然就报错,连个像…

2026/6/28 19:20:04阅读更多 →
WarcraftHelper:让魔兽争霸3在现代电脑上焕发新生的144Hz高帧率优化方案

WarcraftHelper:让魔兽争霸3在现代电脑上焕发新生的144Hz高帧率优化方案

WarcraftHelper:让魔兽争霸3在现代电脑上焕发新生的144Hz高帧率优化方案 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 还在为魔兽争霸3这…

2026/6/28 19:20:04阅读更多 →
如何用一款浏览器扩展下载全网100+小说网站?novel-downloader完全指南

如何用一款浏览器扩展下载全网100+小说网站?novel-downloader完全指南

如何用一款浏览器扩展下载全网100小说网站?novel-downloader完全指南 【免费下载链接】novel-downloader 一个可扩展的通用型小说下载器。 项目地址: https://gitcode.com/gh_mirrors/no/novel-downloader 在数字阅读时代,你是否曾为心爱的小说突…

2026/6/28 19:20:04阅读更多 →
NVMe-MI oob:数据中心运维的“第二双眼睛”

NVMe-MI oob:数据中心运维的“第二双眼睛”

1. 当NVMe SSD"装死"时,运维工程师的救命稻草 那天凌晨3点,我正喝着第三杯咖啡盯着监控大屏,突然收到告警:某台数据库服务器的NVMe SSD响应延迟飙升到2000ms。更糟的是,当我尝试SSH登录查看时,系…

2026/6/28 20:36:07阅读更多 →
Android 12蓝牙权限变更实战:从BLUETOOTH到三大运行时权限的平滑迁移

Android 12蓝牙权限变更实战:从BLUETOOTH到三大运行时权限的平滑迁移

1. Android 12蓝牙权限变更背景 最近不少开发者反馈,原本运行良好的蓝牙功能在Android 12及以上系统突然失效了。这个问题不仅出现在原生Android系统,HarmonyOS 3.0.0也同样存在。经过排查发现,根本原因是Android 12对蓝牙权限模型进行了重大…

2026/6/28 20:36:07阅读更多 →
NHSE深度解析:动物森友会存档编辑器的技术架构与实战应用

NHSE深度解析:动物森友会存档编辑器的技术架构与实战应用

NHSE深度解析:动物森友会存档编辑器的技术架构与实战应用 【免费下载链接】NHSE Animal Crossing: New Horizons save editor 项目地址: https://gitcode.com/gh_mirrors/nh/NHSE NHSE(New Horizons Save Editor)是一款专为《集合啦&a…

2026/6/28 20:36:07阅读更多 →
VCS +vcs+initreg实战指南:从编译到运行,精准控制初始化

VCS +vcs+initreg实战指南:从编译到运行,精准控制初始化

1. 为什么需要初始化寄存器? 在芯片验证的门级网表仿真中,我们经常会遇到一个让人头疼的问题:仿真刚开始时,大量的寄存器、存储器和变量处于未定义的X态。这些X态会在仿真过程中不断传播,导致两个严重后果:…

2026/6/28 20:36:07阅读更多 →
SM9国密算法实战:从原理到GmSSL实现与性能优化

SM9国密算法实战:从原理到GmSSL实现与性能优化

1. 项目概述:为什么我们需要深入理解SM9?最近几年,但凡和“安全”、“国产化”、“信创”沾边的项目,国密算法都是一个绕不开的话题。从早期的SM2、SM3、SM4,到如今在更多场景下被提及的SM9,这些名词已经从…

2026/6/28 20:36:06阅读更多 →
WindowsCleaner深度解析:如何系统化解决Windows磁盘空间不足问题

WindowsCleaner深度解析:如何系统化解决Windows磁盘空间不足问题

WindowsCleaner深度解析:如何系统化解决Windows磁盘空间不足问题 【免费下载链接】WindowsCleaner Windows Cleaner——专治C盘爆红及各种不服! 项目地址: https://gitcode.com/gh_mirrors/wi/WindowsCleaner 在Windows系统的日常使用中&#xff…

2026/6/28 20:31:06阅读更多 →
AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/6/28 0:08:01阅读更多 →
审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

引言:审计结束三个月了,审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间,内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中,审计…

2026/6/28 0:08:01阅读更多 →
AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/6/28 0:08:01阅读更多 →
审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

引言:审计结束三个月了,审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间,内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中,审计…

2026/6/28 0:08:01阅读更多 →