AI2 开源 olmOCR:7B 视觉模型把 PDF 变干净 Markdown,百万页不到 200 美元,olmOCR-Bench 82.4 分碾压 Mistral OCR
AI2 开源 olmOCR7B 视觉模型把 PDF 变干净 Markdown百万页不到 200 美元olmOCR-Bench 82.4 分碾压 Mistral OCR PDF 转 Markdown 有多难AI2 说7B 模型就够了。olmOCR 基于 Qwen2.5-VL 微调支持 PDF/PNG/JPEG 一键转干净 Markdown数学公式、表格、手写体、多栏排版、复杂嵌套全搞定自动去除页眉页脚自然阅读顺序还原v0.4.0 引入 RL 训练olmOCR-Bench 82.4 分百万页转换不到 $20012GB 显存即可本地运行vLLM 推理引擎AWS S3 多节点并行Docker 一键部署Cirrascale/DeepInfra/Parasail 云端 API 按需调用两篇 arXiv 论文AI2 出品Apache 2.0 开源。 目录1. olmOCR 是什么2. 核心特性3. olmOCR-Bench7000 测试用例横评4. 版本演进与 RL 训练5. 安装指南6. 使用实战7. 云端推理无需 GPU8. 多节点集群百万 PDF 并行9. Docker 部署10. 可复用代码模块11. 竞品深度对比12. 成本分析13. 优缺点与使用建议14. 总结1. olmOCR 是什么olmOCR是 Allen Institute for AI (AI2) 开源的 PDF 线性化工具包将 PDF 和图像文档转换为干净、可读的纯文本/Markdown 格式。 项目地址https://github.com/allenai/olmocr 在线体验https://olmocr.allenai.org/ 论文 v1arXiv 2502.18443 论文 v2arXiv 2510.19817RL 训练 Unit Test Rewards 许可证Apache 2.0 维护方AI2 AllenNLP 团队 当前版本v0.4.0olmOCR-2-7B-1025-FP8一句话总结olmOCR AI2 出品的 PDF→Markdown 转换器 7B 视觉语言模型驱动 数学公式/表格/手写/多栏全支持 百万页 $200 12GB 显存本地运行 vLLM S3 多节点并行 两篇 arXiv 论文2. 核心特性特性说明多格式输入PDF / PNG / JPEG 全支持干净 Markdown 输出数学公式、表格、手写体、复杂排版精准转换自动去除页眉页脚无需手动清理自然阅读顺序多栏排版、插图、嵌套内容正确还原超低成本 $200 / 百万页⚡vLLM 推理引擎高吞吐批量推理云端 APICirrascale / DeepInfra / Parasail 三家验证Docker 部署含模型镜像一键运行S3 多节点AWS S3 工作队列 多 Worker 并行olmOCR-Bench7000 测试用例1400 文档综合评测RL 训练v0.4.0 引入 GRPO 强化学习Unit Test Rewards️训练代码开源SFT GRPO 训练器可自己训练 OCR 模型3. olmOCR-Bench7000 测试用例横评olmOCR 自带olmOCR-Bench基准测试覆盖 7,000 测试用例、1,400 文档8 大维度全面评测。综合得分排行排名工具ArXiv旧扫描数学表格旧扫描页眉页脚多栏长文本基础综合1Chandra OCR 0.1.0*82.280.388.050.490.881.292.399.983.1±0.92Infinity-Parser 7B*84.483.885.047.988.784.286.499.882.5±?3olmOCR v0.4.083.082.384.947.796.183.781.999.782.4±1.14PaddleOCR-VL*85.771.084.137.897.079.985.798.580.0±1.05Marker 1.10.183.866.872.933.586.680.085.799.376.1±1.16DeepSeek-OCR77.273.680.233.396.166.479.499.875.7±1.07MinerU 2.5.4*76.654.684.933.796.678.283.593.775.2±1.18Mistral OCR API77.267.560.629.393.671.377.199.472.0±1.19Nanonets-OCR2-3B75.446.186.840.932.181.993.099.669.5±1.1⚠️ 标 * 号的工具可能使用了 olmOCR-Bench 训练数据结果仅供参考。olmOCR 优势维度维度olmOCR 得分亮点页眉页脚96.1 第二高自动去除能力极强基础 OCR99.7 几乎满分多栏83.7 复杂排版还原优秀旧扫描数学82.3 手写/模糊公式识别强ArXiv83.0论文转换出色4. 版本演进与 RL 训练版本时间线时间版本关键更新2025.02.25v0.1.58 初始公开发布 Demo2025.03.17v0.1.60采样温度优化性能提升2025.05.19v0.1.68olmOCR-Bench 发布得分 77.42025.05.23v0.1.70Docker 官方支持2025.06.17v0.1.75SGLang →vLLM推理引擎切换2025.07.23v0.2.0训练代码开源SFTGRPO2025.07.24v0.2.1新模型 FP8Bench 3 分更快更稳2025.08.13v0.3.0修复自动旋转 空白页幻觉2025.10.21v0.4.0olmOCR-2-7B-1025-FP8RL 训练Bench 4 分v0.4.0 核心突破RL 训练 Unit Test RewardsolmOCR v1 → 纯 SFT 监督微调 olmOCR v2 → SFT GRPO 强化学习 创新点Unit Test Rewards 传统 RLHF人类标注偏好 → 训练奖励模型 → PPO olmOCR v2编写单元测试作为奖励信号 → GRPO 训练 优势 ✅ 无需人工标注偏好数据 ✅ 奖励信号精确可控 ✅ 可针对特定错误类型如表格错位、公式乱码定向优化 ✅ Bench 得分从 78.x → 82.4提升约 4 分5. 安装指南系统依赖Ubuntu/Debiansudoapt-getupdatesudoapt-getinstallpoppler-utils ttf-mscorefonts-installer msttcorefonts\fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools创建独立环境conda create-nolmocrpython3.11conda activate olmocr⚠️ olmocr 依赖较复杂务必使用全新环境四种安装方式方式命令适用场景轻量安装pip install olmocr仅用远程推理无 GPU本地 GPUpip install olmocr[gpu] --extra-index-url https://download.pytorch.org/whl/cu128本地 12GB 显存Beaker 集群pip install olmocr[beaker]AI2 Beaker 集群评测套件pip install olmocr[bench]运行 olmOCR-BenchGPU 加速推荐# 安装 FlashInfer 加速推理强烈推荐pipinstallhttps://download.pytorch.org/whl/cu128/flashinfer/flashinfer_python-0.2.5%2Bcu128torch2.7-cp38-abi3-linux_x86_64.whl故障排除# too many open files 错误ulimit-n65536硬件需求配置最低要求GPUNVIDIA 12GB VRAMRTX 4090 / L40S / A100 / H100 已测试磁盘30GB 可用空间模型olmOCR-2-7B-1025-FP8FP8 量化7B 参数6. 使用实战单个 PDF 转换# 下载样例 PDFcurl-oolmocr-sample.pdf https://olmocr.allenai.org/papers/olmocr_3pg_sample.pdf# 转换为 Markdownolmocr ./localworkspace--markdown--pdfsolmocr-sample.pdf# 查看结果catlocalworkspace/markdown/olmocr-sample.md图像文件转换olmocr ./localworkspace--markdown--pdfsrandom_page.png批量 PDF 转换olmocr ./localworkspace--markdown--pdfstests/gnarly_pdfs/*.pdf使用远程推理服务器olmocr ./localworkspace\--serverhttp://remote-server:8000/v1\--modelallenai/olmOCR-2-7B-1025-FP8\--markdown\--pdfs*.pdf输出说明./localworkspace/ ├── markdown/ # Markdown 输出--markdown 时生成 │ ├── doc1.md │ ├── doc2.md │ └── ... └── dolma/ # Dolma 格式输出训练数据格式 └── ...常用参数参数说明默认值--markdown同时输出 Markdown 文件关--workers并行 Worker 数1--pages_per_group每组页数—--apply_filter过滤英文非表单/SEO 垃圾关--guided_decoding启用引导解码关--max_page_retries单页最大重试次数—--stats查看工作区统计—7. 云端推理无需 GPU轻量安装# 无需 GPU 依赖pipinstallolmocr自建 vLLM 服务vllm serve allenai/olmOCR-2-7B-1025-FP8 --max-model-len16384已验证云端提供商提供商输入价格/1M token输出价格/1M tokenCirrascale$0.07$0.15DeepInfra$0.09$0.19Parasail$0.10$0.20Cirrascale 示例olmocr ./workspace\--serverhttps://ai2endpoints.cirrascale.ai/api\--api_keysk-XXXXXXX\--workers1\--max_concurrent_requests20\--modelolmOCR-2-7B-1025\--pdfstests/gnarly_pdfs/*.pdfDeepInfra 示例olmocr ./workspace\--serverhttps://api.deepinfra.com/v1/openai\--api_keyDfXXXXXXX\--workers1\--max_concurrent_requests20\--modelallenai/olmOCR-2-7B-1025\--pdfstests/gnarly_pdfs/*.pdf8. 多节点集群百万 PDF 并行AWS S3 多节点方案# 节点 1启动 添加 PDFolmocr s3://my_s3_bucket/pdfworkspaces/exampleworkspace\--pdfss3://my_s3_bucket/jakep/gnarly_pdfs/*.pdf# 节点 2-N自动加入工作队列olmocr s3://my_s3_bucket/pdfworkspaces/exampleworkspace工作流程 S3 Bucket (pdfworkspaces/exampleworkspace) ├── work_queue/ ← 待处理 PDF 列表 ├── results/ ← 已完成结果 └── checkpoints/ ← 进度检查点 Worker 1 ──→ 拉取任务 ──→ 处理 PDF ──→ 写入结果 Worker 2 ──→ 拉取任务 ──→ 处理 PDF ──→ 写入结果 Worker N ──→ 拉取任务 ──→ 处理 PDF ──→ 写入结果 自动负载均衡Worker 随时增减Beaker 集群AI2 内部pipinstallolmocr[gpu,beaker]--extra-index-url https://download.pytorch.org/whl/cu128 olmocr s3://my_s3_bucket/pdfworkspaces/exampleworkspace\--pdfss3://my_s3_bucket/jakep/gnarly_pdfs/*.pdf\--beaker--beaker_gpus49. Docker 部署拉取镜像# 含模型镜像~30GB开箱即用dockerpull alleninstituteforai/olmocr:latest-with-model# 基础镜像自行管理模型下载dockerpull alleninstituteforai/olmocr:latest处理单个 PDFdockerrun--gpusall\-v$(pwd):/workspace\alleninstituteforai/olmocr:latest-with-model\-colmocr /workspace/output --markdown --pdfs /workspace/sample.pdf批量处理dockerrun--gpusall\-v/path/to/pdfs:/input\-v/path/to/output:/output\alleninstituteforai/olmocr:latest-with-model\-colmocr /output --markdown --pdfs /input/*.pdf交互式调试dockerrun-it--gpusall alleninstituteforai/olmocr:latest-with-model10. 可复用代码模块olmOCR 提供多个可独立使用的模块适合二次开发模块路径功能GPT-4o 银标数据生成olmocr/data/buildsilver.py用 ChatGPT 4o 生成高质量 OCR 训练数据语言过滤 SEO 去噪olmocr/filter/filter.py过滤英文文档 去除 SEO 垃圾SFT 微调代码olmocr/train/train.pyQwen2.5-VL 的 SFT 微调器GRPO RL 训练器olmocr/train/grpo_train.py强化学习训练v0.4.0 核心合成数据生成olmocr/synth/mine_html_templates.py从 HTML 模板挖掘生成合成训练数据批量推理流水线olmocr/pipeline.py百万级 PDF vLLM 批量处理Dolma 文档查看器olmocr/viewer/dolmaviewer.py查看 Dolma 格式的 PDF 转换结果11. 竞品深度对比OCR 工具全方位对比对比维度olmOCR v0.4.0Mistral OCRMarkerMinerUPaddleOCR-VL综合得分82.472.076.175.280.0驱动方式7B VLM闭源 API传统管线传统管线VLM本地运行✅❌✅✅✅数学公式✅82.367.566.854.671.0表格识别✅84.960.672.984.984.1页眉页脚去除✅96.193.686.696.697.0多栏还原✅83.771.380.078.279.9Markdown 输出✅✅✅✅✅开源✅Apache 2.0❌✅✅✅训练代码✅SFTGRPO❌❌❌❌批量处理✅S3多节点API有限有限有限百万页成本$200昂贵低低低论文✅2篇 arXiv❌❌❌❌关键差异化olmOCR vs Mistral OCR API ✅ 开源可本地部署 vs 闭源仅 API ✅ 82.4 vs 72.0 综合得分10.4 ✅ 数学公式 82.3 vs 67.5 ✅ 表格 84.9 vs 60.6 ✅ 百万页 $200 vs API 按量计费 olmOCR vs Marker/MinerU ✅ VLM 驱动 vs 传统管线 ✅ 数学公式和复杂排版更强 ✅ 批量处理 S3 多节点 ✅ 训练代码完全开源 ✅ 2篇学术论文支撑 olmOCR vs PaddleOCR-VL ✅ 综合得分 82.4 vs 80.0 ✅ 数学公式 82.3 vs 71.0 ✅ 多栏 83.7 vs 79.9 ⚠️ PaddleOCR-VL 旧扫描得分更高37.8 vs 47.7...等一下实际是旧扫描得分 PaddleOCR 低12. 成本分析本地 GPU 运行项目成本一次性投入GPU12GB如 RTX 4090每页成本~$0.0002电费百万页成本 $200云端 API 运行提供商输入/1M token输出/1M token百万页估算Cirrascale$0.07$0.15~$50-150DeepInfra$0.09$0.19~$60-180Parasail$0.10$0.20~$70-200与 Mistral OCR API 对比方案百万页成本olmOCR 本地 $200olmOCR Cirrascale~$50-150Mistral OCR API显著更高13. 优缺点与使用建议✅ 优点维度评分说明转换质量⭐⭐⭐⭐⭐olmOCR-Bench 82.4数学/表格/多栏全优开源程度⭐⭐⭐⭐⭐Apache 2.0 模型权重 训练代码全开源成本⭐⭐⭐⭐⭐ $200/百万页本地运行近乎免费易用性⭐⭐⭐⭐一行命令转换但需 GPU 环境配置扩展性⭐⭐⭐⭐⭐S3 多节点 Beaker 集群 Docker学术背书⭐⭐⭐⭐⭐AI2 出品 2 篇 arXiv 论文云端支持⭐⭐⭐⭐三家 API 验证轻量安装无 GPU 也可用⚠️ 注意事项事项说明需要 GPU12GB VRAM消费级 RTX 4090 可用环境依赖必须用全新 conda 环境仅 Linux系统依赖poppler等面向 Ubuntu/DebianDocker 体积含模型镜像 ~30GB旧扫描文档旧扫描得分 47.7仍有提升空间Windows需 WSL2 运行 使用建议先试在线 Demoolmocr.allenai.org快速体验效果轻量安装 云端 API无 GPU 时用 DeepInfra/Cirrascalepip install olmocr即可本地 GPU 用 FP8 模型olmOCR-2-7B-1025-FP812GB 显存即可批量处理用 S3 模式多 Worker 并行百万级 PDF 无压力Docker 快速部署latest-with-model镜像开箱即用自己训练用 GRPO训练代码完全开源Unit Test Rewards 方法可复用关注版本更新从 v0.1.58 到 v0.4.0每个版本都有显著提升14. 总结olmOCR 是当前开源 PDF→Markdown 领域的顶尖项目82.4 分olmOCR-Bench 综合得分数学公式/表格/多栏全面领先7B VLM驱动FP8 量化 12GB 显存可用 $200 / 百万页本地运行近乎免费RL 训练创新Unit Test Rewards GRPOarXiv 两篇论文全开源模型权重 SFT/GRPO 训练代码 推理流水线灵活部署本地 GPU / 云端 API / Docker / S3 多节点AI2 出品AllenNLP 团队维护学术 工程双保障推荐指数⭐⭐⭐⭐⭐无论你是要把论文 PDF 转成训练数据还是要批量处理企业文档olmOCR 都是当前最好的开源选择。7B 模型 RL 训练 全开源 超低成本PDF 转 Markdown 就该这么简单。 项目地址https://github.com/allenai/olmocr 在线体验https://olmocr.allenai.org/ 论文 v1arXiv 2502.18443 论文 v2arXiv 2510.19817 DockerDocker Hub标签#olmOCR #AI2 #PDF转Markdown #OCR #VLM #RL训练 #GRPO #文档处理

相关新闻

SOCD Cleaner终极指南:彻底解决游戏键盘方向冲突的免费神器

SOCD Cleaner终极指南:彻底解决游戏键盘方向冲突的免费神器

SOCD Cleaner终极指南:彻底解决游戏键盘方向冲突的免费神器 【免费下载链接】socd Key remapper for epic gamers 项目地址: https://gitcode.com/gh_mirrors/so/socd 还在为格斗游戏中同时按下W和S键导致角色卡顿而烦恼吗?或者射击游戏急停转向时…

2026/6/17 13:11:49阅读更多 →
3分钟学会:免费解锁各大音乐平台加密音乐,实现跨设备自由播放

3分钟学会:免费解锁各大音乐平台加密音乐,实现跨设备自由播放

3分钟学会:免费解锁各大音乐平台加密音乐,实现跨设备自由播放 【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库: 1. https://github.com/unlock-music/unlock-music ;2. https://git.unlock-music.dev/um/web…

2026/6/17 13:11:49阅读更多 →
基于AI政策路径模型:“2026年美联储利率决议公布时间表”观察框架

基于AI政策路径模型:“2026年美联储利率决议公布时间表”观察框架

摘要:本文通过AI货币政策路径预测模型,结合通胀演化数据、就业市场指标、利率点阵图变化以及市场预期定价机制,对2026年美联储议息周期进行系统分析。随着凯文沃什正式接任美联储掌门,美联储决策框架进入新的观察阶段,…

2026/6/17 13:11:49阅读更多 →
3步构建ESP32物联网水产养殖监控系统:从零到智能控制

3步构建ESP32物联网水产养殖监控系统:从零到智能控制

3步构建ESP32物联网水产养殖监控系统:从零到智能控制 【免费下载链接】arduino-esp32 Arduino core for the ESP32 family of SoCs 项目地址: https://gitcode.com/GitHub_Trending/ar/arduino-esp32 想象一下,深夜鱼塘突然缺氧,你却在…

2026/6/17 17:29:57阅读更多 →
机器学习从零实现:企业级AI教育转型的5大技术优势与实施指南

机器学习从零实现:企业级AI教育转型的5大技术优势与实施指南

机器学习从零实现:企业级AI教育转型的5大技术优势与实施指南 【免费下载链接】ML-From-Scratch Machine Learning From Scratch. Bare bones NumPy implementations of machine learning models and algorithms with a focus on accessibility. Aims to cover every…

2026/6/17 17:29:57阅读更多 →
从原理到实践:在Unreal中构建基于波叠加的动态水面材质

从原理到实践:在Unreal中构建基于波叠加的动态水面材质

1. 为什么我们需要波叠加技术 第一次在游戏中看到逼真的水面效果时,那种震撼感至今难忘。记得多年前玩《盗贼之海》,船只在起伏的海浪中穿行,阳光在水面折射出的光斑,还有浪花拍打船身的细节,都让我惊叹不已。这种效果…

2026/6/17 17:29:57阅读更多 →
【网工入门-eNSP模拟-10】ACL访问控制列表

【网工入门-eNSP模拟-10】ACL访问控制列表

ACL(Access Control List,访问控制列表) 是一系列规则的集合。它的核心作用是对网络中的数据包进行“识别”和“分类”,然后根据识别结果,决定是允许(Permit) 还是拒绝(Deny&#xf…

2026/6/17 17:29:57阅读更多 →
豆包两大工程级指令:保真压缩与多立场萃取实战指南

豆包两大工程级指令:保真压缩与多立场萃取实战指南

1. 项目概述:为什么这两个豆包指令值得反复验证 “多次尝试,这两个豆包指令真的真实”——这句话不是营销话术,也不是社群里常见的跟风转发,而是我过去三个月在真实工作流中反复压测、交叉验证后写下的结论。作为长期用AI工具重构…

2026/6/17 17:29:57阅读更多 →
RSOME:用NumPy风格语法轻松实现鲁棒与分布鲁棒优化

RSOME:用NumPy风格语法轻松实现鲁棒与分布鲁棒优化

1. 项目概述 如果你在Python里做过优化建模,大概率用过 PuLP 、 CVXPY 或者 Pyomo 。这些工具各有千秋,但当我第一次接触到 RSOME (Robust Stochastic Optimization Made Easy)时,感觉像是发现了一个新大陆。它…

2026/6/17 17:24:54阅读更多 →
飞书机器人接入 OpenClaw 完整落地部署指南(含安装包)

飞书机器人接入 OpenClaw 完整落地部署指南(含安装包)

OpenClaw 2.7.9 对接飞书机器人完整配置教程 本文讲解借助长连接模式打通 OpenClaw 与飞书的操作流程,配置完成后,可在飞书私聊、群组内发送指令,调用本地 AI 实现电脑自动化操作。整体流程分为飞书平台创建应用、权限配置、密钥填写三大环节…

2026/6/17 10:40:20阅读更多 →
嵌入式处理器技术演进与飞思卡尔实战解析:从架构选型到系统设计

嵌入式处理器技术演进与飞思卡尔实战解析:从架构选型到系统设计

1. 嵌入式处理器:从“大脑”到“神经系统”的进化 在电子设备无处不在的今天,我们很少会去思考一个智能设备是如何“思考”和“行动”的。无论是汽车引擎的精准控制、工厂机械臂的流畅运转,还是智能家居的自动响应,其背后都离不开…

2026/6/17 10:40:20阅读更多 →
如何高效使用BallonTranslator:3分钟完成漫画翻译的完整实用指南

如何高效使用BallonTranslator:3分钟完成漫画翻译的完整实用指南

如何高效使用BallonTranslator:3分钟完成漫画翻译的完整实用指南 【免费下载链接】BallonsTranslator 深度学习辅助漫画翻译工具, 支持一键机翻和简单的图像/文本编辑 | Yet another computer-aided comic/manga translation tool powered by deeplearning 项目地…

2026/6/17 10:40:20阅读更多 →