AI2 开源 olmOCR:7B 视觉模型把 PDF 变干净 Markdown,百万页不到 200 美元,olmOCR-Bench 82.4 分碾压 Mistral OCR
AI2 开源 olmOCR7B 视觉模型把 PDF 变干净 Markdown百万页不到 200 美元olmOCR-Bench 82.4 分碾压 Mistral OCR PDF 转 Markdown 有多难AI2 说7B 模型就够了。olmOCR 基于 Qwen2.5-VL 微调支持 PDF/PNG/JPEG 一键转干净 Markdown数学公式、表格、手写体、多栏排版、复杂嵌套全搞定自动去除页眉页脚自然阅读顺序还原v0.4.0 引入 RL 训练olmOCR-Bench 82.4 分百万页转换不到 $20012GB 显存即可本地运行vLLM 推理引擎AWS S3 多节点并行Docker 一键部署Cirrascale/DeepInfra/Parasail 云端 API 按需调用两篇 arXiv 论文AI2 出品Apache 2.0 开源。 目录1. olmOCR 是什么2. 核心特性3. olmOCR-Bench7000 测试用例横评4. 版本演进与 RL 训练5. 安装指南6. 使用实战7. 云端推理无需 GPU8. 多节点集群百万 PDF 并行9. Docker 部署10. 可复用代码模块11. 竞品深度对比12. 成本分析13. 优缺点与使用建议14. 总结1. olmOCR 是什么olmOCR是 Allen Institute for AI (AI2) 开源的 PDF 线性化工具包将 PDF 和图像文档转换为干净、可读的纯文本/Markdown 格式。 项目地址https://github.com/allenai/olmocr 在线体验https://olmocr.allenai.org/ 论文 v1arXiv 2502.18443 论文 v2arXiv 2510.19817RL 训练 Unit Test Rewards 许可证Apache 2.0 维护方AI2 AllenNLP 团队 当前版本v0.4.0olmOCR-2-7B-1025-FP8一句话总结olmOCR AI2 出品的 PDF→Markdown 转换器 7B 视觉语言模型驱动 数学公式/表格/手写/多栏全支持 百万页 $200 12GB 显存本地运行 vLLM S3 多节点并行 两篇 arXiv 论文2. 核心特性特性说明多格式输入PDF / PNG / JPEG 全支持干净 Markdown 输出数学公式、表格、手写体、复杂排版精准转换自动去除页眉页脚无需手动清理自然阅读顺序多栏排版、插图、嵌套内容正确还原超低成本 $200 / 百万页⚡vLLM 推理引擎高吞吐批量推理云端 APICirrascale / DeepInfra / Parasail 三家验证Docker 部署含模型镜像一键运行S3 多节点AWS S3 工作队列 多 Worker 并行olmOCR-Bench7000 测试用例1400 文档综合评测RL 训练v0.4.0 引入 GRPO 强化学习Unit Test Rewards️训练代码开源SFT GRPO 训练器可自己训练 OCR 模型3. olmOCR-Bench7000 测试用例横评olmOCR 自带olmOCR-Bench基准测试覆盖 7,000 测试用例、1,400 文档8 大维度全面评测。综合得分排行排名工具ArXiv旧扫描数学表格旧扫描页眉页脚多栏长文本基础综合1Chandra OCR 0.1.0*82.280.388.050.490.881.292.399.983.1±0.92Infinity-Parser 7B*84.483.885.047.988.784.286.499.882.5±?3olmOCR v0.4.083.082.384.947.796.183.781.999.782.4±1.14PaddleOCR-VL*85.771.084.137.897.079.985.798.580.0±1.05Marker 1.10.183.866.872.933.586.680.085.799.376.1±1.16DeepSeek-OCR77.273.680.233.396.166.479.499.875.7±1.07MinerU 2.5.4*76.654.684.933.796.678.283.593.775.2±1.18Mistral OCR API77.267.560.629.393.671.377.199.472.0±1.19Nanonets-OCR2-3B75.446.186.840.932.181.993.099.669.5±1.1⚠️ 标 * 号的工具可能使用了 olmOCR-Bench 训练数据结果仅供参考。olmOCR 优势维度维度olmOCR 得分亮点页眉页脚96.1 第二高自动去除能力极强基础 OCR99.7 几乎满分多栏83.7 复杂排版还原优秀旧扫描数学82.3 手写/模糊公式识别强ArXiv83.0论文转换出色4. 版本演进与 RL 训练版本时间线时间版本关键更新2025.02.25v0.1.58 初始公开发布 Demo2025.03.17v0.1.60采样温度优化性能提升2025.05.19v0.1.68olmOCR-Bench 发布得分 77.42025.05.23v0.1.70Docker 官方支持2025.06.17v0.1.75SGLang →vLLM推理引擎切换2025.07.23v0.2.0训练代码开源SFTGRPO2025.07.24v0.2.1新模型 FP8Bench 3 分更快更稳2025.08.13v0.3.0修复自动旋转 空白页幻觉2025.10.21v0.4.0olmOCR-2-7B-1025-FP8RL 训练Bench 4 分v0.4.0 核心突破RL 训练 Unit Test RewardsolmOCR v1 → 纯 SFT 监督微调 olmOCR v2 → SFT GRPO 强化学习 创新点Unit Test Rewards 传统 RLHF人类标注偏好 → 训练奖励模型 → PPO olmOCR v2编写单元测试作为奖励信号 → GRPO 训练 优势 ✅ 无需人工标注偏好数据 ✅ 奖励信号精确可控 ✅ 可针对特定错误类型如表格错位、公式乱码定向优化 ✅ Bench 得分从 78.x → 82.4提升约 4 分5. 安装指南系统依赖Ubuntu/Debiansudoapt-getupdatesudoapt-getinstallpoppler-utils ttf-mscorefonts-installer msttcorefonts\fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools创建独立环境conda create-nolmocrpython3.11conda activate olmocr⚠️ olmocr 依赖较复杂务必使用全新环境四种安装方式方式命令适用场景轻量安装pip install olmocr仅用远程推理无 GPU本地 GPUpip install olmocr[gpu] --extra-index-url https://download.pytorch.org/whl/cu128本地 12GB 显存Beaker 集群pip install olmocr[beaker]AI2 Beaker 集群评测套件pip install olmocr[bench]运行 olmOCR-BenchGPU 加速推荐# 安装 FlashInfer 加速推理强烈推荐pipinstallhttps://download.pytorch.org/whl/cu128/flashinfer/flashinfer_python-0.2.5%2Bcu128torch2.7-cp38-abi3-linux_x86_64.whl故障排除# too many open files 错误ulimit-n65536硬件需求配置最低要求GPUNVIDIA 12GB VRAMRTX 4090 / L40S / A100 / H100 已测试磁盘30GB 可用空间模型olmOCR-2-7B-1025-FP8FP8 量化7B 参数6. 使用实战单个 PDF 转换# 下载样例 PDFcurl-oolmocr-sample.pdf https://olmocr.allenai.org/papers/olmocr_3pg_sample.pdf# 转换为 Markdownolmocr ./localworkspace--markdown--pdfsolmocr-sample.pdf# 查看结果catlocalworkspace/markdown/olmocr-sample.md图像文件转换olmocr ./localworkspace--markdown--pdfsrandom_page.png批量 PDF 转换olmocr ./localworkspace--markdown--pdfstests/gnarly_pdfs/*.pdf使用远程推理服务器olmocr ./localworkspace\--serverhttp://remote-server:8000/v1\--modelallenai/olmOCR-2-7B-1025-FP8\--markdown\--pdfs*.pdf输出说明./localworkspace/ ├── markdown/ # Markdown 输出--markdown 时生成 │ ├── doc1.md │ ├── doc2.md │ └── ... └── dolma/ # Dolma 格式输出训练数据格式 └── ...常用参数参数说明默认值--markdown同时输出 Markdown 文件关--workers并行 Worker 数1--pages_per_group每组页数—--apply_filter过滤英文非表单/SEO 垃圾关--guided_decoding启用引导解码关--max_page_retries单页最大重试次数—--stats查看工作区统计—7. 云端推理无需 GPU轻量安装# 无需 GPU 依赖pipinstallolmocr自建 vLLM 服务vllm serve allenai/olmOCR-2-7B-1025-FP8 --max-model-len16384已验证云端提供商提供商输入价格/1M token输出价格/1M tokenCirrascale$0.07$0.15DeepInfra$0.09$0.19Parasail$0.10$0.20Cirrascale 示例olmocr ./workspace\--serverhttps://ai2endpoints.cirrascale.ai/api\--api_keysk-XXXXXXX\--workers1\--max_concurrent_requests20\--modelolmOCR-2-7B-1025\--pdfstests/gnarly_pdfs/*.pdfDeepInfra 示例olmocr ./workspace\--serverhttps://api.deepinfra.com/v1/openai\--api_keyDfXXXXXXX\--workers1\--max_concurrent_requests20\--modelallenai/olmOCR-2-7B-1025\--pdfstests/gnarly_pdfs/*.pdf8. 多节点集群百万 PDF 并行AWS S3 多节点方案# 节点 1启动 添加 PDFolmocr s3://my_s3_bucket/pdfworkspaces/exampleworkspace\--pdfss3://my_s3_bucket/jakep/gnarly_pdfs/*.pdf# 节点 2-N自动加入工作队列olmocr s3://my_s3_bucket/pdfworkspaces/exampleworkspace工作流程 S3 Bucket (pdfworkspaces/exampleworkspace) ├── work_queue/ ← 待处理 PDF 列表 ├── results/ ← 已完成结果 └── checkpoints/ ← 进度检查点 Worker 1 ──→ 拉取任务 ──→ 处理 PDF ──→ 写入结果 Worker 2 ──→ 拉取任务 ──→ 处理 PDF ──→ 写入结果 Worker N ──→ 拉取任务 ──→ 处理 PDF ──→ 写入结果 自动负载均衡Worker 随时增减Beaker 集群AI2 内部pipinstallolmocr[gpu,beaker]--extra-index-url https://download.pytorch.org/whl/cu128 olmocr s3://my_s3_bucket/pdfworkspaces/exampleworkspace\--pdfss3://my_s3_bucket/jakep/gnarly_pdfs/*.pdf\--beaker--beaker_gpus49. Docker 部署拉取镜像# 含模型镜像~30GB开箱即用dockerpull alleninstituteforai/olmocr:latest-with-model# 基础镜像自行管理模型下载dockerpull alleninstituteforai/olmocr:latest处理单个 PDFdockerrun--gpusall\-v$(pwd):/workspace\alleninstituteforai/olmocr:latest-with-model\-colmocr /workspace/output --markdown --pdfs /workspace/sample.pdf批量处理dockerrun--gpusall\-v/path/to/pdfs:/input\-v/path/to/output:/output\alleninstituteforai/olmocr:latest-with-model\-colmocr /output --markdown --pdfs /input/*.pdf交互式调试dockerrun-it--gpusall alleninstituteforai/olmocr:latest-with-model10. 可复用代码模块olmOCR 提供多个可独立使用的模块适合二次开发模块路径功能GPT-4o 银标数据生成olmocr/data/buildsilver.py用 ChatGPT 4o 生成高质量 OCR 训练数据语言过滤 SEO 去噪olmocr/filter/filter.py过滤英文文档 去除 SEO 垃圾SFT 微调代码olmocr/train/train.pyQwen2.5-VL 的 SFT 微调器GRPO RL 训练器olmocr/train/grpo_train.py强化学习训练v0.4.0 核心合成数据生成olmocr/synth/mine_html_templates.py从 HTML 模板挖掘生成合成训练数据批量推理流水线olmocr/pipeline.py百万级 PDF vLLM 批量处理Dolma 文档查看器olmocr/viewer/dolmaviewer.py查看 Dolma 格式的 PDF 转换结果11. 竞品深度对比OCR 工具全方位对比对比维度olmOCR v0.4.0Mistral OCRMarkerMinerUPaddleOCR-VL综合得分82.472.076.175.280.0驱动方式7B VLM闭源 API传统管线传统管线VLM本地运行✅❌✅✅✅数学公式✅82.367.566.854.671.0表格识别✅84.960.672.984.984.1页眉页脚去除✅96.193.686.696.697.0多栏还原✅83.771.380.078.279.9Markdown 输出✅✅✅✅✅开源✅Apache 2.0❌✅✅✅训练代码✅SFTGRPO❌❌❌❌批量处理✅S3多节点API有限有限有限百万页成本$200昂贵低低低论文✅2篇 arXiv❌❌❌❌关键差异化olmOCR vs Mistral OCR API ✅ 开源可本地部署 vs 闭源仅 API ✅ 82.4 vs 72.0 综合得分10.4 ✅ 数学公式 82.3 vs 67.5 ✅ 表格 84.9 vs 60.6 ✅ 百万页 $200 vs API 按量计费 olmOCR vs Marker/MinerU ✅ VLM 驱动 vs 传统管线 ✅ 数学公式和复杂排版更强 ✅ 批量处理 S3 多节点 ✅ 训练代码完全开源 ✅ 2篇学术论文支撑 olmOCR vs PaddleOCR-VL ✅ 综合得分 82.4 vs 80.0 ✅ 数学公式 82.3 vs 71.0 ✅ 多栏 83.7 vs 79.9 ⚠️ PaddleOCR-VL 旧扫描得分更高37.8 vs 47.7...等一下实际是旧扫描得分 PaddleOCR 低12. 成本分析本地 GPU 运行项目成本一次性投入GPU12GB如 RTX 4090每页成本~$0.0002电费百万页成本 $200云端 API 运行提供商输入/1M token输出/1M token百万页估算Cirrascale$0.07$0.15~$50-150DeepInfra$0.09$0.19~$60-180Parasail$0.10$0.20~$70-200与 Mistral OCR API 对比方案百万页成本olmOCR 本地 $200olmOCR Cirrascale~$50-150Mistral OCR API显著更高13. 优缺点与使用建议✅ 优点维度评分说明转换质量⭐⭐⭐⭐⭐olmOCR-Bench 82.4数学/表格/多栏全优开源程度⭐⭐⭐⭐⭐Apache 2.0 模型权重 训练代码全开源成本⭐⭐⭐⭐⭐ $200/百万页本地运行近乎免费易用性⭐⭐⭐⭐一行命令转换但需 GPU 环境配置扩展性⭐⭐⭐⭐⭐S3 多节点 Beaker 集群 Docker学术背书⭐⭐⭐⭐⭐AI2 出品 2 篇 arXiv 论文云端支持⭐⭐⭐⭐三家 API 验证轻量安装无 GPU 也可用⚠️ 注意事项事项说明需要 GPU12GB VRAM消费级 RTX 4090 可用环境依赖必须用全新 conda 环境仅 Linux系统依赖poppler等面向 Ubuntu/DebianDocker 体积含模型镜像 ~30GB旧扫描文档旧扫描得分 47.7仍有提升空间Windows需 WSL2 运行 使用建议先试在线 Demoolmocr.allenai.org快速体验效果轻量安装 云端 API无 GPU 时用 DeepInfra/Cirrascalepip install olmocr即可本地 GPU 用 FP8 模型olmOCR-2-7B-1025-FP812GB 显存即可批量处理用 S3 模式多 Worker 并行百万级 PDF 无压力Docker 快速部署latest-with-model镜像开箱即用自己训练用 GRPO训练代码完全开源Unit Test Rewards 方法可复用关注版本更新从 v0.1.58 到 v0.4.0每个版本都有显著提升14. 总结olmOCR 是当前开源 PDF→Markdown 领域的顶尖项目82.4 分olmOCR-Bench 综合得分数学公式/表格/多栏全面领先7B VLM驱动FP8 量化 12GB 显存可用 $200 / 百万页本地运行近乎免费RL 训练创新Unit Test Rewards GRPOarXiv 两篇论文全开源模型权重 SFT/GRPO 训练代码 推理流水线灵活部署本地 GPU / 云端 API / Docker / S3 多节点AI2 出品AllenNLP 团队维护学术 工程双保障推荐指数⭐⭐⭐⭐⭐无论你是要把论文 PDF 转成训练数据还是要批量处理企业文档olmOCR 都是当前最好的开源选择。7B 模型 RL 训练 全开源 超低成本PDF 转 Markdown 就该这么简单。 项目地址https://github.com/allenai/olmocr 在线体验https://olmocr.allenai.org/ 论文 v1arXiv 2502.18443 论文 v2arXiv 2510.19817 DockerDocker Hub标签#olmOCR #AI2 #PDF转Markdown #OCR #VLM #RL训练 #GRPO #文档处理

相关新闻

SOCD Cleaner终极指南:彻底解决游戏键盘方向冲突的免费神器

SOCD Cleaner终极指南:彻底解决游戏键盘方向冲突的免费神器

SOCD Cleaner终极指南:彻底解决游戏键盘方向冲突的免费神器 【免费下载链接】socd Key remapper for epic gamers 项目地址: https://gitcode.com/gh_mirrors/so/socd 还在为格斗游戏中同时按下W和S键导致角色卡顿而烦恼吗?或者射击游戏急停转向时…

2026/6/17 13:11:49阅读更多 →
3分钟学会:免费解锁各大音乐平台加密音乐,实现跨设备自由播放

3分钟学会:免费解锁各大音乐平台加密音乐,实现跨设备自由播放

3分钟学会:免费解锁各大音乐平台加密音乐,实现跨设备自由播放 【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库: 1. https://github.com/unlock-music/unlock-music ;2. https://git.unlock-music.dev/um/web…

2026/6/17 13:11:49阅读更多 →
基于AI政策路径模型:“2026年美联储利率决议公布时间表”观察框架

基于AI政策路径模型:“2026年美联储利率决议公布时间表”观察框架

摘要:本文通过AI货币政策路径预测模型,结合通胀演化数据、就业市场指标、利率点阵图变化以及市场预期定价机制,对2026年美联储议息周期进行系统分析。随着凯文沃什正式接任美联储掌门,美联储决策框架进入新的观察阶段,…

2026/6/17 13:11:49阅读更多 →
RSOME:用NumPy风格语法轻松实现鲁棒与分布鲁棒优化

RSOME:用NumPy风格语法轻松实现鲁棒与分布鲁棒优化

1. 项目概述 如果你在Python里做过优化建模,大概率用过 PuLP 、 CVXPY 或者 Pyomo 。这些工具各有千秋,但当我第一次接触到 RSOME (Robust Stochastic Optimization Made Easy)时,感觉像是发现了一个新大陆。它…

2026/6/17 17:24:54阅读更多 →
I2S音频接口时钟系统全解析:从MCLK到LRCK的实战计算

I2S音频接口时钟系统全解析:从MCLK到LRCK的实战计算

1. I2S音频接口时钟系统基础 第一次接触I2S接口时,我被那一堆时钟信号搞得晕头转向。MCLK、SCLK、LRCK...这些看似简单的时钟信号,在实际项目中却能让不少工程师栽跟头。记得去年调试一块音频板卡时,就因为搞错了MCLK分频比,导致…

2026/6/17 17:24:54阅读更多 →
社群运营329模型:从引流到转化的结构化实战指南

社群运营329模型:从引流到转化的结构化实战指南

1. 项目概述:从“qun329”看社群运营的底层逻辑与实战体系 最近在复盘几个做得还不错的私域项目时,我反复看到一个高频出现的词:“qun329”。这乍一看像是个随意的代号,但深入接触过一些操盘手和深度用户后,我发现&…

2026/6/17 17:24:54阅读更多 →
模板驱动型文档自动化:结构化内容与零代码自动化实践

模板驱动型文档自动化:结构化内容与零代码自动化实践

1. 项目概述:当文档生产变成“填空游戏” 你有没有经历过这种场景:每周一早上,市场部同事准时把一份PDF格式的电子书封面发到群里,标题是《2024Q2行业洞察白皮书》,副标题写着“数据驱动增长新范式”;三小时…

2026/6/17 17:24:54阅读更多 →
每日热门skill:你的AI终于能管项目了:Linear Skill如何让Agent成为团队最靠谱的PM

每日热门skill:你的AI终于能管项目了:Linear Skill如何让Agent成为团队最靠谱的PM

从"被动响应"到"主动管理",一个Skill让AI Agent掌控项目全流程 一、开篇:为什么你的AI Agent需要Linear? 想象一下这个场景: 周一早上,你打开Linear,发现周末有12个Issue被分配给你&…

2026/6/17 17:24:54阅读更多 →
Mermaid Live Editor:告别复杂图表工具,三步实现专业可视化创作

Mermaid Live Editor:告别复杂图表工具,三步实现专业可视化创作

Mermaid Live Editor:告别复杂图表工具,三步实现专业可视化创作 【免费下载链接】mermaid-live-editor Edit, preview and share mermaid charts/diagrams. New implementation of the live editor. 项目地址: https://gitcode.com/GitHub_Trending/me…

2026/6/17 17:19:48阅读更多 →
飞书机器人接入 OpenClaw 完整落地部署指南(含安装包)

飞书机器人接入 OpenClaw 完整落地部署指南(含安装包)

OpenClaw 2.7.9 对接飞书机器人完整配置教程 本文讲解借助长连接模式打通 OpenClaw 与飞书的操作流程,配置完成后,可在飞书私聊、群组内发送指令,调用本地 AI 实现电脑自动化操作。整体流程分为飞书平台创建应用、权限配置、密钥填写三大环节…

2026/6/17 10:40:20阅读更多 →
嵌入式处理器技术演进与飞思卡尔实战解析:从架构选型到系统设计

嵌入式处理器技术演进与飞思卡尔实战解析:从架构选型到系统设计

1. 嵌入式处理器:从“大脑”到“神经系统”的进化 在电子设备无处不在的今天,我们很少会去思考一个智能设备是如何“思考”和“行动”的。无论是汽车引擎的精准控制、工厂机械臂的流畅运转,还是智能家居的自动响应,其背后都离不开…

2026/6/17 10:40:20阅读更多 →
如何高效使用BallonTranslator:3分钟完成漫画翻译的完整实用指南

如何高效使用BallonTranslator:3分钟完成漫画翻译的完整实用指南

如何高效使用BallonTranslator:3分钟完成漫画翻译的完整实用指南 【免费下载链接】BallonsTranslator 深度学习辅助漫画翻译工具, 支持一键机翻和简单的图像/文本编辑 | Yet another computer-aided comic/manga translation tool powered by deeplearning 项目地…

2026/6/17 10:40:20阅读更多 →