AI2 开源 olmOCR:7B 视觉模型把 PDF 变干净 Markdown,百万页不到 200 美元,olmOCR-Bench 82.4 分碾压 Mistral OCR
AI2 开源 olmOCR7B 视觉模型把 PDF 变干净 Markdown百万页不到 200 美元olmOCR-Bench 82.4 分碾压 Mistral OCR PDF 转 Markdown 有多难AI2 说7B 模型就够了。olmOCR 基于 Qwen2.5-VL 微调支持 PDF/PNG/JPEG 一键转干净 Markdown数学公式、表格、手写体、多栏排版、复杂嵌套全搞定自动去除页眉页脚自然阅读顺序还原v0.4.0 引入 RL 训练olmOCR-Bench 82.4 分百万页转换不到 $20012GB 显存即可本地运行vLLM 推理引擎AWS S3 多节点并行Docker 一键部署Cirrascale/DeepInfra/Parasail 云端 API 按需调用两篇 arXiv 论文AI2 出品Apache 2.0 开源。 目录1. olmOCR 是什么2. 核心特性3. olmOCR-Bench7000 测试用例横评4. 版本演进与 RL 训练5. 安装指南6. 使用实战7. 云端推理无需 GPU8. 多节点集群百万 PDF 并行9. Docker 部署10. 可复用代码模块11. 竞品深度对比12. 成本分析13. 优缺点与使用建议14. 总结1. olmOCR 是什么olmOCR是 Allen Institute for AI (AI2) 开源的 PDF 线性化工具包将 PDF 和图像文档转换为干净、可读的纯文本/Markdown 格式。 项目地址https://github.com/allenai/olmocr 在线体验https://olmocr.allenai.org/ 论文 v1arXiv 2502.18443 论文 v2arXiv 2510.19817RL 训练 Unit Test Rewards 许可证Apache 2.0 维护方AI2 AllenNLP 团队 当前版本v0.4.0olmOCR-2-7B-1025-FP8一句话总结olmOCR AI2 出品的 PDF→Markdown 转换器 7B 视觉语言模型驱动 数学公式/表格/手写/多栏全支持 百万页 $200 12GB 显存本地运行 vLLM S3 多节点并行 两篇 arXiv 论文2. 核心特性特性说明多格式输入PDF / PNG / JPEG 全支持干净 Markdown 输出数学公式、表格、手写体、复杂排版精准转换自动去除页眉页脚无需手动清理自然阅读顺序多栏排版、插图、嵌套内容正确还原超低成本 $200 / 百万页⚡vLLM 推理引擎高吞吐批量推理云端 APICirrascale / DeepInfra / Parasail 三家验证Docker 部署含模型镜像一键运行S3 多节点AWS S3 工作队列 多 Worker 并行olmOCR-Bench7000 测试用例1400 文档综合评测RL 训练v0.4.0 引入 GRPO 强化学习Unit Test Rewards️训练代码开源SFT GRPO 训练器可自己训练 OCR 模型3. olmOCR-Bench7000 测试用例横评olmOCR 自带olmOCR-Bench基准测试覆盖 7,000 测试用例、1,400 文档8 大维度全面评测。综合得分排行排名工具ArXiv旧扫描数学表格旧扫描页眉页脚多栏长文本基础综合1Chandra OCR 0.1.0*82.280.388.050.490.881.292.399.983.1±0.92Infinity-Parser 7B*84.483.885.047.988.784.286.499.882.5±?3olmOCR v0.4.083.082.384.947.796.183.781.999.782.4±1.14PaddleOCR-VL*85.771.084.137.897.079.985.798.580.0±1.05Marker 1.10.183.866.872.933.586.680.085.799.376.1±1.16DeepSeek-OCR77.273.680.233.396.166.479.499.875.7±1.07MinerU 2.5.4*76.654.684.933.796.678.283.593.775.2±1.18Mistral OCR API77.267.560.629.393.671.377.199.472.0±1.19Nanonets-OCR2-3B75.446.186.840.932.181.993.099.669.5±1.1⚠️ 标 * 号的工具可能使用了 olmOCR-Bench 训练数据结果仅供参考。olmOCR 优势维度维度olmOCR 得分亮点页眉页脚96.1 第二高自动去除能力极强基础 OCR99.7 几乎满分多栏83.7 复杂排版还原优秀旧扫描数学82.3 手写/模糊公式识别强ArXiv83.0论文转换出色4. 版本演进与 RL 训练版本时间线时间版本关键更新2025.02.25v0.1.58 初始公开发布 Demo2025.03.17v0.1.60采样温度优化性能提升2025.05.19v0.1.68olmOCR-Bench 发布得分 77.42025.05.23v0.1.70Docker 官方支持2025.06.17v0.1.75SGLang →vLLM推理引擎切换2025.07.23v0.2.0训练代码开源SFTGRPO2025.07.24v0.2.1新模型 FP8Bench 3 分更快更稳2025.08.13v0.3.0修复自动旋转 空白页幻觉2025.10.21v0.4.0olmOCR-2-7B-1025-FP8RL 训练Bench 4 分v0.4.0 核心突破RL 训练 Unit Test RewardsolmOCR v1 → 纯 SFT 监督微调 olmOCR v2 → SFT GRPO 强化学习 创新点Unit Test Rewards 传统 RLHF人类标注偏好 → 训练奖励模型 → PPO olmOCR v2编写单元测试作为奖励信号 → GRPO 训练 优势 ✅ 无需人工标注偏好数据 ✅ 奖励信号精确可控 ✅ 可针对特定错误类型如表格错位、公式乱码定向优化 ✅ Bench 得分从 78.x → 82.4提升约 4 分5. 安装指南系统依赖Ubuntu/Debiansudoapt-getupdatesudoapt-getinstallpoppler-utils ttf-mscorefonts-installer msttcorefonts\fonts-crosextra-caladea fonts-crosextra-carlito gsfonts lcdf-typetools创建独立环境conda create-nolmocrpython3.11conda activate olmocr⚠️ olmocr 依赖较复杂务必使用全新环境四种安装方式方式命令适用场景轻量安装pip install olmocr仅用远程推理无 GPU本地 GPUpip install olmocr[gpu] --extra-index-url https://download.pytorch.org/whl/cu128本地 12GB 显存Beaker 集群pip install olmocr[beaker]AI2 Beaker 集群评测套件pip install olmocr[bench]运行 olmOCR-BenchGPU 加速推荐# 安装 FlashInfer 加速推理强烈推荐pipinstallhttps://download.pytorch.org/whl/cu128/flashinfer/flashinfer_python-0.2.5%2Bcu128torch2.7-cp38-abi3-linux_x86_64.whl故障排除# too many open files 错误ulimit-n65536硬件需求配置最低要求GPUNVIDIA 12GB VRAMRTX 4090 / L40S / A100 / H100 已测试磁盘30GB 可用空间模型olmOCR-2-7B-1025-FP8FP8 量化7B 参数6. 使用实战单个 PDF 转换# 下载样例 PDFcurl-oolmocr-sample.pdf https://olmocr.allenai.org/papers/olmocr_3pg_sample.pdf# 转换为 Markdownolmocr ./localworkspace--markdown--pdfsolmocr-sample.pdf# 查看结果catlocalworkspace/markdown/olmocr-sample.md图像文件转换olmocr ./localworkspace--markdown--pdfsrandom_page.png批量 PDF 转换olmocr ./localworkspace--markdown--pdfstests/gnarly_pdfs/*.pdf使用远程推理服务器olmocr ./localworkspace\--serverhttp://remote-server:8000/v1\--modelallenai/olmOCR-2-7B-1025-FP8\--markdown\--pdfs*.pdf输出说明./localworkspace/ ├── markdown/ # Markdown 输出--markdown 时生成 │ ├── doc1.md │ ├── doc2.md │ └── ... └── dolma/ # Dolma 格式输出训练数据格式 └── ...常用参数参数说明默认值--markdown同时输出 Markdown 文件关--workers并行 Worker 数1--pages_per_group每组页数—--apply_filter过滤英文非表单/SEO 垃圾关--guided_decoding启用引导解码关--max_page_retries单页最大重试次数—--stats查看工作区统计—7. 云端推理无需 GPU轻量安装# 无需 GPU 依赖pipinstallolmocr自建 vLLM 服务vllm serve allenai/olmOCR-2-7B-1025-FP8 --max-model-len16384已验证云端提供商提供商输入价格/1M token输出价格/1M tokenCirrascale$0.07$0.15DeepInfra$0.09$0.19Parasail$0.10$0.20Cirrascale 示例olmocr ./workspace\--serverhttps://ai2endpoints.cirrascale.ai/api\--api_keysk-XXXXXXX\--workers1\--max_concurrent_requests20\--modelolmOCR-2-7B-1025\--pdfstests/gnarly_pdfs/*.pdfDeepInfra 示例olmocr ./workspace\--serverhttps://api.deepinfra.com/v1/openai\--api_keyDfXXXXXXX\--workers1\--max_concurrent_requests20\--modelallenai/olmOCR-2-7B-1025\--pdfstests/gnarly_pdfs/*.pdf8. 多节点集群百万 PDF 并行AWS S3 多节点方案# 节点 1启动 添加 PDFolmocr s3://my_s3_bucket/pdfworkspaces/exampleworkspace\--pdfss3://my_s3_bucket/jakep/gnarly_pdfs/*.pdf# 节点 2-N自动加入工作队列olmocr s3://my_s3_bucket/pdfworkspaces/exampleworkspace工作流程 S3 Bucket (pdfworkspaces/exampleworkspace) ├── work_queue/ ← 待处理 PDF 列表 ├── results/ ← 已完成结果 └── checkpoints/ ← 进度检查点 Worker 1 ──→ 拉取任务 ──→ 处理 PDF ──→ 写入结果 Worker 2 ──→ 拉取任务 ──→ 处理 PDF ──→ 写入结果 Worker N ──→ 拉取任务 ──→ 处理 PDF ──→ 写入结果 自动负载均衡Worker 随时增减Beaker 集群AI2 内部pipinstallolmocr[gpu,beaker]--extra-index-url https://download.pytorch.org/whl/cu128 olmocr s3://my_s3_bucket/pdfworkspaces/exampleworkspace\--pdfss3://my_s3_bucket/jakep/gnarly_pdfs/*.pdf\--beaker--beaker_gpus49. Docker 部署拉取镜像# 含模型镜像~30GB开箱即用dockerpull alleninstituteforai/olmocr:latest-with-model# 基础镜像自行管理模型下载dockerpull alleninstituteforai/olmocr:latest处理单个 PDFdockerrun--gpusall\-v$(pwd):/workspace\alleninstituteforai/olmocr:latest-with-model\-colmocr /workspace/output --markdown --pdfs /workspace/sample.pdf批量处理dockerrun--gpusall\-v/path/to/pdfs:/input\-v/path/to/output:/output\alleninstituteforai/olmocr:latest-with-model\-colmocr /output --markdown --pdfs /input/*.pdf交互式调试dockerrun-it--gpusall alleninstituteforai/olmocr:latest-with-model10. 可复用代码模块olmOCR 提供多个可独立使用的模块适合二次开发模块路径功能GPT-4o 银标数据生成olmocr/data/buildsilver.py用 ChatGPT 4o 生成高质量 OCR 训练数据语言过滤 SEO 去噪olmocr/filter/filter.py过滤英文文档 去除 SEO 垃圾SFT 微调代码olmocr/train/train.pyQwen2.5-VL 的 SFT 微调器GRPO RL 训练器olmocr/train/grpo_train.py强化学习训练v0.4.0 核心合成数据生成olmocr/synth/mine_html_templates.py从 HTML 模板挖掘生成合成训练数据批量推理流水线olmocr/pipeline.py百万级 PDF vLLM 批量处理Dolma 文档查看器olmocr/viewer/dolmaviewer.py查看 Dolma 格式的 PDF 转换结果11. 竞品深度对比OCR 工具全方位对比对比维度olmOCR v0.4.0Mistral OCRMarkerMinerUPaddleOCR-VL综合得分82.472.076.175.280.0驱动方式7B VLM闭源 API传统管线传统管线VLM本地运行✅❌✅✅✅数学公式✅82.367.566.854.671.0表格识别✅84.960.672.984.984.1页眉页脚去除✅96.193.686.696.697.0多栏还原✅83.771.380.078.279.9Markdown 输出✅✅✅✅✅开源✅Apache 2.0❌✅✅✅训练代码✅SFTGRPO❌❌❌❌批量处理✅S3多节点API有限有限有限百万页成本$200昂贵低低低论文✅2篇 arXiv❌❌❌❌关键差异化olmOCR vs Mistral OCR API ✅ 开源可本地部署 vs 闭源仅 API ✅ 82.4 vs 72.0 综合得分10.4 ✅ 数学公式 82.3 vs 67.5 ✅ 表格 84.9 vs 60.6 ✅ 百万页 $200 vs API 按量计费 olmOCR vs Marker/MinerU ✅ VLM 驱动 vs 传统管线 ✅ 数学公式和复杂排版更强 ✅ 批量处理 S3 多节点 ✅ 训练代码完全开源 ✅ 2篇学术论文支撑 olmOCR vs PaddleOCR-VL ✅ 综合得分 82.4 vs 80.0 ✅ 数学公式 82.3 vs 71.0 ✅ 多栏 83.7 vs 79.9 ⚠️ PaddleOCR-VL 旧扫描得分更高37.8 vs 47.7...等一下实际是旧扫描得分 PaddleOCR 低12. 成本分析本地 GPU 运行项目成本一次性投入GPU12GB如 RTX 4090每页成本~$0.0002电费百万页成本 $200云端 API 运行提供商输入/1M token输出/1M token百万页估算Cirrascale$0.07$0.15~$50-150DeepInfra$0.09$0.19~$60-180Parasail$0.10$0.20~$70-200与 Mistral OCR API 对比方案百万页成本olmOCR 本地 $200olmOCR Cirrascale~$50-150Mistral OCR API显著更高13. 优缺点与使用建议✅ 优点维度评分说明转换质量⭐⭐⭐⭐⭐olmOCR-Bench 82.4数学/表格/多栏全优开源程度⭐⭐⭐⭐⭐Apache 2.0 模型权重 训练代码全开源成本⭐⭐⭐⭐⭐ $200/百万页本地运行近乎免费易用性⭐⭐⭐⭐一行命令转换但需 GPU 环境配置扩展性⭐⭐⭐⭐⭐S3 多节点 Beaker 集群 Docker学术背书⭐⭐⭐⭐⭐AI2 出品 2 篇 arXiv 论文云端支持⭐⭐⭐⭐三家 API 验证轻量安装无 GPU 也可用⚠️ 注意事项事项说明需要 GPU12GB VRAM消费级 RTX 4090 可用环境依赖必须用全新 conda 环境仅 Linux系统依赖poppler等面向 Ubuntu/DebianDocker 体积含模型镜像 ~30GB旧扫描文档旧扫描得分 47.7仍有提升空间Windows需 WSL2 运行 使用建议先试在线 Demoolmocr.allenai.org快速体验效果轻量安装 云端 API无 GPU 时用 DeepInfra/Cirrascalepip install olmocr即可本地 GPU 用 FP8 模型olmOCR-2-7B-1025-FP812GB 显存即可批量处理用 S3 模式多 Worker 并行百万级 PDF 无压力Docker 快速部署latest-with-model镜像开箱即用自己训练用 GRPO训练代码完全开源Unit Test Rewards 方法可复用关注版本更新从 v0.1.58 到 v0.4.0每个版本都有显著提升14. 总结olmOCR 是当前开源 PDF→Markdown 领域的顶尖项目82.4 分olmOCR-Bench 综合得分数学公式/表格/多栏全面领先7B VLM驱动FP8 量化 12GB 显存可用 $200 / 百万页本地运行近乎免费RL 训练创新Unit Test Rewards GRPOarXiv 两篇论文全开源模型权重 SFT/GRPO 训练代码 推理流水线灵活部署本地 GPU / 云端 API / Docker / S3 多节点AI2 出品AllenNLP 团队维护学术 工程双保障推荐指数⭐⭐⭐⭐⭐无论你是要把论文 PDF 转成训练数据还是要批量处理企业文档olmOCR 都是当前最好的开源选择。7B 模型 RL 训练 全开源 超低成本PDF 转 Markdown 就该这么简单。 项目地址https://github.com/allenai/olmocr 在线体验https://olmocr.allenai.org/ 论文 v1arXiv 2502.18443 论文 v2arXiv 2510.19817 DockerDocker Hub标签#olmOCR #AI2 #PDF转Markdown #OCR #VLM #RL训练 #GRPO #文档处理

相关新闻

SOCD Cleaner终极指南:彻底解决游戏键盘方向冲突的免费神器

SOCD Cleaner终极指南:彻底解决游戏键盘方向冲突的免费神器

SOCD Cleaner终极指南:彻底解决游戏键盘方向冲突的免费神器 【免费下载链接】socd Key remapper for epic gamers 项目地址: https://gitcode.com/gh_mirrors/so/socd 还在为格斗游戏中同时按下W和S键导致角色卡顿而烦恼吗?或者射击游戏急停转向时…

2026/6/17 13:11:49阅读更多 →
3分钟学会:免费解锁各大音乐平台加密音乐,实现跨设备自由播放

3分钟学会:免费解锁各大音乐平台加密音乐,实现跨设备自由播放

3分钟学会:免费解锁各大音乐平台加密音乐,实现跨设备自由播放 【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库: 1. https://github.com/unlock-music/unlock-music ;2. https://git.unlock-music.dev/um/web…

2026/6/17 13:11:49阅读更多 →
基于AI政策路径模型:“2026年美联储利率决议公布时间表”观察框架

基于AI政策路径模型:“2026年美联储利率决议公布时间表”观察框架

摘要:本文通过AI货币政策路径预测模型,结合通胀演化数据、就业市场指标、利率点阵图变化以及市场预期定价机制,对2026年美联储议息周期进行系统分析。随着凯文沃什正式接任美联储掌门,美联储决策框架进入新的观察阶段,…

2026/6/17 13:11:49阅读更多 →
视频画质革命:5个理由选择Video2X实现AI视频放大

视频画质革命:5个理由选择Video2X实现AI视频放大

视频画质革命:5个理由选择Video2X实现AI视频放大 【免费下载链接】video2x A machine learning-based video super resolution and frame interpolation framework. Est. Hack the Valley II, 2018. 项目地址: https://gitcode.com/GitHub_Trending/vi/video2x …

2026/6/17 16:59:42阅读更多 →
经典MC68HC908GP32评估板与MON08调试接口深度解析

经典MC68HC908GP32评估板与MON08调试接口深度解析

1. 项目概述:从一块经典评估板说起如果你在十几年前接触过Freescale(现NXP)的8位微控制器,那么对MC68HC908GP32这颗芯片和它的官方评估板IDB-HC08GP一定不会陌生。这不是一块追求极致性能的板子,但它却是那个时代嵌入式…

2026/6/17 16:59:42阅读更多 →
第五人格登录助手:3分钟快速登录游戏的终极指南

第五人格登录助手:3分钟快速登录游戏的终极指南

第五人格登录助手:3分钟快速登录游戏的终极指南 【免费下载链接】idv-login idv-login is an IdentityV login tool. 项目地址: https://gitcode.com/gh_mirrors/idv/idv-login 第五人格登录助手(idv-login)是一款专为《第五人格》玩家…

2026/6/17 16:59:42阅读更多 →
免费畅玩Switch游戏:yuzu模拟器完整使用指南

免费畅玩Switch游戏:yuzu模拟器完整使用指南

免费畅玩Switch游戏:yuzu模拟器完整使用指南 【免费下载链接】yuzu 任天堂 Switch 模拟器 项目地址: https://gitcode.com/GitHub_Trending/yu/yuzu yuzu模拟器是目前最受欢迎的开源任天堂Switch模拟器,让你能够在Windows、Linux和Android设备上流…

2026/6/17 16:59:42阅读更多 →
本地大语言模型推理工具选型指南:Ollama、LM Studio与llama.cpp深度对比

本地大语言模型推理工具选型指南:Ollama、LM Studio与llama.cpp深度对比

1. 为什么“本地LLM推理服务工具”突然成了硬通货?——从一个被反复问爆的问题说起 上周三晚上十一点,我在技术群看到一条消息:“LM Studio装好了,但提示‘no lm runtime found for model format gguf’,重装三次还是…

2026/6/17 16:59:42阅读更多 →
Claude Opus 4.7推理强度调控与结构化开发实践

Claude Opus 4.7推理强度调控与结构化开发实践

1. 项目概述:这不是一次简单的模型升级,而是一次开发范式的迁移最近看到不少朋友在问“Opus 4.7到底值不值得换”、“和3.5比强在哪”、“要不要重写提示词”,我试了整整三周,从写自动化文档生成脚本、到重构一个老项目的技术评审…

2026/6/17 16:54:40阅读更多 →
飞书机器人接入 OpenClaw 完整落地部署指南(含安装包)

飞书机器人接入 OpenClaw 完整落地部署指南(含安装包)

OpenClaw 2.7.9 对接飞书机器人完整配置教程 本文讲解借助长连接模式打通 OpenClaw 与飞书的操作流程,配置完成后,可在飞书私聊、群组内发送指令,调用本地 AI 实现电脑自动化操作。整体流程分为飞书平台创建应用、权限配置、密钥填写三大环节…

2026/6/17 10:40:20阅读更多 →
嵌入式处理器技术演进与飞思卡尔实战解析:从架构选型到系统设计

嵌入式处理器技术演进与飞思卡尔实战解析:从架构选型到系统设计

1. 嵌入式处理器:从“大脑”到“神经系统”的进化 在电子设备无处不在的今天,我们很少会去思考一个智能设备是如何“思考”和“行动”的。无论是汽车引擎的精准控制、工厂机械臂的流畅运转,还是智能家居的自动响应,其背后都离不开…

2026/6/17 10:40:20阅读更多 →
如何高效使用BallonTranslator:3分钟完成漫画翻译的完整实用指南

如何高效使用BallonTranslator:3分钟完成漫画翻译的完整实用指南

如何高效使用BallonTranslator:3分钟完成漫画翻译的完整实用指南 【免费下载链接】BallonsTranslator 深度学习辅助漫画翻译工具, 支持一键机翻和简单的图像/文本编辑 | Yet another computer-aided comic/manga translation tool powered by deeplearning 项目地…

2026/6/17 10:40:20阅读更多 →