每日一个开源项目(第138篇):OpenMontage - 把 AI 编程助手变成完整的视频制作团队
引言“12 条生产流水线、52 个工具、500 Agent Skill——把你的 AI 编程助手变成完整的视频制作工作室。”这是每日一个开源项目系列的第138篇文章。今天的主角是OpenMontage——一个开源的 Agentic 视频生产系统用 Claude Code、Cursor 或 Codex 作为驱动引擎把自然语言提示变成完整制作的视频。大多数 AI 视频工具的输出是单个片段输入提示生成一段 5 秒的视频。OpenMontage 的设计目标不同——它模拟的是一个完整的视频制作团队研究员、编剧、分镜师、素材制作、剪辑、合成、质量审核每个阶段都有对应的 Agent Skill 在驱动。起点是一句自然语言描述终点是经过质量验证的完整视频文件。全程在你的 AI 编程助手里运行不需要切换工具。你将学到什么OpenMontage 的三层知识体系架构Tools / Skills / Pipeline Defs 如何协同12 条制作流水线的覆盖范围从动画解说到纪录片蒙太奇零付费路径不花一分钱能做出什么质量治理设计预合成验证、滑动风险评分、预算控制7 维度提供商评分系统AI 如何选择用哪个视频生成服务参考视频分析输入 YouTube 链接后发生了什么前置知识使用过 Claude Code、Cursor 或类似 AI 编程工具了解视频制作的基本流程脚本、镜头、配音、剪辑Python 基础使用经验项目背景项目简介OpenMontage 是一个 Agentic 视频生产系统定位是把 AI 编程助手变成完整的视频制作工作室。它解决的不是用 AI 生成一段视频的问题而是从零到发布的完整视频制作流程的问题。研究内容、写脚本、规划分镜、生成素材、剪辑、合成、质量检查——这些步骤在传统视频制作里分属不同的人在 OpenMontage 里对应不同的 Agent Skill由 AI 编程助手按流水线顺序执行。另一个设计重点是解决动态假图问题大多数 AI 视频工具生成的是静态图片帧的动画效果不是真正有运动的视频素材。OpenMontage 可以从 Pexels、Pixabay、Archive.org、NASA、维基共享资源等免费来源获取真实运动素材再做蒙太奇剪辑。作者介绍作者: calesthio社区: GitHub Discussions展示、想法、QA 分类License: AGPL-3.0视频频道: OpenMontage on YouTube项目数据⭐ GitHub Stars:9,000 Forks: 1,300 制作工具: 52 个 流水线: 12 条 Agent Skill: 500 License: AGPL-3.0主要功能核心作用传统 AI 视频工具 提示词 → 生成单个视频片段 → 用户手动拼接 OpenMontage 制作一个关于量子计算的 3 分钟科普视频 ↓ [研究] → 收集背景信息和事实 ↓ [提案] → 生成制作方案包含预估费用 ↓ [脚本] → 完整旁白文本 ↓ [分镜] → 每个场景的视觉规划 ↓ [素材] → 生成/获取视频、图片、配音、音乐 ↓ [剪辑] → 组装时间线 ↓ [合成] → 渲染最终视频 ↓ [质量审核] → 帧验证 音频分析 交付检查 ↓ 完整视频文件12 条制作流水线流水线输出Animated Explainer研究支撑的教育类动画视频Documentary Montage真实素材剪辑的纪录片风格视频Cinematic预告片、概念片、氛围短片Clip Factory把长内容批量切成短视频Talking Head主播/主持人视频Avatar Spokesperson数字人发言人视频Localization Dub多语言翻译配音版本Screen Demo软件操作演示录屏Podcast Repurpose播客音频→视频剪辑集锦Hybrid现有素材 AI 生成内容混合Animation动态图形、动态排版零付费路径不需要任何付费 API可以完整跑通一个视频组件零付费方案配音/TTSPiper离线免费视频素材Pexels、Pixabay、Archive.org、NASA、维基共享资源图像生成Stable Diffusion本地运行视频生成WAN 2.1、Hunyuan、LTX-Video本地 GPU合成/渲染RemotionReact、HyperFramesHTML/GSAP后期处理FFmpeg有付费 API 时的成本参考来自 READMEGhibli 风格动画12 张 FLUX 图 音乐$0.15Pixar 风格动画短片6 段 Kling 视频 配音$1.33产品广告仅 OpenAI$0.69快速开始安装gitclone https://github.com/calesthio/OpenMontage.gitcdOpenMontagemakesetup在 Claude Code 中使用cdOpenMontage claude# 打开 Claude Code然后直接用自然语言描述制作一个 2 分钟的视频介绍阿尔茨海默症的早期预警信号 面向 40-60 岁的普通观众科学严谨但不生硬 使用真实医疗素材不需要任何 AI 生成的人脸。Agent 会先生成制作方案和费用估算确认后才开始执行。项目详细剖析三层知识体系OpenMontage 的架构把能力和知识分成三层Layer 1: 执行层 tools/ ← 52 个 Python 工具 pipeline_defs/ ← 12 条 YAML 流水线定义 schemas/ ← 15 个 JSON Schema输入输出验证 └── 作用定义可以做什么和按什么顺序做 Layer 2: 使用规范层 skills/ ← OpenMontage 自身的使用约定 └── 作用告诉 Agent 如何正确使用这套工具 Layer 3: 外部技术知识层 .agents/skills/ ← 深度的外部技术知识 └── 作用关于 FFmpeg、Remotion、各提供商 API 的专业知识500 Agent Skill 分布在后两层相当于把视频制作领域的专家知识打包给了 AI 编程助手。每个 Skill 是一个 Markdown 文件包含这个步骤的专业知识、常见错误和判断标准。渲染引擎Remotion vs HyperFramesOpenMontage 支持两种合成渲染引擎各有适用场景RemotionReact 渲染用 React 组件描述视频帧适合需要精确时间控制的内容字幕、标题、数据可视化输出质量稳定开发者可以用 React 语法定制HyperFramesHTML/GSAP 渲染用 HTML GSAP 动画描述视频适合动态排版、品牌内容、Web 风格的视觉设计自定义灵活度高两者都通过 Node.js 在本地渲染不依赖外部服务。质量治理机制这是 OpenMontage 里工程设计含量最高的部分预合成验证门禁在开始渲染之前系统检查生产承诺是否满足。如果检测到以下情况拒绝继续执行计划输出与脚本内容不匹配场景覆盖率低于阈值素材质量不满足目标规格幻灯片风险评分Slideshow Risk Score6 个维度评估视频是否过于静态化——把一堆图片拼一起假装是视频场景平均时长运动素材占比摄像机运动检测场景切换频率音频动态范围视觉变化密度评分超过阈值Agent 会主动寻找更多动态素材或重新规划场景方案而不是直接输出一个幻灯片。预算控制默认配置 - 单次操作超过 $0.50 需要确认 - 总预算上限 $10 - 任何执行前先给出费用估算 调整方式 在对话中说 set budget cap to $5 或者修改配置文件渲染后自审FFprobe 验证分辨率、帧率、码率是否符合规格关键帧提取人工抽检视觉质量音频分析音量、静音检测、同步验证7 维度提供商评分系统当同一个任务有多个可选的视频/图像生成提供商时系统用 7 个维度打分选择维度权重说明任务匹配度30%这个提供商对当前类型任务的专长输出质量20%历史评测的质量分数可控性15%支持多少参数精细控制可靠性15%API 稳定性和成功率成本效率10%单位输出的费用延迟5%生成速度连续性5%跨场景风格一致性能力所有选择都写入决策审计日志包含推理过程。出了问题可以回溯AI 为什么选了这个提供商。参考视频分析功能一个很实用的功能提供一个 YouTube / TikTok / Reels 链接作为参考帮我做一个类似这个风格的视频https://youtube.com/watch?vxxx 主题换成量子计算时长 2 分钟但是面向中国观众Agent 会分析参考视频的旁白文本和节奏场景切换频率和节拍视觉风格类型钩子结构前 5 秒的设计然后生成差异化的制作方案不复制原视频而是学习风格并附上费用估算等待确认后才开始执行。项目地址与资源官方资源GitHub: calesthio/OpenMontageYouTube 频道: OpenMontage示例视频GitHub Discussions: 展示作品、提问、提想法技术栈参考Remotion: remotion.devGSAP: greensock.com/gsapPiper TTS: 开源离线 TTS总结OpenMontage 把视频制作这件事从要会用十几个专业软件变成了在 AI 编程助手里描述你想要什么。12 条流水线覆盖了从科普动画到产品广告的主要视频类型52 个工具对接了视频/图像/TTS/音乐/素材的完整供应链质量治理机制在防止 AI 交付一个幻灯片风格的劣质输出预算控制机制让成本可预期。零付费路径意义在于即使完全没有 API 预算也能跑通整个流程理解系统是怎么工作的再按需接入付费服务。9k Stars 对于一个功能如此复杂的项目来说增长速度很快说明AI 辅助视频制作这个方向有真实需求。探索 PrimeSkills —— 精选 AI Agent 与技能的市场每一个都经过真实企业工作流验证去掉浮夸留下真正有用的。欢迎访问我的个人主页发现更多有价值的见解和有趣的产品。

相关新闻

电商支付资损风险防控测试实战:从优惠叠加漏洞到大促零故障的完整路径

电商支付资损风险防控测试实战:从优惠叠加漏洞到大促零故障的完整路径

作者:李李李李某人 | 软件测试工程师本文基于实际电商项目经验,分享如何在支付模块测试中前置拦截资损风险,覆盖优惠叠加、支付中断、异常恢复等高危场景,并结合大促压测保障系统稳定性。一、背景与挑战1.1 电商支付的特殊性电商支…

2026/6/23 11:44:03阅读更多 →
12.1.1 质量属性概念 (续) - 运行期质量属性

12.1.1 质量属性概念 (续) - 运行期质量属性

运行期质量属性核心定义:指在软件运行阶段所关注的质量属性。主要内容:运行期质量属性主要包含以下七个方面:属性核心定义与说明性能软件系统及时提供相应服务的能力。包括对速度、吞吐量和容量等指标的要求。安全性软件系统同时兼顾向合法用…

2026/6/23 11:44:03阅读更多 →
Ubuntu如何卸載LibreOfflice

Ubuntu如何卸載LibreOfflice

LibreOffice的兼容性還是有待提升,建議大家直接使用WPS WPS Office for Linux-支持多版本下载_WPS官方网站 在Ubuntu上彻底卸载LibreOffice,只需打开终端(快捷键 Ctrl Alt T)并运行以下命令,即可移除主程序及所有关联…

2026/6/23 11:44:03阅读更多 →
如何解锁Arduino-ESP32中隐藏的ESP32-C2支持:完整指南

如何解锁Arduino-ESP32中隐藏的ESP32-C2支持:完整指南

如何解锁Arduino-ESP32中隐藏的ESP32-C2支持:完整指南 【免费下载链接】arduino-esp32 Arduino core for the ESP32 family of SoCs 项目地址: https://gitcode.com/GitHub_Trending/ar/arduino-esp32 Arduino-ESP32项目为ESP32系列芯片提供了完整的Arduino核…

2026/6/23 12:59:16阅读更多 →
如何用人体姿势直接搜索图片:Pose-Search终极指南

如何用人体姿势直接搜索图片:Pose-Search终极指南

如何用人体姿势直接搜索图片:Pose-Search终极指南 【免费下载链接】pose-search x6ud.github.io/pose-search 项目地址: https://gitcode.com/gh_mirrors/po/pose-search 想要找到特定动作的照片却不知如何描述?Pose-Search项目让你直接用人体姿势…

2026/6/23 12:59:16阅读更多 →
学历公证书怎么办理?学历公证需要什么材料?

学历公证书怎么办理?学历公证需要什么材料?

不少人第一次接触学历公证时,不清楚到底要准备什么材料、去哪办更省心。尤其是长期在外地工作、人在境外生活的朋友,总默认要回户籍地跑公证处才能办理,既耽误工作行程,来回奔波的成本也很高。 今天就围绕大家最关心的 “怎么办”…

2026/6/23 12:59:16阅读更多 →
洛雪音乐音源终极指南:3步免费解锁全网无损音乐体验

洛雪音乐音源终极指南:3步免费解锁全网无损音乐体验

洛雪音乐音源终极指南:3步免费解锁全网无损音乐体验 【免费下载链接】lxmusic- lxmusic(洛雪音乐)全网最新最全音源 项目地址: https://gitcode.com/gh_mirrors/lx/lxmusic- 想要免费享受全网高品质音乐吗?洛雪音乐音源项目为你提供了完美的解决方…

2026/6/23 12:59:16阅读更多 →
026、多文件协同修改:跨文件的批量重构、依赖更新与一致性保障

026、多文件协同修改:跨文件的批量重构、依赖更新与一致性保障

026、多文件协同修改:跨文件的批量重构、依赖更新与一致性保障上周五晚上十一点,我盯着屏幕上那个诡异的编译错误,头皮发麻。一个接口签名改了,结果散落在六个模块里的调用方全部报错——有的传参顺序没变,有的少传了一…

2026/6/23 12:59:16阅读更多 →
OpenArk深度解析:Windows系统内核级安全分析实战指南

OpenArk深度解析:Windows系统内核级安全分析实战指南

OpenArk深度解析:Windows系统内核级安全分析实战指南 【免费下载链接】OpenArk The Next Generation of Anti-Rookit(ARK) tool for Windows. 项目地址: https://gitcode.com/GitHub_Trending/op/OpenArk 在Windows安全分析领域,OpenArk作为新一代…

2026/6/23 12:54:15阅读更多 →
【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体 一文搞定到底什么是智能体【人工智能】一文搞定到底什么是智能体一. LM,WorkFlow,Agent分别有什么么不同二. Agent的思考过程是怎样的三. Agent的五个核心部分1)LLM2)Prompt3)Me…

2026/6/23 7:04:52阅读更多 →
嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件:从原理到实战的深度解析在嵌入式系统开发中,图形用户界面(GUI)的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台,嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/23 1:55:32阅读更多 →
Google AI Studio 300美元额度的真相与实战指南

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”,而是Google埋下的第一道技术门槛 你看到标题里那个醒目的“$300美金”时,第一反应可能是:又一个免费额度?领完就完事?我亲手试过——这300美金根本不是红包,而是一张入场券&…

2026/6/23 5:55:37阅读更多 →
2026年京东云 618 活动 Hermes Agent/OpenClaw配置Token Plan新手必看指南

2026年京东云 618 活动 Hermes Agent/OpenClaw配置Token Plan新手必看指南

2026年京东云 618 活动 Hermes Agent/OpenClaw配置Token Plan新手必看指南。OpenClaw是开源的个人AI助手,Hermes Agent则是一个能自我进化的AI智能体框架。阿里云提供计算巢、轻量服务器及无影云电脑三种部署OpenClaw 与 Hermes Agent的方案、百炼Token Plan兼容主流…

2026/6/23 0:00:38阅读更多 →
2026年北京电子沙盘制作公司深度评测:从技术选型到落地效果,谁在真正定义“数字+实体”的融合边界?

2026年北京电子沙盘制作公司深度评测:从技术选型到落地效果,谁在真正定义“数字+实体”的融合边界?

模块一:行业背景——百亿赛道爆发,北京市场的特殊性与选型困局2026年,电子沙盘行业已走过“要不要做”的讨论,进入“找谁做、怎么做”的深水区。据行业研究机构数据,2025年国内电子沙盘市场规模已突破85亿元&#xff0…

2026/6/23 0:00:38阅读更多 →
音视频场景下的 Java 开发者面试:技术与挑战

音视频场景下的 Java 开发者面试:技术与挑战

面试互联网大厂:从音视频场景看 Java 开发者的技能与挑战 在互联网大厂求职的面试中,Java 开发者往往需要面对严苛的技术问题。今天,我们将通过一位名叫燕双非的搞笑程序员与严肃的面试官之间的对话,看看在音视频场景下&#xff0…

2026/6/23 0:00:38阅读更多 →