世界模型VERA 技术解析
世界模型VERA 技术解析基于 https://github.com/sizhe-li/VERA 的代码阅读与讨论整理1. 整体架构VERA(Video-to-Embodied Robot Action)是一个两阶段闭环机器人策略:当前观测帧 ↓ [视频规划器] → 预测未来帧序列("做梦") ↓ [Jacobian IDM] → 将未来帧转化为机器人动作 ↓ 机器人执行器两个阶段的分工阶段模型作用是否与任务/机器人绑定视频规划器WAN(MimicGen)/ DFoT(PushT)预测未来视频帧与机器人无关(embodiment-agnostic)Jacobian IDMDPT + VGGT backbone图像运动 → 机器人动作与机器人绑定(embodiment-specific)2. 视频规划器PushT:DFoT(Diffusion with Flow of Things)U-Net 3D 视频扩散,像素空间,38MB100 步扩散采样,无文字条件本地小模型,专用于 PushT 仿真MimicGen:WAN(Wan2.1-T2V-1.3B)阿里通义"万象"视频生成模型(“万” = myriad)组成:T5-XXL 文字编码器(10.8GB)+ WAN DiT(5.3GB,1.3B参数)+ VAE(484MB)= 共约 16.7GB支持文字条件,可描述任务目标在 MimicGen 机器人视角视频上微调过3. Jacobian IDM为什么叫"雅可比"两处"雅可比"都是同一数学概念——非线性映射的局部线性化(偏导数矩阵):机器人运动学 Jacobian: J_robot = ∂x_eef / ∂q_joints (关节角 → 末端位姿) VERA 图像 Jacobian: J_image = ∂z_pixel / ∂u_action (机器人动作 → 像素运动)两者的核心思想都是:在当前点局部线性化,然后线性求解。IDM 的两个组成部分① 神经网络部分(需要训练,221MB)DPT + VGGT backbone,输入当前帧和预测的未来帧,输出每个像素处的 Jacobian 场:J ∈ R^{command_dim × spatial_dim × H × W}即:对图像中每个像素 (h,w),存一个矩阵,表示"机器人动作的每个维度,会让这个像素往哪个方向移动多少"。MimicGen:command_dim=7(末端 xyz+旋转3D+夹爪),spatial_dim=2(像素 x/y)PushT:command_dim=2,spatial_dim=2② 固定公式部分(Tikhonov 求解,无参数)有了神经网络预测的 J,以及视频规划器给出的目标像素运动 y(光流),用带正则化的最小二乘直接求解动作:du = argmin ||J·u - y||² + λ²||u||² 解析解:du = (J^T J + λ²I)^{-1} J^T y代码位置:vera/policy/motion_policy_types.py:21,函数tikhonov_solve。2D 像素运动如何推出 7D 末端动作这是系统严重超定的方程组:未知数:7 个(动作维度)方程数:2 × H × W ≈ 2 × 128 × 128 =32768 个z 方向(深度)不需要显式感知——不同 3D 运动在图像上产生不同的 2D 流场模式:末端向右(x) → 所有像素均匀向右平移 末端向前(z) → 像素从焦点径向扩散(放大效果) 末端旋转(Rz) → 像素绕中心旋转(旋涡流场)这些 2D 模式可以区分,有 32768 个方程约束 7 个未知数,联立求解可以还原出完整的 3D 运动(包括 Δz)。VGGT backbone 本身是做 3D 重建的,天然带有深度感知能力,进一步帮助这个过程。4. IDM 的输出IDM 的输出du是末端执行器的增量动作:MimicGen(7维):du = [ Δx, Δy, Δz, Δθx, Δθy, Δθz, Δgripper ] ←── 3D 平移 ──→ ←── 3D 旋转(旋转向量) ──→ ←夹爪→由SE3QuatDeltaAction(vera/datasets/core/actions.py:158)定义:前 6 维:相邻帧末端位姿做 SE(3) 有限差分转成 twist(线速度+角速度)第 7 维:gripper_qpos[t+1] - gripper_qpos[t],夹爪开合增量PushT(2维):du = [ Δx, Δy ] ←

相关新闻

Havenlon 内容阅读入口:从执行控制、证据链到物理信任边界

Havenlon 内容阅读入口:从执行控制、证据链到物理信任边界

这篇文章是我对 Havenlon 系列内容的一个长期整理入口。 过去一段时间,我围绕 Havenlon 写了很多文章,内容涉及执行控制、最终执行权、共同治理、证据链、物理信任边界、AI Agent 执行安全、硬件签名设备和系统工程实现。 这些文章并不是彼此孤立的。它…

2026/6/27 7:49:41阅读更多 →
本地能跑,上线就崩:文件预览服务的五个隐蔽坑与排障实录

本地能跑,上线就崩:文件预览服务的五个隐蔽坑与排障实录

本期敖行客研发实战日记,邀请传奇后端人物——GGB,分享文件预览服务上线踩过的一堆阴间大坑,完整复盘生产环境 5 个藏到离谱的疑难 bug 排坑全过程。解决本地跑丝滑、一部署上线直接原地翻车的诡异问题,深挖病根同时附上落地解法。帮各位后端…

2026/6/27 7:49:41阅读更多 →
奇点算力观察|DeepSeek效应:低成本训练改写AI竞争逻辑

奇点算力观察|DeepSeek效应:低成本训练改写AI竞争逻辑

DeepSeek 的出现,让全球人工智能行业重新思考一个问题:大模型的发展,是否一定要依靠“堆算力、烧资金、拼规模”?过去几年,AI 行业普遍认为,模型越大、数据越多、GPU 集群越强,能力就越领先。因…

2026/6/27 7:49:41阅读更多 →
江苏考公机构测评:客观对比各家优缺点,粉笔真的是最优解吗?

江苏考公机构测评:客观对比各家优缺点,粉笔真的是最优解吗?

在江苏考公这条竞争极其激烈的赛道上,选择一家靠谱的培训机构往往是备考的关键一步。江苏考题(尤其是A、B、C类的分级分类)有其独特性,对考生的综合素质要求较高。面对市面上琳琅满目的机构,很多小白容易挑花眼。今天这…

2026/6/27 9:20:01阅读更多 →
definitive-opensource:一份筛选过的开源软件清单

definitive-opensource:一份筛选过的开源软件清单

文章目录definitive-opensource:一份筛选过的开源软件清单项目怎么筛选的覆盖范围列表本身也是开源的和其他 awesome list 的区别实际体验适合谁用definitive-opensource:一份筛选过的开源软件清单 GitHub 上的 awesome list 多到数不清,但真…

2026/6/27 9:20:01阅读更多 →
如何从零撰写一份专业的求职简历?让AI帮你诚实且有策略地脱颖而出

如何从零撰写一份专业的求职简历?让AI帮你诚实且有策略地脱颖而出

适用于: 应届毕业生、职场转型者、经验与岗位要求存在差距的求职者 求职简历是职场的第一块敲门砖。据猎聘2025年《职场人求职行为调研报告》显示,HR平均浏览一份简历的时间仅为6-8秒,而超过63%的求职者简历在初筛阶段就被淘汰——核心原因不…

2026/6/27 9:20:01阅读更多 →
Navicat Mac版无限试用期完整指南:3种终极方案实现永久免费使用

Navicat Mac版无限试用期完整指南:3种终极方案实现永久免费使用

Navicat Mac版无限试用期完整指南:3种终极方案实现永久免费使用 【免费下载链接】navicat_reset_mac navicat mac版无限重置试用期脚本 Navicat Mac Version Unlimited Trial Reset Script 项目地址: https://gitcode.com/gh_mirrors/na/navicat_reset_mac 还…

2026/6/27 9:20:01阅读更多 →
Windows与Office激活终极指南:KMS智能激活工具完全解析

Windows与Office激活终极指南:KMS智能激活工具完全解析

Windows与Office激活终极指南:KMS智能激活工具完全解析 【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO 还在为Windows系统频繁弹出的激活提醒而烦恼吗?Office文档突然变成…

2026/6/27 9:20:01阅读更多 →
Navicat Mac版无限试用期重置终极指南:3种简单方法永久免费使用

Navicat Mac版无限试用期重置终极指南:3种简单方法永久免费使用

Navicat Mac版无限试用期重置终极指南:3种简单方法永久免费使用 【免费下载链接】navicat_reset_mac navicat mac版无限重置试用期脚本 Navicat Mac Version Unlimited Trial Reset Script 项目地址: https://gitcode.com/gh_mirrors/na/navicat_reset_mac 还…

2026/6/27 9:15:00阅读更多 →
【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体 一文搞定到底什么是智能体【人工智能】一文搞定到底什么是智能体一. LM,WorkFlow,Agent分别有什么么不同二. Agent的思考过程是怎样的三. Agent的五个核心部分1)LLM2)Prompt3)Me…

2026/6/26 11:03:22阅读更多 →
嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件:从原理到实战的深度解析在嵌入式系统开发中,图形用户界面(GUI)的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台,嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/27 5:46:02阅读更多 →
Google AI Studio 300美元额度的真相与实战指南

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”,而是Google埋下的第一道技术门槛 你看到标题里那个醒目的“$300美金”时,第一反应可能是:又一个免费额度?领完就完事?我亲手试过——这300美金根本不是红包,而是一张入场券&…

2026/6/26 9:29:01阅读更多 →
10分钟AI语音克隆与实时变声:Retrieval-based-Voice-Conversion-WebUI完整指南

10分钟AI语音克隆与实时变声:Retrieval-based-Voice-Conversion-WebUI完整指南

10分钟AI语音克隆与实时变声&#xff1a;Retrieval-based-Voice-Conversion-WebUI完整指南 【免费下载链接】Retrieval-based-Voice-Conversion-WebUI Easily train a good VC model with voice data < 10 mins! 项目地址: https://gitcode.com/GitHub_Trending/re/Retrie…

2026/6/27 0:04:03阅读更多 →
Layerdivider:3分钟AI智能分层,彻底告别手动抠图时代

Layerdivider:3分钟AI智能分层,彻底告别手动抠图时代

Layerdivider&#xff1a;3分钟AI智能分层&#xff0c;彻底告别手动抠图时代 【免费下载链接】layerdivider A tool to divide a single illustration into a layered structure. 项目地址: https://gitcode.com/gh_mirrors/la/layerdivider 还在为复杂的图像分层工作烦…

2026/6/27 0:04:03阅读更多 →
Tomcat中X-Frame-Options配置实战:防御点击劫持的四种方法与最佳实践

Tomcat中X-Frame-Options配置实战:防御点击劫持的四种方法与最佳实践

1. 项目概述&#xff1a;为什么X-Frame-Options是Web安全的“防盗门”&#xff1f;最近在排查一个老项目的安全审计报告时&#xff0c;又被提到了“点击劫持”风险&#xff0c;矛头直指缺失的X-Frame-Options响应头。这已经不是第一次了&#xff0c;很多开发团队&#xff0c;尤…

2026/6/27 0:04:03阅读更多 →