从大语言模型到具身智能的范式跃迁
过去几年LLM模型和VLM模型发展得非常快。尤其是在2020年ChatGPT发布GPT-3之后大家越来越清楚地看到模型在语言理解、知识调用、常识推理甚至跨任务泛化上已经具备了很强的能力。也正因如此一个很自然的问题开始出现如果模型已经这么“聪明”那它能不能进一步走出数字世界真正去理解环境、操作物体、完成任务而目前传统的机械臂控制通常遵循分层式技术路线其核心思想是将“感知—规划—控制”拆解为多个相对独立的模块逐级求解。在这一框架下系统首先依据环境感知结果和人工设定目标完成任务级决策然后通过正运动学与逆运动学建立机械臂关节空间与末端执行器之间的映射关系再结合路径规划、轨迹生成与反馈控制最终将高层目标转化为可执行的关节位置、速度或力矩指令。其中正运动学用于根据关节状态求解末端位姿逆运动学则用于由目标位姿反推机械臂关节配置在此基础上系统通常还需要引入运动规划算法来避障、满足运动学约束并通过 PID、阻抗控制或模型预测控制等底层方法实现稳定执行。这样的分层控制体系在结构化环境和预定义任务中具有较高的稳定性与可解释性也是目前机械臂控制的主流范式。这种方法在结构化工业场景中具有较高的稳定性与可解释性但也高度依赖精确建模、人工规则和任务先验。当任务逐渐从固定工位抓取扩展到开放环境中的语言交互、复杂操作与长程任务执行时传统分层控制框架开始暴露出模块割裂、误差累积以及泛化能力不足等问题。不过LLM 和 VLM 虽然已经拥有了很强的“理解能力”但它们本质上仍然主要工作在文本和图像构成的数字空间里缺少一个能够与真实世界持续交互的“身体”。正是在这样的背景下有些学者开始思考能不能把视觉、语言和动作统一到同一个模型框架中让模型不仅能“看懂”和“听懂”还能进一步“做出来”于是VLAVision-Language-Action模型自然而然的成为了大家研究的载体VLA模型在数学架构上可以被形式化地定义为一个端到端的马尔可夫决策过程MDP映射策略 $ \pi(a_t \mid o_t, l) 。在该表达式中代表系统在时刻接收到的高维观测数据这些数据通常由多视角的图像序列和机器人本体感受状态如关节角度、末端执行器位姿等组成代表来自人类用户的自然语言高阶指令而$则是模型直接输出的底层机器运动控制命令序列 。通过将视觉图像和文本指令编码为连续或离散的上下文特征向量并自回归或通过扩散过程生成动作张量VLA实现了从高层认知规划到低层物理执行的闭环。与此同时随着任务需求从简单的桌面抓取逐步扩展到家庭服务、工业装配等更复杂场景具身智能的硬件载体也在持续演化从早期以 UR5、Franka 为代表的单臂系统逐渐过渡到以 ALOHA、双臂 ARX 乃至人形机器人为代表的高自由度双臂协作平台。双臂系统的引入并不只是执行器数量的增加更意味着动作空间维度、协同控制复杂度以及接触规划难度的显著提升。与单臂操作相比双臂任务不仅要求机器人分别完成每只手臂的运动控制还要求其在双手之间建立稳定的时序配合、力学协调与空间协同关系。正因如此双臂具身任务也逐渐成为检验 VLA 是否真正具备复杂物理交互能力的重要场景。二、VLA的起源与早期双臂协作困境RT系列的开创与局限目前对大规模VLA模型的探索最早可追溯至Google DeepMind在2022年推出的Robotic TransformerRT系列模型。RT-1(RT-1: Robotics Transformer for Real-World Control at Scale)的问世确立了基于Transformer架构的大规模真实世界物理控制范式该模型通过吸收超过700个任务的13万个真实物理互动片段首次证明了可以通过单一的大容量神经网络统一视觉特征、语言指令和机器人动作序列输出 。而随后发布的RT-2(RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control)模型更进一步确立了现代VLA的基本范式他将具身控制策略与互联网级视觉-语言预训练模型VLM进行了深度融合通过联合微调互联网规模的图文数据与机器人轨迹数据赋予了机器人强大的语义推理与跨环境泛化能力 。尽管 RT 系列在单臂抓取和桌面级语义任务中展现了惊人的潜力其核心架构在向双臂协作和高灵巧度任务扩展时暴露出深层的机制局限性。这些局限主要体现在基于“动作分词化”Action Tokenization的自回归建模路线上。为了复用 LLM 的交叉熵损失函数Cross-entropy lossRT 系列和部分早期 VLA 将连续的机器人关节角度或末端坐标强制离散化为固定数量的区间通常为 256 个 Bins但也意味着动作表示本质上仍是对连续控制空间的近似难以天然适配双臂操作中更高自由度、更强耦合、更高精度的连续控制需求。RT 系列虽然在语义理解与跨场景泛化方面显著受益于互联网规模的预训练但其“能够执行什么动作”本质上仍然受到机器人演示数据分布的严格限制。其论文也明确指出网页级视觉—语言预训练带来的主要是语义概念与视觉知识的迁移而不是全新物理技能的产生也就是说模型可以更智能地调用训练中已经掌握的操作能力却无法仅凭互联网知识自动习得机器人轨迹数据中从未出现过的新型操作技能。与此同时RT 系列高达55B的参数规模也制约了其迈向更复杂的具身场景哪怕其5B参数规模的版本实际的控制频率也仅约5Hz此外RT-2在训练与推理的过程中还需要显式约束输出词表使模型在机器人任务提示下只能采样有效的动作 token。三、VLA双臂具身的阶段式发展一阶段一从 RT 范式到开放通用基座尽管 RT 系列还存在不少问题但它确实实打实地把今天 VLA 的基本范式立住了也就是把视觉、语言和动作放进同一个大模型里统一建模让机器人不再只是“看见以后执行预设程序”而是真正开始朝着“理解指令—结合场景—直接生成动作”这条路走。RT-1 证明了大规模 Transformer 可以在真实机器人数据上学出统一控制策略RT-2 则更进一步把互联网规模的视觉—语言预训练知识接进了 机器人控制链路里让 VLA 第一次展现出比较像样的语义泛化和跨场景迁移能力。可以说后面不管是开源基座、双臂 foundation model还是后来讲的“具身大脑”本质上都没有跳出 RT 系列打下来的这套框架。但 RT 系列解决的更多是“范式能否成立”的问题真正进入双臂具身场景后研究者首先遇到的反而不是模型结构而是数据从哪里来、双臂操作模型怎么学的问题于是紧接着斯坦福团队在 2023 年推出了 ALOHA (Mobile ALOHA: 使用低成本全身遥操作学习双臂移动操作)低成本双臂平台并同时提出了 ACTAction Chunking with Transformers:Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware,这一模型虽然并不是属于严格意义上的VLA属于VA模型但它首次系统性地降低了双臂示教与模仿学习的门槛。ALOHA让双臂数据采集变得低成本、可复制而ACT则通过动作块预测和条件变分建模缓解了精细操作中误差累积与演示多样性带来的学习困难使机器人能够在较少示教样本下完成插拔、装配和双手协同等高精度任务。到 2024 年ALOHA升级为Mobile ALOHA又进一步把这条路线从静态桌面任务扩展到 whole-body 移动双臂操作与此同时Open X-Embodiment / RT-XOpen X-Embodiment: Robotic Learning Datasets and RT-X Models 则率先从数据层面打破了实验室壁垒该项目整合了 21 家机构、22 种机器人 embodiment、60 个已有数据集以及 100 万条以上真实机器人轨迹第一次构建起一个面向通用机器人学习的开放、多本体、多任务数据底座。它的意义不只是“规模更大”而在于把此前分散在不同实验室中的机器人数据统一到了同一个生态之下让通用机器人模型不再只能依赖单一实验室的封闭数据进行训练。在 Open X-Embodiment 打通开放数据底座之后Octo(Octo: An Open-Source Generalist Robot Policy)的出现进一步补上了从“开放数据”走向“开放模型”的关键一环。与其说 Octo 的目标是追求一个参数更大、指标更高的 VLA不如说它率先回答了一个更基础也更重要的问题在大规模、开放、多本体的机器人数据之上是否真的能够训练出一个可复用、可迁移、可快速适配的通用策略基座。事实证明答案是肯定的。Octo 不仅验证了开放数据足以支撑通用机器人策略的预训练也标志着机器人学习开始从“数据共享”进一步迈向“模型共享”使开放生态下的通用策略研究第一次具备了清晰而具体的实现路径。在此基础上OpenVLA(OpenVLA: An Open-Source Vision-Language-Action Model)的发布标志着“开放通用基座”真正走向成熟。作为一个 7B 参数的开源 VLAOpenVLA 基于 97 万条真实机器人演示进行训练采用 DINOv2 与 SigLIP 双视觉编码器结合 Llama 2 语言骨干的架构设计不仅显著降低了社区复现大规模 VLA 的门槛也系统验证了“大基座预训练 参数高效微调”这一范式的现实可行性。不过OpenVLA、Octo 乃至 RT-X 的主要成功仍然更偏向“通用基座”层面对于真正复杂的双臂高频协同、强接触操作和多模态动作分布它们并没有给出最终答案。也正是在这个背景下清华 TSAIL 团队开源了面向双臂操作的 RDT-1B(RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation)将 diffusion foundation model 正式引入双臂具身场景该模型在 46 个数据集、100 万条以上多机器人 episodes 上完成预训练并进一步利用 6K 的 ALOHA 双臂数据进行精调标志着开放通用基座路线与双臂操作路线开始真正汇合。至此VLA 在双臂具身领域的发展也正式从早期的范式验证阶段迈入了以开放基座、真实数据积累和通用动作建模共同驱动的新阶段。二阶段二打破数据枯竭与仿真平台的大规模崛起随着VLA模型研究的快速深入大家迅速触碰到了阻碍双臂VLA发展的最大瓶颈数据枯竭Data Scarcity。虽然大模型的成功验证了通过大规模Scaling数据可以持续提升模型的能力但是与可以通过爬虫获取的互联网图文不同双臂机器人专家级演示轨迹的获取依赖人工采集因此想要大规模数据的话这一过程极其昂贵、缓慢且在任务类型、操作风格和场景分布上普遍缺乏足够的多样性已经难以支撑数十亿参数级模型对训练数据规模与覆盖范围的需求。双人一机器一天采集的百条数据对于大规模预训练所需的百万级数据简直是杯水车薪因此到了2024-2025年前后VLA的发展开始明显从“单纯做更大的模型”转向“先解决数据从哪里来”的现实问题。一方面学界和工业界当然也在尝试继续扩大真实世界数据采集规模例如DROID(DROID: A Large-Scale In-the-Wild Robot Manipulation Dataset)、AgiBot World(AGIBOT WORLD)以及RDT开源的自采微调数据集(huggingface.co)等等已经将真实轨迹规模推到百万条以上;同时另一方面越来越多研究者逐渐意识到仅靠人工遥操作和真实机器人采集仍然很难在成本、速度和多样性上真正跟上VLA的数据需求。尤其在双臂场景下任务往往伴随着复杂接触、双手协同、遮挡、形变物体和长时序操作导致真实演示不仅昂贵而且极难覆盖足够丰富的任务分布也正因如此仿真侧在这一阶段开始迅速从“辅助训练工具”演化为“数据扩增主战场”。在真正意义上的大规模数据生成工具出现之前社区其实已经先积累起一批重要的仿真 benchmark 与数据集基础。其中LIBERO(Datasets)是一个非常典型的前置节点。它本质上并不是面向双臂的数据工厂而是一个标准化的manipulation benchmark官方提供130 个语言条件任务并配有程序化任务生成管线能够持续扩展任务组合与评测配置。在此基础上研究者开始进一步思考如果仿真环境本身已经足够成熟那么能不能不再满足于少量固定 benchmark而是直接在仿真中自动生成 demonstrations、自动扩展任务、自动丰富场景分布围绕这个问题仿真数据生成工具开始集中出现。较早且非常有代表性的工作是MimicGen(MimicGen)。它的核心思想并不是从零发明任务而是从少量人工示教出发在仿真中自动合成大量新的 demonstrations。论文报告显示MimicGen 可以从不到 200 条人类 demonstrations自动扩展出50,000 条 demonstrations覆盖18 个任务以及多种场景配置、物体实例和机器人平台。这类工作的意义非常直接它第一次让“少量人类示教 大规模自动扩数”变成了一条现实可行的技术路线。

相关新闻

福州高端整木定制怎么选?6 家品牌实测对比,避坑必看

福州高端整木定制怎么选?6 家品牌实测对比,避坑必看

福州整木定制市场近两年热度持续走高,尤其是大平层、别墅业主,对高定木作的需求越来越旺盛。但市场鱼龙混杂,从进口大牌到本土小厂参差不齐,很多业主花了大价钱却遭遇环保不达标、落地效果差、售后推诿等问题。不少人纠结选图森、…

2026/6/23 11:39:02阅读更多 →
项目协同管理系统系列4-项目统筹

项目协同管理系统系列4-项目统筹

文档仓库:https://gitee.com/FuChuan8/project-collaboration 项目统筹是统筹人员的每日工作台。如果说项目管理是「管一个项目」,项目统筹就是「管一批需要特别关注的项目」。 什么项目会出现在这里? 部门主动「转项目统筹」的项目未分配…

2026/6/23 11:39:02阅读更多 →
卡梅德生物技术快报|噬菌体展示多肽筛选完整实操方案|RhE 抗原靶向肽全流程实验与量化数据

卡梅德生物技术快报|噬菌体展示多肽筛选完整实操方案|RhE 抗原靶向肽全流程实验与量化数据

、提出问题:血型抗原多肽筛选缺乏标准化实操流程在输血医学、母婴免疫相关分子研发实验室中,多肽靶点筛选长期存在流程不统一、阳性克隆假阳性高、验证体系缺失三大痛点。针对 RhE 抗原的预防性多肽研发需求,市面上无成套可落地的噬菌体展示多…

2026/6/23 11:39:02阅读更多 →
OpenArk深度解析:Windows系统内核级安全分析实战指南

OpenArk深度解析:Windows系统内核级安全分析实战指南

OpenArk深度解析:Windows系统内核级安全分析实战指南 【免费下载链接】OpenArk The Next Generation of Anti-Rookit(ARK) tool for Windows. 项目地址: https://gitcode.com/GitHub_Trending/op/OpenArk 在Windows安全分析领域,OpenArk作为新一代…

2026/6/23 12:54:15阅读更多 →
2026年揭秘:EC风机制造商凭什么领跑行业?

2026年揭秘:EC风机制造商凭什么领跑行业?

在“双碳”目标与工业数字化转型的双重驱动下,洁净厂房、数据中心与轨道交通等领域对通风系统的能耗与智能化要求已提升至全新高度。传统的AC(交流)风机因效率低、维护频繁、难以精准调控等痛点,正逐步被淘汰。而EC(电…

2026/6/23 12:54:15阅读更多 →
2026年北京甲状腺诊疗医师参考排名出炉 贾永忠专业水平获广泛认可

2026年北京甲状腺诊疗医师参考排名出炉 贾永忠专业水平获广泛认可

最近不少关注甲状腺相关健康问题的北京市民都在聊,大家自发整理的2026年本地甲状腺诊疗医师参考榜单更新了,这份没有商业加持、全部由普通就诊者投稿投票产生的参考清单里,很多深耕临床数十年的从业者都获得了很高的提及度,其中贾…

2026/6/23 12:54:15阅读更多 →
终极修复指南:让《侠盗猎车手4》在现代PC上焕发新生

终极修复指南:让《侠盗猎车手4》在现代PC上焕发新生

终极修复指南:让《侠盗猎车手4》在现代PC上焕发新生 【免费下载链接】GTAIV.EFLC.FusionFix This project aims to fix or address some issues in Grand Theft Auto IV: The Complete Edition 项目地址: https://gitcode.com/gh_mirrors/gt/GTAIV.EFLC.FusionFix…

2026/6/23 12:54:15阅读更多 →
计算机毕业设计之jsp积分商城管理系统的设计与实现

计算机毕业设计之jsp积分商城管理系统的设计与实现

近年来互联网络的迅猛发展和电子终端设备的普及,赋予了各行业充足的发展空间。积分商城管理系统相比于传统信息技术,时效性是它最大的特色,已经在电子娱乐、经济等中发挥着举足轻重的作用。2019年疫情的爆发,更是短时间内迅速扩大…

2026/6/23 12:54:15阅读更多 →
AI短剧创作平台源码,从剧本到成片

AI短剧创作平台源码,从剧本到成片

AI短剧创作平台源码,从剧本到成片 运行环境Next.js AI短剧创作平台 — 从剧本到成片,支持70大模型 图片生成、视频生成、AI配音,多AI供应商架构,自动拆解为分镜镜头,含景别、运镜、动作、对白、氛围等 AI短剧创作平台源码&#…

2026/6/23 12:49:15阅读更多 →
【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体 一文搞定到底什么是智能体【人工智能】一文搞定到底什么是智能体一. LM,WorkFlow,Agent分别有什么么不同二. Agent的思考过程是怎样的三. Agent的五个核心部分1)LLM2)Prompt3)Me…

2026/6/23 7:04:52阅读更多 →
嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件:从原理到实战的深度解析在嵌入式系统开发中,图形用户界面(GUI)的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台,嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/23 1:55:32阅读更多 →
Google AI Studio 300美元额度的真相与实战指南

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”,而是Google埋下的第一道技术门槛 你看到标题里那个醒目的“$300美金”时,第一反应可能是:又一个免费额度?领完就完事?我亲手试过——这300美金根本不是红包,而是一张入场券&…

2026/6/23 5:55:37阅读更多 →
2026年京东云 618 活动 Hermes Agent/OpenClaw配置Token Plan新手必看指南

2026年京东云 618 活动 Hermes Agent/OpenClaw配置Token Plan新手必看指南

2026年京东云 618 活动 Hermes Agent/OpenClaw配置Token Plan新手必看指南。OpenClaw是开源的个人AI助手,Hermes Agent则是一个能自我进化的AI智能体框架。阿里云提供计算巢、轻量服务器及无影云电脑三种部署OpenClaw 与 Hermes Agent的方案、百炼Token Plan兼容主流…

2026/6/23 0:00:38阅读更多 →
2026年北京电子沙盘制作公司深度评测:从技术选型到落地效果,谁在真正定义“数字+实体”的融合边界?

2026年北京电子沙盘制作公司深度评测:从技术选型到落地效果,谁在真正定义“数字+实体”的融合边界?

模块一:行业背景——百亿赛道爆发,北京市场的特殊性与选型困局2026年,电子沙盘行业已走过“要不要做”的讨论,进入“找谁做、怎么做”的深水区。据行业研究机构数据,2025年国内电子沙盘市场规模已突破85亿元&#xff0…

2026/6/23 0:00:38阅读更多 →
音视频场景下的 Java 开发者面试:技术与挑战

音视频场景下的 Java 开发者面试:技术与挑战

面试互联网大厂:从音视频场景看 Java 开发者的技能与挑战 在互联网大厂求职的面试中,Java 开发者往往需要面对严苛的技术问题。今天,我们将通过一位名叫燕双非的搞笑程序员与严肃的面试官之间的对话,看看在音视频场景下&#xff0…

2026/6/23 0:00:38阅读更多 →