2026 年具身智能数据开启规模化元年,新创公司与大厂齐入局分羹
具身智能数据成“香饽饽”新创公司与大厂齐入局2026 年开启数据规模化元年又一门“卖铲子”的生意开始赚钱了。2023 年开始火热的“百模大战”让“卖铲子”的算力硬件商赚得盆满钵满。类似的情况正在具身智能产业“情景再现”数据采集从业者正在密集融资且收获大量订单。3 月光轮智能完成 10 亿元融资成为全球第一个具身数据独角兽并透露今年第一季度拿下 5.5 亿元订单4 月无问智科完成超亿元融资并透露今年第一季度签下的订单金额达到数亿元量级4 月弈人科技完成 Pre - A 轮及 Pre - A 轮连续两轮亿元级融资同时宣布 2025 年收入破亿并盈利2026 年 Q1 具身订单超去年全年营收智元也已分拆成立觅蜂科技。不只是新创公司互联网大厂也盯上了这块肥肉京东发布具身智能数据全链路基础设施计划发动 60 万人众包采集如快递员、骑手佩戴设备目标两年内积累 1000 万小时人类真实场景视频数据百度选择了“数据超市”的模式。行业热度陡增这也是觅蜂科技董事长兼 CEO 姚卯青所言“在具身智能尚未真正大规模商业化之前数据作为基础设施会比终端应用更早形成商业回报”的底层逻辑。具身智能的数据来源主要包含四类位于金字塔顶层的是遥控真机即遥操作获得“真机数据”数据质量最精准成本也最贵但却是人形机器人落地的关键仿真数据/合成数据处于中层成本低、可规模化能够弥补当前真机数据的不足人类视频包含互联网视频、人类行为数据处于金字塔底层来源广泛、泛化性强UMIUniversal Manipulation Interface通用操作接口协议是具身智能领域的一种低成本、无本体的数据采集范式与技术标准。发展至今数据采集赛道大致也可以分为四大流派“真机数据”对应的如智元等头部机器人公司“本体 数据”闭环运作数据业务是内部能力的自然外溢仿真数据/合成数据对应的则是定位为数据基础设施服务商的初创公司比如光轮智能跨界平台型巨头如京东、中国移动等依靠产业场景等优势入局采用混合采集模式“UMI 型公司”如鹿明机器人、松灵机器人等则专注于提供标准化、模块化的采集硬件。不难发现2026 年已然成为“具身智能数据规模化元年”各类厂商正依靠“数据服务商”的新定位凭借刚性需求、高壁垒和可复制的商业模式在具身智能产业攫取利益。缺口超 99% 催生“合成数据”新独角兽已有 3 家公司拿下数亿订单。具身智能大模型VLA/世界模型的训练需要海量、多模态、高保真的物理交互数据。然而截至 2026 年初全球高质量真实物理交互数据总量仅约 50 万小时而行业共识认为训练通用具身模型至少需要千万小时级数据缺口超过 99%。这种供需失衡导致数据成为稀缺资源买方处于“有多少买多少”的状态。于是数据采集便成为了具身智能产业细分赛道的新型“铲子”也再一次印证“数据先行、铲子先富”的逻辑。需要注意的是光轮智能、无问智科、弈人科技等明星初创公司并非全部诞生在具身智能产业发展期更多则是成立于智能驾驶浪潮中且多选择走“仿真数据/合成数据”路线并逐步向“真机数据”扩展走上融合发展新道路。2023 年随着大型语言模型LLM和视觉语言模型VLM的突破业界开始普遍探索将“大脑”赋予机器人身体实现了从传统自动化向具备感知、决策能力的“具身智能”跨越。这一年的 2 月智元成立并迅速推出首款人形机器人引发了资本市场和科技界的广泛关注被视为中国具身智能创业浪潮的代表性事件。成立于 2023 年 1 月的光轮智能即定位于合成数据公司致力于为企业落地 AI 提供合成数据解决方案。2026 年 3 月该公司官宣完成 10 亿元 A 及 A 轮融资本轮融资完成后该公司也成为了全球首个具身数据领域的独角兽企业5 月光轮智能又获得由蚂蚁集团领投的新一轮融资投后估值超过 20 亿美元在短短两个月内实现估值翻倍。无问智科虽然成立于 2022 年 11 月但却是在半年后的 2023 年 5 月方才正式启动运营。在其官网介绍中无问智科多次提及智能驾驶主要是应用 AI 驱动的大模型仿真技术为智能驾驶汽车上路保驾护航。2024 年具身智能产业热度持续攀升明星独角兽中的智元、宇树科技均在这一年接连获得 2 轮投资。于是乘着具身智能热潮无问智科在 2024 年 8 月官宣天使轮融资时适时提到“公司立足和深耕于智能驾驶/自动驾驶赛道将逐渐拓展到机器人及具身智能赛道”。2026 年 4 月无问智科官宣超亿元新融资时公司定位已更新为“物理 AI 数据基座企业”。据介绍基于全国首个虚实融合闭环的长三角德清具身智能数据采集训练场无问智科日产数据上千小时形成万级规模化合成数据与千万次仿真验证能力。长期合作客户包括星动纪元、它石智航、灵心巧手、零次方等头部企业2026 年 Q1 更与字节跳动、无界动力、章鱼动力等签署订单目前在手订单数亿元本年度营收将突破超亿元。光轮智能则已经将人类数据与仿真打造成一套闭环的基础设施并且人类数据交付量全球第一。它的人类视频数据产品覆盖 2.5 万 环境节点、10 万 任务种类累计交付超 150 万小时高质量人类数据。2025 年该公司全年营收实现 10 倍增长4 月份官宣公司 2026 年 Q1 单季预计收入超过 25 年全年总和5 月份官宣 2026 年 Q1 新增 5.5 亿元订单。更加典型的例子莫过于成立于 2013 年 3 月的弈人科技利用自动驾驶积累的车辆感知网络适时转型采集具身智能数据于 2025 年实现 AI 数据业务收入过亿元在国内率先完成 AI 数据正向盈利。同时公司在具身智能领域已落地多场景应用并斩获头部客户订单仅 2026 年一季度就获得了具身智能数据新增订单超亿元。已然过会成立于 2016 年的宇树科技招股书显示2022 年该公司用时 6 年实现约 1.23 亿元营业收入但 2024 年方才“扭亏为盈”实现约 9547.47 万元净利润。作为对比光轮智能、无问智科等新创公司成立仅 3 年便在 2026 年实现过亿营收已然成为“卖数据的先赚钱”的例证之一。智元下场孵化京东、百度、中国移动都来了。随着硬件本体的逐步成熟高质量数据已被产业界和学术界公认为跨越通用精细操作鸿沟的核心要素。如何低成本、规模化地获取具备物理真实性的多模态数据成为了未来五年决定具身智能商业化落地的胜负手。深谙于此的智元合伙人、高级副总裁、具身业务部总裁姚卯青早在 2004 年 5 月就牵头建成行业规模最大4000 平米、场景最丰富的数采超级工厂——部署近百台远征 A2 - D 专机实现单机单日千条数据的极速采集也是当前“真机数据”的代表性玩家。仅仅半年后智元就联合上海人工智能实验室、国家地方共建人形机器人创新中心及上海库帕思共同开源了全球首个基于全域真实场景的百万真机数据集 AgiBot World。凭借于此选择“本体 - 数据 - 模型 - 场景”重度耦合战略闭环的智元作为整机厂商代表在 2026 年 4 月的评选中与独立数据提供商——光轮智能、国家级公共平台——国家地方共建人形机器人创新中心成为国内具身智能数据赛道的 Top 3。姚卯青不止一次地强调当前机器人行业的瓶颈不是算力而是数据“高质量的真机数据是实现智能涌现的关键前提”。他还指出当前行业中存在大量仿真模拟数据但仿真模拟数据无法替代真实物理交互中产生的细粒度感知信息。智元的策略是“以真机数据为主仿真模拟为辅”只有真实场景中采集的数据才能真正驱动机器人智能的质变。公司内部也有一个清晰的量化目标两年内积累千万小时级别的真实场景数据。上述目标的实现觅蜂科技数据采集体系的支撑同样至关重要。2026 年 2 月姚卯青推动智元业务拆分出觅蜂科技并出任董事长兼 CEO。该公司聚焦具身智能数据基础设施赛道深度应用并推广 UMI 技术但并非单一的“UMI 型公司”打造独立开放的一站式物理 AI 数据服务平台。成立仅 10 天觅蜂科技就完成了数亿元种子轮与天使轮融资。据澎湃科技消息具身智能数据当前总体定价区间在 200 - 500 元/小时。其中机器人在现实场景中实际操作采集的真机数据因最适合训练落地模型需求最旺盛价格也最贵当前国内市场价格在 500 - 1000 元/小时。另据姚卯青透露随着产能逐步稳定不依赖特定机器人本体的无本体数据价格最终会收敛到真机数据的二分之一到三分之一左右。比如真机数据如果卖到每小时 1000 元无本体数据未来可能稳定在 300 - 400 元。数据稀缺、价格处于“高点”于是在具身智能玩家之外嗅觉灵敏的互联网大厂、工业巨头步调一致地快速行为今年以来接连下场盯上数据采集“这块肥肉”强势跻身具身智能产业链。其中互联网大厂如百度走上了“数据超市”模式。4 月 10 日百度智能云联合零次方、灵生、傅利叶、纬钛科技、拓元智慧、枢途科技、松应科技等多家具身智能企业推出“具身智能数据超市Beta 版”首创层级化、可扩展的数据标签体系加速具身智能规模化落地。值得一提的是尽管以“UMI 协议”数据为主鹿明机器人同样选择了“数据超市”这一模式该公司于 2026 年 3 月推出了行业首个“FastUMI Pro 数据超市”。伴随大模型对数据需求维度的几何级膨胀单一技术路线已无法满足“规模、成本、精度、泛化”的苛刻要求。行业全面迈向多源融合采集时代以人类视频注入通用物理常识以仿真合成数据海量覆盖长尾边界以 UMI 采集分布式扩充真实交互动作最后依托高精度遥操作进行垂直场景的专家级微调。以京东为例今年 3 月 16 日其宣布建设一个具身智能数据采集中心计划覆盖物流仓储、工业制造、健康医疗、家庭服务、城市运维五大核心场景记录视觉、触觉、空间轨迹等多维度数据。将发动包括内部超 10 万员工及外部最多 50 万人员在内的数十万人参与采集计划于一年内积累 500 万小时人类真实场景视频数据两年内总时长突破 1000 万小时并同步采集 100 万小时机器人本体数据。据悉京东具身智能数据采集中心主要采用基于可穿戴设备的人类第一视角Egocentric真实场景数据采集方式并辅以真机遥操作采集属于无本体数据No - Body Data与多模态真实交互数据相结合的混合采集模式。中国移动同样如此5 月 8 日其宣布围绕家庭生活场景推出 1200 平米的“灵犀数霄”具身智能训练场核心是一套覆盖数据采集、数据合成、数据处理、数据应用全链路的数据闭环是融合了真机遥操作与无本体轻量化采集的混合数据采集体系并辅以仿真合成数据。不难发现在具身智能产业链上数据采集这个“铲子生意”已经成为具身智能数据从“分散采集”走向“平台化供给”。它不再是某家机器人公司的附属业务而是正在独立跑出一套商业逻辑成为被资本市场单独定价、被产业巨头系统性押注的重要赛道。

相关新闻

OpenAI 推出 Partner Network 后,企业 GPT 项目别只看模型接入

OpenAI 推出 Partner Network 后,企业 GPT 项目别只看模型接入

OpenAI 在 2026 年 6 月中旬发布 OpenAI Partner Network,把咨询、系统集成、行业方案和技术服务伙伴放到一个更清晰的企业落地框架里。这个消息本身不等于 API 能力变化,也不是一个新模型发布,但对做 GPT 项目的团队很实际:很多企…

2026/6/22 19:56:18阅读更多 →
终极指南:三步免费将扫描PDF变为可搜索文档的完整方案

终极指南:三步免费将扫描PDF变为可搜索文档的完整方案

终极指南:三步免费将扫描PDF变为可搜索文档的完整方案 【免费下载链接】OCRmyPDF OCRmyPDF adds an OCR text layer to scanned PDF files, allowing them to be searched 项目地址: https://gitcode.com/GitHub_Trending/oc/OCRmyPDF 你是否经常面对扫描的P…

2026/6/22 19:59:34阅读更多 →
机器视觉系统为何离不开光学滤光片?

机器视觉系统为何离不开光学滤光片?

在机器视觉系统中,人们往往关注相机的分辨率、镜头的解析力、算法的先进性,却容易忽略一个不起眼却至关重要的光学元件——滤光片。它装在镜头和相机之间,薄薄一片,看起来和普通的透明玻璃没什么两样,可就是这片玻璃&a…

2026/6/21 21:08:14阅读更多 →
Input Leap:一套键鼠控制多台电脑的神奇体验,告别桌面切换的烦恼

Input Leap:一套键鼠控制多台电脑的神奇体验,告别桌面切换的烦恼

Input Leap:一套键鼠控制多台电脑的神奇体验,告别桌面切换的烦恼 【免费下载链接】input-leap Open-source KVM software 项目地址: https://gitcode.com/gh_mirrors/in/input-leap 想象一下这样的场景:你的办公桌上摆着三台电脑——一…

2026/6/22 21:20:04阅读更多 →
抖音视频批量下载神器:douyin-downloader完全使用指南

抖音视频批量下载神器:douyin-downloader完全使用指南

抖音视频批量下载神器:douyin-downloader完全使用指南 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback suppo…

2026/6/22 21:20:04阅读更多 →
ARM Cortex-M4开发入门:TWR-K60N512硬件解析与IAR环境搭建实战

ARM Cortex-M4开发入门:TWR-K60N512硬件解析与IAR环境搭建实战

1. 项目概述与核心价值拿到一块新的开发板,尤其是像Freescale(现NXP)Kinetis K60这种功能强大的Cortex-M4内核MCU板卡,第一件事是什么?不是急着写代码,而是把环境跑通,让板子上的灯先闪起来。这…

2026/6/22 21:20:04阅读更多 →
Vue 3 自定义插件开发实战:从原理到生产级权限指令

Vue 3 自定义插件开发实战:从原理到生产级权限指令

1. 项目概述:为什么你需要亲手写一个 Vue 插件,而不是直接 npm install“如何创建自定义 Vue.js 插件”——这行标题背后藏着的不是一道面试题,而是一条从“能用”跃升到“懂设计”的分水岭。我带过十几期前端训练营,90% 的学员能…

2026/6/22 21:20:04阅读更多 →
如何免费解锁WeMod专业功能:Wand-Enhancer完整实战指南

如何免费解锁WeMod专业功能:Wand-Enhancer完整实战指南

如何免费解锁WeMod专业功能:Wand-Enhancer完整实战指南 【免费下载链接】Wand-Enhancer Advanced UX and interoperability extension for Wand (WeMod) app 项目地址: https://gitcode.com/gh_mirrors/we/Wand-Enhancer 还在为WeMod专业版功能需要付费订阅而…

2026/6/22 21:20:04阅读更多 →
为什么你的豆包和我的豆包不一样?个性化AI的五大技术真相

为什么你的豆包和我的豆包不一样?个性化AI的五大技术真相

1. 项目概述:当“豆包”不再是一个统一入口,而是一面照见个体差异的镜子“你的豆包,我的豆包,好像不一样”——这句话最近在社交平台刷屏,不是因为产品更新了什么惊天动地的功能,恰恰相反,它戳中…

2026/6/22 21:15:03阅读更多 →
【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体 一文搞定到底什么是智能体【人工智能】一文搞定到底什么是智能体一. LM,WorkFlow,Agent分别有什么么不同二. Agent的思考过程是怎样的三. Agent的五个核心部分1)LLM2)Prompt3)Me…

2026/6/22 6:01:42阅读更多 →
嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件:从原理到实战的深度解析在嵌入式系统开发中,图形用户界面(GUI)的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台,嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/22 1:15:34阅读更多 →
Google AI Studio 300美元额度的真相与实战指南

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”,而是Google埋下的第一道技术门槛 你看到标题里那个醒目的“$300美金”时,第一反应可能是:又一个免费额度?领完就完事?我亲手试过——这300美金根本不是红包,而是一张入场券&…

2026/6/22 5:42:46阅读更多 →
Codex本地AI编码代理与CC Switch协议适配实战

Codex本地AI编码代理与CC Switch协议适配实战

1. Codex不是“另一个VS Code插件”,而是本地AI编码代理的临界点Codex这个名字,现在被太多人误读了。它不是ChatGPT那个早已停更的旧模型代号,也不是某个新出的VS Code扩展图标——它是2024年中后期悄然浮出水面的一类本地化AI编码代理&#…

2026/6/22 0:04:18阅读更多 →
从MSP430到Flexis QE128:8/32位MCU无缝迁移与低功耗设计实战

从MSP430到Flexis QE128:8/32位MCU无缝迁移与低功耗设计实战

1. 项目概述:当8位MCU遇到性能瓶颈,我们如何优雅升级?在嵌入式开发领域,尤其是电池供电的便携式设备、工业传感器节点或智能家居终端中,我们常常面临一个经典的两难选择:是选择功耗极低但性能有限的8位微控…

2026/6/22 0:04:18阅读更多 →
大语言模型空间推理能力提升:TEXT2SPACE数据集与ASCII增强技术解析

大语言模型空间推理能力提升:TEXT2SPACE数据集与ASCII增强技术解析

1. 项目缘起:当大语言模型“看”不懂空间 最近在折腾大语言模型(LLM)的各种应用时,我发现一个挺有意思的现象:你让模型写首诗、写代码、甚至做逻辑推理,它可能都表现得有模有样。但一旦涉及到需要理解“空间…

2026/6/22 0:04:18阅读更多 →