2026 年具身智能数据开启规模化元年,新创公司与大厂齐入局分羹
具身智能数据成“香饽饽”新创公司与大厂齐入局2026 年开启数据规模化元年又一门“卖铲子”的生意开始赚钱了。2023 年开始火热的“百模大战”让“卖铲子”的算力硬件商赚得盆满钵满。类似的情况正在具身智能产业“情景再现”数据采集从业者正在密集融资且收获大量订单。3 月光轮智能完成 10 亿元融资成为全球第一个具身数据独角兽并透露今年第一季度拿下 5.5 亿元订单4 月无问智科完成超亿元融资并透露今年第一季度签下的订单金额达到数亿元量级4 月弈人科技完成 Pre - A 轮及 Pre - A 轮连续两轮亿元级融资同时宣布 2025 年收入破亿并盈利2026 年 Q1 具身订单超去年全年营收智元也已分拆成立觅蜂科技。不只是新创公司互联网大厂也盯上了这块肥肉京东发布具身智能数据全链路基础设施计划发动 60 万人众包采集如快递员、骑手佩戴设备目标两年内积累 1000 万小时人类真实场景视频数据百度选择了“数据超市”的模式。行业热度陡增这也是觅蜂科技董事长兼 CEO 姚卯青所言“在具身智能尚未真正大规模商业化之前数据作为基础设施会比终端应用更早形成商业回报”的底层逻辑。具身智能的数据来源主要包含四类位于金字塔顶层的是遥控真机即遥操作获得“真机数据”数据质量最精准成本也最贵但却是人形机器人落地的关键仿真数据/合成数据处于中层成本低、可规模化能够弥补当前真机数据的不足人类视频包含互联网视频、人类行为数据处于金字塔底层来源广泛、泛化性强UMIUniversal Manipulation Interface通用操作接口协议是具身智能领域的一种低成本、无本体的数据采集范式与技术标准。发展至今数据采集赛道大致也可以分为四大流派“真机数据”对应的如智元等头部机器人公司“本体 数据”闭环运作数据业务是内部能力的自然外溢仿真数据/合成数据对应的则是定位为数据基础设施服务商的初创公司比如光轮智能跨界平台型巨头如京东、中国移动等依靠产业场景等优势入局采用混合采集模式“UMI 型公司”如鹿明机器人、松灵机器人等则专注于提供标准化、模块化的采集硬件。不难发现2026 年已然成为“具身智能数据规模化元年”各类厂商正依靠“数据服务商”的新定位凭借刚性需求、高壁垒和可复制的商业模式在具身智能产业攫取利益。缺口超 99% 催生“合成数据”新独角兽已有 3 家公司拿下数亿订单。具身智能大模型VLA/世界模型的训练需要海量、多模态、高保真的物理交互数据。然而截至 2026 年初全球高质量真实物理交互数据总量仅约 50 万小时而行业共识认为训练通用具身模型至少需要千万小时级数据缺口超过 99%。这种供需失衡导致数据成为稀缺资源买方处于“有多少买多少”的状态。于是数据采集便成为了具身智能产业细分赛道的新型“铲子”也再一次印证“数据先行、铲子先富”的逻辑。需要注意的是光轮智能、无问智科、弈人科技等明星初创公司并非全部诞生在具身智能产业发展期更多则是成立于智能驾驶浪潮中且多选择走“仿真数据/合成数据”路线并逐步向“真机数据”扩展走上融合发展新道路。2023 年随着大型语言模型LLM和视觉语言模型VLM的突破业界开始普遍探索将“大脑”赋予机器人身体实现了从传统自动化向具备感知、决策能力的“具身智能”跨越。这一年的 2 月智元成立并迅速推出首款人形机器人引发了资本市场和科技界的广泛关注被视为中国具身智能创业浪潮的代表性事件。成立于 2023 年 1 月的光轮智能即定位于合成数据公司致力于为企业落地 AI 提供合成数据解决方案。2026 年 3 月该公司官宣完成 10 亿元 A 及 A 轮融资本轮融资完成后该公司也成为了全球首个具身数据领域的独角兽企业5 月光轮智能又获得由蚂蚁集团领投的新一轮融资投后估值超过 20 亿美元在短短两个月内实现估值翻倍。无问智科虽然成立于 2022 年 11 月但却是在半年后的 2023 年 5 月方才正式启动运营。在其官网介绍中无问智科多次提及智能驾驶主要是应用 AI 驱动的大模型仿真技术为智能驾驶汽车上路保驾护航。2024 年具身智能产业热度持续攀升明星独角兽中的智元、宇树科技均在这一年接连获得 2 轮投资。于是乘着具身智能热潮无问智科在 2024 年 8 月官宣天使轮融资时适时提到“公司立足和深耕于智能驾驶/自动驾驶赛道将逐渐拓展到机器人及具身智能赛道”。2026 年 4 月无问智科官宣超亿元新融资时公司定位已更新为“物理 AI 数据基座企业”。据介绍基于全国首个虚实融合闭环的长三角德清具身智能数据采集训练场无问智科日产数据上千小时形成万级规模化合成数据与千万次仿真验证能力。长期合作客户包括星动纪元、它石智航、灵心巧手、零次方等头部企业2026 年 Q1 更与字节跳动、无界动力、章鱼动力等签署订单目前在手订单数亿元本年度营收将突破超亿元。光轮智能则已经将人类数据与仿真打造成一套闭环的基础设施并且人类数据交付量全球第一。它的人类视频数据产品覆盖 2.5 万 环境节点、10 万 任务种类累计交付超 150 万小时高质量人类数据。2025 年该公司全年营收实现 10 倍增长4 月份官宣公司 2026 年 Q1 单季预计收入超过 25 年全年总和5 月份官宣 2026 年 Q1 新增 5.5 亿元订单。更加典型的例子莫过于成立于 2013 年 3 月的弈人科技利用自动驾驶积累的车辆感知网络适时转型采集具身智能数据于 2025 年实现 AI 数据业务收入过亿元在国内率先完成 AI 数据正向盈利。同时公司在具身智能领域已落地多场景应用并斩获头部客户订单仅 2026 年一季度就获得了具身智能数据新增订单超亿元。已然过会成立于 2016 年的宇树科技招股书显示2022 年该公司用时 6 年实现约 1.23 亿元营业收入但 2024 年方才“扭亏为盈”实现约 9547.47 万元净利润。作为对比光轮智能、无问智科等新创公司成立仅 3 年便在 2026 年实现过亿营收已然成为“卖数据的先赚钱”的例证之一。智元下场孵化京东、百度、中国移动都来了。随着硬件本体的逐步成熟高质量数据已被产业界和学术界公认为跨越通用精细操作鸿沟的核心要素。如何低成本、规模化地获取具备物理真实性的多模态数据成为了未来五年决定具身智能商业化落地的胜负手。深谙于此的智元合伙人、高级副总裁、具身业务部总裁姚卯青早在 2004 年 5 月就牵头建成行业规模最大4000 平米、场景最丰富的数采超级工厂——部署近百台远征 A2 - D 专机实现单机单日千条数据的极速采集也是当前“真机数据”的代表性玩家。仅仅半年后智元就联合上海人工智能实验室、国家地方共建人形机器人创新中心及上海库帕思共同开源了全球首个基于全域真实场景的百万真机数据集 AgiBot World。凭借于此选择“本体 - 数据 - 模型 - 场景”重度耦合战略闭环的智元作为整机厂商代表在 2026 年 4 月的评选中与独立数据提供商——光轮智能、国家级公共平台——国家地方共建人形机器人创新中心成为国内具身智能数据赛道的 Top 3。姚卯青不止一次地强调当前机器人行业的瓶颈不是算力而是数据“高质量的真机数据是实现智能涌现的关键前提”。他还指出当前行业中存在大量仿真模拟数据但仿真模拟数据无法替代真实物理交互中产生的细粒度感知信息。智元的策略是“以真机数据为主仿真模拟为辅”只有真实场景中采集的数据才能真正驱动机器人智能的质变。公司内部也有一个清晰的量化目标两年内积累千万小时级别的真实场景数据。上述目标的实现觅蜂科技数据采集体系的支撑同样至关重要。2026 年 2 月姚卯青推动智元业务拆分出觅蜂科技并出任董事长兼 CEO。该公司聚焦具身智能数据基础设施赛道深度应用并推广 UMI 技术但并非单一的“UMI 型公司”打造独立开放的一站式物理 AI 数据服务平台。成立仅 10 天觅蜂科技就完成了数亿元种子轮与天使轮融资。据澎湃科技消息具身智能数据当前总体定价区间在 200 - 500 元/小时。其中机器人在现实场景中实际操作采集的真机数据因最适合训练落地模型需求最旺盛价格也最贵当前国内市场价格在 500 - 1000 元/小时。另据姚卯青透露随着产能逐步稳定不依赖特定机器人本体的无本体数据价格最终会收敛到真机数据的二分之一到三分之一左右。比如真机数据如果卖到每小时 1000 元无本体数据未来可能稳定在 300 - 400 元。数据稀缺、价格处于“高点”于是在具身智能玩家之外嗅觉灵敏的互联网大厂、工业巨头步调一致地快速行为今年以来接连下场盯上数据采集“这块肥肉”强势跻身具身智能产业链。其中互联网大厂如百度走上了“数据超市”模式。4 月 10 日百度智能云联合零次方、灵生、傅利叶、纬钛科技、拓元智慧、枢途科技、松应科技等多家具身智能企业推出“具身智能数据超市Beta 版”首创层级化、可扩展的数据标签体系加速具身智能规模化落地。值得一提的是尽管以“UMI 协议”数据为主鹿明机器人同样选择了“数据超市”这一模式该公司于 2026 年 3 月推出了行业首个“FastUMI Pro 数据超市”。伴随大模型对数据需求维度的几何级膨胀单一技术路线已无法满足“规模、成本、精度、泛化”的苛刻要求。行业全面迈向多源融合采集时代以人类视频注入通用物理常识以仿真合成数据海量覆盖长尾边界以 UMI 采集分布式扩充真实交互动作最后依托高精度遥操作进行垂直场景的专家级微调。以京东为例今年 3 月 16 日其宣布建设一个具身智能数据采集中心计划覆盖物流仓储、工业制造、健康医疗、家庭服务、城市运维五大核心场景记录视觉、触觉、空间轨迹等多维度数据。将发动包括内部超 10 万员工及外部最多 50 万人员在内的数十万人参与采集计划于一年内积累 500 万小时人类真实场景视频数据两年内总时长突破 1000 万小时并同步采集 100 万小时机器人本体数据。据悉京东具身智能数据采集中心主要采用基于可穿戴设备的人类第一视角Egocentric真实场景数据采集方式并辅以真机遥操作采集属于无本体数据No - Body Data与多模态真实交互数据相结合的混合采集模式。中国移动同样如此5 月 8 日其宣布围绕家庭生活场景推出 1200 平米的“灵犀数霄”具身智能训练场核心是一套覆盖数据采集、数据合成、数据处理、数据应用全链路的数据闭环是融合了真机遥操作与无本体轻量化采集的混合数据采集体系并辅以仿真合成数据。不难发现在具身智能产业链上数据采集这个“铲子生意”已经成为具身智能数据从“分散采集”走向“平台化供给”。它不再是某家机器人公司的附属业务而是正在独立跑出一套商业逻辑成为被资本市场单独定价、被产业巨头系统性押注的重要赛道。

相关新闻

OpenAI 推出 Partner Network 后,企业 GPT 项目别只看模型接入

OpenAI 推出 Partner Network 后,企业 GPT 项目别只看模型接入

OpenAI 在 2026 年 6 月中旬发布 OpenAI Partner Network,把咨询、系统集成、行业方案和技术服务伙伴放到一个更清晰的企业落地框架里。这个消息本身不等于 API 能力变化,也不是一个新模型发布,但对做 GPT 项目的团队很实际:很多企…

2026/7/4 0:41:18阅读更多 →
终极指南:三步免费将扫描PDF变为可搜索文档的完整方案

终极指南:三步免费将扫描PDF变为可搜索文档的完整方案

终极指南:三步免费将扫描PDF变为可搜索文档的完整方案 【免费下载链接】OCRmyPDF OCRmyPDF adds an OCR text layer to scanned PDF files, allowing them to be searched 项目地址: https://gitcode.com/GitHub_Trending/oc/OCRmyPDF 你是否经常面对扫描的P…

2026/7/3 22:00:50阅读更多 →
机器视觉系统为何离不开光学滤光片?

机器视觉系统为何离不开光学滤光片?

在机器视觉系统中,人们往往关注相机的分辨率、镜头的解析力、算法的先进性,却容易忽略一个不起眼却至关重要的光学元件——滤光片。它装在镜头和相机之间,薄薄一片,看起来和普通的透明玻璃没什么两样,可就是这片玻璃&a…

2026/7/4 0:57:17阅读更多 →
基于PyTorch与YOLOv8的动物识别系统开发实战

基于PyTorch与YOLOv8的动物识别系统开发实战

1. 项目概述:基于PyTorch与YOLO的动物识别系统开发这个项目源于我在野生动物保护组织的一次技术咨询经历。他们需要一套能够自动识别澳大利亚特有动物的系统,用于生态监测。我们选择了树袋熊(Koala)和鸭嘴兽(Platypus&…

2026/7/4 17:45:13阅读更多 →
STM32L152RE与PCF8591的信号转换系统设计与实现

STM32L152RE与PCF8591的信号转换系统设计与实现

1. PCF8591与STM32L152RE的信号转换方案概述 在嵌入式系统开发中,模拟信号与数字信号的相互转换是常见需求。PCF8591作为一款集成了ADC和DAC功能的芯片,配合STM32L152RE低功耗微控制器,可以构建高效可靠的信号处理系统。这套组合特别适合需要…

2026/7/4 17:45:13阅读更多 →
可编程时钟发生器Si5351A的设计与应用指南

可编程时钟发生器Si5351A的设计与应用指南

1. 为什么需要可编程频率参考源 在现代电子系统中,稳定的时钟信号就像人体的心跳一样重要。从车载娱乐系统到工业控制设备,几乎每个数字电路都需要精确的时钟信号来同步各个模块的工作。传统方案使用固定频率的晶体振荡器,就像给每个设备安装…

2026/7/4 17:45:13阅读更多 →
数值特征工程:提升机器学习模型效果的六大核心技术

数值特征工程:提升机器学习模型效果的六大核心技术

1. 数值特征工程:机器学习模型效果提升的关键密码 在数据科学竞赛和工业实践中,我见过太多团队把90%的精力花在模型调参上,却忽视了最基础的特征工程。直到有一次参加Kaggle比赛,当我仅仅通过优化数值特征处理流程,就让…

2026/7/4 17:45:13阅读更多 →
YOLOv8部署优化:从1.2FPS到35FPS的全链路性能提升实战

YOLOv8部署优化:从1.2FPS到35FPS的全链路性能提升实战

你刚跑通了一个 YOLOv8 模型,用 OpenCV 的cv2.dnn模块加载,在本地 GPU 上跑出了 1.2 FPS。看着屏幕上缓慢移动的检测框,你可能会想:“这不对啊,不是说 YOLO 是实时检测吗?这速度连看幻灯片都嫌慢。”问题不…

2026/7/4 17:45:13阅读更多 →
Mac Mini M4 vs AMD Mini PC:本地AI工作流的内存带宽与统一内存真相

Mac Mini M4 vs AMD Mini PC:本地AI工作流的内存带宽与统一内存真相

1. 项目概述:为什么“Mac Mini M4 vs Mini PC”不是配置表对决,而是本地AI工作流的底层抉择你打开购物车,盯着Mac Mini M4基础版16GB和Minisforum AI X1 32GB的价格标签,手指悬在“立即购买”按钮上——这已经不是在选一台电脑&am…

2026/7/4 17:40:13阅读更多 →
AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/7/4 14:25:39阅读更多 →
审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

引言:审计结束三个月了,审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间,内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中,审计…

2026/7/4 14:57:00阅读更多 →
端到端自动驾驶:从GTC‘26看工程可信落地的核心逻辑

端到端自动驾驶:从GTC‘26看工程可信落地的核心逻辑

1. 项目概述:当算法工程师走进GTC26展厅,看到的不是芯片,而是“端到端”的呼吸节奏“端到端”这三个字,在GTC’26现场出现的频率,高得像NVLink带宽测试时的峰值曲线——它不再是一个论文里的技术路径选项,而…

2026/7/4 0:02:48阅读更多 →
缺牙修复科普:常见义齿类型与选择参考

缺牙修复科普:常见义齿类型与选择参考

缺牙修复科普:常见义齿类型与选择参考牙齿缺失是中老年人群中较为常见的口腔问题,不仅会造成咀嚼不便、进食受影响,长期还可能对营养摄入与日常社交带来困扰。义齿是改善缺牙问题的常用方式,目前市面上的义齿种类较多,…

2026/7/4 0:02:48阅读更多 →
STM32F091RC与LTC6904实现高精度方波信号生成

STM32F091RC与LTC6904实现高精度方波信号生成

1. 项目概述:LTC6904与STM32F091RC的精准方波生成方案在嵌入式系统开发中,精确的时钟信号和定时控制往往是项目成败的关键。LTC6904作为一款低功耗、高精度的可编程振荡器芯片,与STM32F091RC这款ARM Cortex-M0内核微控制器的组合,…

2026/7/4 0:02:48阅读更多 →
YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

如果你在部署 YOLOv8 时,发现推理速度只有可怜的 1-2 FPS,而别人的演示视频却能跑到 30 FPS 以上,那么问题很可能不在模型本身,而在于你的整个处理链路。很多开发者拿到一个训练好的 YOLOv8 模型后,会直接使用官方示例…

2026/7/4 1:16:56阅读更多 →
Coze与Dify对比指南:低代码AI应用开发从入门到实战

Coze与Dify对比指南:低代码AI应用开发从入门到实战

1. 从零到一:为什么你需要了解 Coze 和 Dify?如果你对 AI 应用开发感兴趣,但一看到“大模型”、“智能体”、“工作流”这些词就头疼,觉得门槛太高,那这篇文章就是为你准备的。很多开发者,包括我自己&#…

2026/7/4 2:33:55阅读更多 →
AI生图工具怎么选?2026年6月版实测对比

AI生图工具怎么选?2026年6月版实测对比

做自媒体的朋友应该都有体会:配图一直是个让人头疼的问题。2026年,AI生图工具已经非常成熟了,但工具太多反而不知道怎么选。以下是截至2026年6月我对主流AI生图工具的实测对比。Midjourney V8.1:速度之王2026年6月11日&#xff0c…

2026/7/4 2:33:55阅读更多 →