机器人数据碎片化时代终结,我们正在进入「后数据集」阶段。
撰文:Kevin,Co-founder & CPO at Codatta
目前 Hugging Face Hub 上的机器人学习数据集生动地展示了具身智能研究领域的持续范式转变——从分散的、专门面向机构的集合转向大规模、标准化、社区驱动的统一。对 Hub 上「机器人」相关的数据集(https://huggingface.co/datasets?sort=trending&search=robot)和相关存储库的分析揭示了明显的马太效应:少数顶级数据集往往得到大多数关注、下载和引用,而成百上千个较小的数据集则鲜有人问津。
这种统一并非偶然;它既反映了技术必要性(需要规模化和标准化来训练通用机器人策略),也反映了生态系统动态(得到良好支持、与框架一致的项目,更具吸引力)。

Figure 1:截至 2025 年中,主要机器人学习数据集和基础模型概述(来自全面的 VLA 模型调查)。OXE、LeRobot 和新兴的合成数据集合占据主导地位。
开放数据领域围绕着三个主导的生态系统形成,每个生态系统在技术、哲学和行业领域具有独特地位。这些「黑洞」项目现在定义了机器人基础模型的实际基准,使得大多数 2023 年之前的单一数据集对于前沿研究中失去了竞争力。
1.1 Open X-Embodiment (OXE):机器人技术的 ImageNet 时刻
Open X-Embodiment (OXE) [1] 代表了迄今为止最有野心、最有影响力的尝试,旨在为具身 AI 创建一个通用的基础平台。OXE 是一个由 34 个领先的机器人实验室组成的联盟在 2023 年底推出的项目,它不是一个单一的数据集,而是由 60 多个现有数据集在统一架构下构成的联合体。

Figure 2:Open X-Embodiment 的具身多样性 — 22 种不同的机器人形态,从低成本机械臂到四足机器人和工业机械臂。
主要特点:
战略意义:简单的现实世界轨迹的出售或限制访问的时代已经结束。未来的商业价值将在于高精度的专家数据、真实家庭中的长时程移动操纵、缺失的具身(人形机器人、软体机器人),或丰富的专有元数据。
1.2 LeRobot 生态系统
与 OXE 代表的 Google/TensorFlow 研究范式不同,Hugging Face 的 LeRobot 迅速成为更广泛的开源和行业社区的事实标准,特别是对于那些倾向于使用 PyTorch 的社区。

Figure 3: LeRobot 数据集中的现实世界任务多样性——双臂 Aloha 演示(穿线、插入、折叠)和社区贡献实验。
LeRobot 代表了一个全面的堆栈数据集、模型、训练代码和评估套件,专门设计用于降低真实世界机器人学习的入门门槛。
数据工程技术创新:

Figure 4:DROID 数据集多样性 — 跨对象的交互点(左)和视点分布(右),展示了使其成为最近下载量最大的数据集之一的「野外」哲学。
战略意义:数据交付标准永久转向 Parquet + MP4,任何仍在交付 ROS 包或原始视频的商业提供商都在对客户施加不必要的技术负担。
1.3 合成数据的崛起:InternData-A1
第三大生态是大规模、高保真合成数据的出现,代表项目是上海 AI 实验室及其合作伙伴的 InternData-A1[8]。
主要规格:
战略意义:合成数据正在迅速取代中低复杂度领域中的真实数据。对于仅涉及刚体交互的任务,合成数据现在在数量和可控多样性方面已经可以匹敌甚至超越真实数据。真实数据仅在模拟不准确的领域(如流体、薄壳变形和高接触任务)才具有不可替代的价值。
1.4 大规模合成数据的挑战与局限
尽管像 InternData-A1 这样的项目推动了合成数据在规模和物理多样性方面的突破,但合成数据技术仍然有一定的局限性,在大多数商业相关领域中不能完全取代真实数据采集。
2025 年 10 月对「现实差距」的全面调查(Aljalbout 等,arXiv: 2510.20808)表明,尽管在工程方面取得了显著进展,但模拟与现实之间的核心差异并未消除——它们仅仅被压缩到了更窄但依然至关重要的领域。

Figure 5:接触丰富的工业装配(齿轮 / 挂钩插入)动态间隙的经典图解。左:完美的模拟性能;右:由于未建模的摩擦随机性、柔顺性和间隙导致的真实世界故障(工业真实 /NVIDIA 艾萨克实验室,2023-2025)。
现实差距主要分为四个类别,每个类别都会引入系统性误差,这些误差在模拟中是可利用的,但在现实中却无法处理。
(1)动力学差距
最大和最持久的故障源。即使是最好的 2025 年物理引擎(Isaac Sim2025.2,配备 GPU 加速接触求解器的 MuJoCo 3. x,NVIDIAWarp+NeRD 神经动力学)也难以处理混沌或依赖历史的现象、可变形和薄壳物体、未建模的执行器 - 环境耦合以及随着时间推移累积的数值积分误差(超过 10 秒的时间范围)。
结果:在模拟中运行良好的策略,在实际接触密集型阶段会崩溃。

Figure 6:模拟布料状可变形物体的持续困难。即使是最先进的 2025 模拟器也无法捕捉真实布料中出现的屈曲模式、褶皱记忆和摩擦滞后现象(MDPI Sensors 2023,仍代表 2025 年存在的差距)。
(2)感知和传感差距
到 2025 年,合成渲染已经通过 3D 高斯喷溅(3D Gaussian Splatting)和视频扩散先验(如 RoboGen v2、OpenX-Embodiment-Synthetic)达到了极高的照片级逼真度,但依然存在系统性伪影:缺乏真实相机的缺陷、不准确的噪声模型、缺少次表面散射、光晕效应、尘土颗粒和动态纹理演变等。

Figure 7:尽管进行了大规模的领域随机化,但感知差距仍然存在。上排:用于训练的高度随机的合成图像;下排:真实世界的图像。策略仍然过度拟合残差模拟线索(经典的 GraspGAN 示例,在 2025 年的调查中仍然适用)。
(3)执行与低级控制差距
真正的机器人有隐藏的控制器,由于磨损而随时间漂移。即使是 NVIDIA 的 NeRD(CoRL 2025)也需要在实际操作中对每个机器人进行微调。
(4)系统设计和环境差距
安全控制器、延迟和未建模的楼层合规性在模拟中很少能准确还原。

Figure 8:2024-2025 年机器人基础模型(RT-2-X、Octo、GR-2 等)在现实世界中的表现与其模拟基准的对比。当将零镜头转移到真实机器人时,大多数模型的成功率下降 40-80%,在可变形、接触密集和长时程任务中,性能降幅最严重(Ted Xiao,Action-driven Intelligence,2025)。
该领域已经在大规模领域随机化 + 残差建模、真实 - 模拟 - 真实管道、混合训练(90–99% 合成数据 + 1–10% 真实数据)以及架构创新方面取得了进展。2025 年值得注意的突破包括 NVIDIA 的 R²D² 套件(NeRD + Dexplore/RSE + VT-Refine)和可扩展的残差强化学习方法。
尽管取得了这些进展,但 2025 年 10 月的调查总结指出,零镜头模拟到真实仍然仅限于中等复杂度的刚体任务和受控环境。对于任何涉及可变形物体、流体、高精度组装或非结构化人类家庭操作的应用,现实世界数据——特别是具有丰富元数据的专家演示数据——仍然具有不可替代的溢价价值。
对数据提供商的战略意义:2026-2028 年的商业机遇将集中在那些结合了大规模合成数据和少量高价值真实轨迹的混合数据集,尤其是在剩余的“难度较高”领域(如布料、液体、密集杂乱、多步骤推理在各种家庭环境中的应用)。无论合成数据多么庞大,纯粹的合成数据在可预见的未来都不足以支撑生产级部署。
OXE(TensorFlow 规模统一)、LeRobot(PyTorch 原生可访问性)和 InternData-A1(合成可扩展性)的融合标志着机器人学习数据碎片化时代的结束。我们正在进入一个「后数据集」阶段,主要的研究和商业问题不再是「哪个数据集?」,而是:
未来 2-3 年的赢家将是那些能够同时生产出既高质量、符合标准化要求,又能够在逐渐缩小的领域中仍然具有现实数据收集优势的数据提供者。
参考资料
[1] Open X-Embodiment Collaboration, https://robotics-transformer-x.github.io/
[2] Padalkar et al., Open X-Embodiment: Robotic Learning Datasets and RT-X Models, ICRA 2024
[3] Hugging Face LeRobot, https://huggingface.co/lerobot
[4] Lynch et al., LeRobot: A Framework for Production-Ready Robot Learning, 2024
[5] LeRobot Dataset v3.0 Specification, https://github.com/huggingface/lerobot
[6] https://huggingface.co/datasets/lerobot/droid_1.0.1
[7] https://huggingface.co/datasets/lerobot/aloha
[8] InternData-A1, Shanghai AI Laboratory, 2025
【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
