蚂蚁灵波开源2.71TB空间感知数据集为机器人视觉补上一块数据拼图_科普教育

创始人

2026-04-01 20:24:45

3月31日，蚂蚁集团旗下的具身智能公司蚂蚁灵波科技宣布，正式开源其大规模RGB-D深度数据集LingBot-Depth-Dataset。

该数据集包含300万对高质量样本，总规模达2.71TB，是目前开源社区中规模最大的真实场景RGB-D数据集。

数据集构成上，200万对来自真实场景采集，100万对由渲染生成。每条样本同时提供RGB图像、传感器原始深度图和真值深度图，可直接用于深度估计与深度补全任务的训练和评估。

数据覆盖Orbbec 335、335L以及Intel RealSense D405、D415、D435、D455共6款主流深度相机，有助于提升模型在不同设备上的泛化能力。

据TechWeb报道，蚂蚁灵波此前开源的高精度空间感知模型LingBot-Depth正是以该数据集作为核心训练数据。

相比业界主流方法PromptDA与PriorDA，LingBot-Depth在室内场景中的深度预测误差降低超过70%，在稀疏深度补全任务中误差降低约47%。

搭载该模型的市售深度相机，在透明玻璃、反光镜面、逆光等复杂场景下输出更完整平滑的深度图。

长期以来，公开深度数据集普遍存在规模有限、真实场景覆盖不足、硬件设备单一等问题。

不少数据集以合成为主，与真实传感器在噪声、空洞和材质表现上存在较大差异，制约了相关模型在真实环境中的应用。

去年1月，国地中心联合纬钛机器人发布了跨本体视触觉多模态数据集“白虎-VTouch”，规模超60000分钟，但侧重触觉感知与交互场景。

相比之下，LingBot-Depth-Dataset聚焦视觉深度感知，在RGB-D这一细分方向上填补了大规模真实场景数据的空白。

在更广义的RGB-D数据集中，普林斯顿大学的SUN RGB-D包含约1万张图像、约10GB数据；纽约大学的NYU Depth V2包含1449对密集标注的RGB-D图像、约2.5GB；斯坦福大学的ScanNet包含250万帧数据、超2.5TB但侧重三维重建。

LingBot-Depth-Dataset以300万对样本、2.71TB的体量，在纯深度感知任务的数据规模上形成了差异化优势。

不过一个值得追问的问题是，规模大是否意味着真正好用？真实场景数据质量参差不齐，采集过程中的光照变化、传感器噪声、动态物体遮挡等因素都会影响数据的实际效用。

此前已有不少大规模数据集因标注不一致或场景覆盖片面，在实际训练中效果不及预期。

蚂蚁灵波需要在技术文档中公布更详细的数据采集协议、标注规范以及跨场景验证结果，才能让社区真正评估其价值。

蚂蚁灵波科技成立于2024年底，由蚂蚁集团间接全资控股，注册资本1亿元，CEO为朱兴。

公司承载着蚂蚁集团将智能从数字世界向物理世界延伸的战略方向，聚焦具身智能的“大脑”层技术。

今年1月，蚂蚁灵波已开源了包括VLA具身基座模型在内的四个大模型。

3月中旬，蚂蚁灵波与乐聚机器人签署战略合作协议，形成“本体+数据+模型”协同创新模式。此次数据集开源，可视为这一数据战略的延伸。

对于高校和科研机构而言，该数据集有助于降低数据采集与标注的门槛。

对产业界而言，大规模真实场景深度数据的开放，意味着在具身智能和机器人视觉领域有了更贴近真实应用的基础设施。

但能否真正推动行业进步，最终还要看社区实际使用后的反馈和落地效果。

［本文作者i黑马，i黑马原创。如需转载请联系微信公众号（ID:iheima）授权，未经授权，转载必究。］