训练机器人做家务“有一手” 智元发布首个通用具身基座大模型

科创板日报张真责编季晟 2025-03-10 11:12

Play

语音播报

00:00

/

00:00

①智元机器人官微宣布，发布首个通用具身基座大模型GO-1；
                ②从性能来看，GO-1相比已有模型的平均成功率提高了32%；
                ③券商认为，AI的发展从根本上推进了人形机器人等端侧的发展。

《科创板日报》3月10日讯 最近，华为离职“天才少年”彭志辉的官宣在互联网刷屏。就在今天，智元启元大模型如期而至。

智元机器人官微宣布，发布首个通用具身基座大模型Genie Operator-1（GO-1），并配上视频，展示了GO-1通过学习人类视频，助力机器人本体完成递送水杯、制作餐点、迎接外宾等一系列任务。在视频末端，还附有仿真数据采集及大规模真机数据采集的过程画面。

从性能来看，GO-1相比已有模型成功率大幅领先，平均成功率提高了32%。经实验发现，GO-1在“倒水”“清理桌面”“补充饮料”等任务中表现相对突出。

智元机器人表示，为了有效利用高质量的AgiBot World数据集以及互联网大规模异构视频数据，增强策略的泛化能力，智元提出了Vision-Language-Latent-Action（ViLLA）架构。

去年底，智元机器人联合上海人工智能实验室等单位宣布开源百万真机数据集项目AgiBot World，该数据集涵盖超100种真实场景，其中40%为家居场景，20%为工业场景。共收录80余种人类生活必备技能。

不过，据智元机器人方面表示，诸如AgiBot World的带动作标签的真机数据量仍然有限，远少于互联网规模的数据集。而基于ViLLA架构，可采用Latent Actions（隐式动作）来建模当前帧和历史帧之间的隐式变化，从而将外部动作知识转移到通用操作任务中。

据悉，GO-1大模型借助人类和多种机器人数据，能够快速适应新任务。同时还支持部署到不同的机器人本体。智元机器人将这一系列特点归纳为4个方面：

人类视频学习：GO-1大模型可以结合互联网视频和真实人类示范进行学习，增强模型对人类行为的理解。

小样本快速泛化：GO-1大模型具有强大的泛化能力，能够在极少数据甚至零样本下泛化到新场景、新任务。

一脑多形：GO-1大模型是通用机器人策略模型，能够在不同机器人形态之间迁移。

持续进化：GO-1大模型搭配智元一整套数据回流系统，可以从实际执行遇到的问题数据中持续进化学习。

智元机器人表示，GO-1大模型将加速具身智能的普及，机器人将从依赖特定任务的工具，向着具备通用智能的自主体发展。

当下，基础模型进展迅速。信达证券认为，AI的发展从根本上推进了人形机器人和自动驾驶等端侧的发展。Grok3/o3-mini等模型展示了对物理定律逐步深刻的理解，而Deepseek相关模型则反映了推理成本的迅速降低。受此激励，端侧较高级别的智能落地可期，人形机器人或迎来迅速产业化。

财联社声明：文章内容仅供参考，不构成投资建议。投资者据此操作，风险自担。