具身智能机器人技术的落地实践 - 科技新闻传播科技知识普及

2024 年机器人浪潮继续汹涌着，机器人领域从未像今天一样火热，目前学术界、工业界在这样的热潮下议论纷纷，到底是泡沫还是爆发的前夕？实际上，判断一个事情是否是泡沫，要从技术底层去思考，有了技术底座就会诞生应用，如果技术弭平了市场需求，那么爆发是自然而然地。

就如同判断 VR 是否是泡沫，在 VR 元年的时候，也是这样类似的热潮，如今退却之后，大浪淘沙，很多公司稳住了，长期来看 VR 尤其是 MR 稳中向好，无论是 Vision Pro 还是 Meta Quest 3、PICO 这样的作品，还是 Half Life2:Alyx 这样的娱乐内容，都证明了这个市场长期的价值。从技术角度上看，高分辨率 MR 技术成熟度已经达到可用地步，市场价值的产生就随之而来了。

同样的，具身智能机器人目前处于何种状态呢？

（1）感知和规划部分的短板被大型视觉语言模型基本弥补

长久以来，机器人领域的感知和控制技术一直在慢慢发展着，我们看过去的机器人，尤其是从业内人士的视角看来，机器人最大的弱点是 " 傻 "，这种傻的主要来源是对上层任务规划非常机械，几乎由简单的逻辑判断或者状态机来实现，所有的智能都是机械的，这也是业内人士普遍说，离落地还有很大距离的原因。目前商业上最成熟的扫地机器人，上层任务无非是清扫、避障、回冲这几个状态来回切换，无论是学术界还是工业界都无法做出很有效的突破。

但是 ChatGPT 发布之后，利用大语言模型进行指令生成，让传统机器人第一次可以把知识注入到上层规划领域，尤其是配合多模态大语言模型，智能这件事竟然被顺理成章的初步实现了，这带给人无限遐想，可以说技术端的一大短板被堵上了，所以具身智能概念顺势就爆发了。

大型视觉语言模型（VLMs）通过学习视觉和文本数据之间的关联，提供理解复杂任务、进行连续对话、跨模态理解，执行零样本推理等任务，把感知和认知都融合到了机器人的大脑里，还只是整个工作的第一步，仅仅解决了 Planning 和部分 Navigation 的下游任务。并且这样的技术方案在开放世界的稳定性和正确性还有很大的进步空间。微亿智造在封闭的工业场景里，精进工业机器人的元操作，通过微调过的大模型进行行为树的生成，让机械臂执行柔性化的需求，稳定性达到了比较高的程度。

图 1：基于视觉语言模型机械臂完成自主清障及取放（来源：微亿智造）

（2）3D Gaussian Splatting-based SLAM 为建图和环境操作提供了新的方法

如何将现实中复杂的 3D 物体注册到地图中有很多解决方案，自动驾驶自从使用 BEV 方案后成熟程度迅速提高，而机器人操作和自动驾驶稍有不同，3D 的颗粒度要求更细，操作对象的位姿识别要求也更高，因此必须有好的框架来实现建图、语义理解、位姿估计等任务。

高斯泼溅（Gaussian Splatting）和 Nerf之所以受到关注，是因为它们从另一个视角描述了我们的三维世界，其区别于稠密重建和点云重建，前者能够提供更加丰富的语义信息，并且和位姿估计也能有效地融合。相对于 Nerf，高斯泼溅方法明显更有优势，所以可能会成为描述 3D 环境的标准方法，当然，该方法也仅仅发展了不到一年，相信还有更有效率的方案出现。

建图、导航和位姿估计虽然在工程上有难度，技术边界早已扩展到了很宽广的地方，这一方面的技术成熟度比较容易提高。微亿智造在机械臂上采用了 2D 相机方案，重建场景并估计物体三维位姿，由于机械臂本身提供了精准的里程计（实际是 joints），所以无论是重建还是导航都在算法的可控范围内。采用 2D 相机来估计位姿的方式在开放集上性能并不好，但是在有限集里是成本和性能上几乎最佳的方案。

图 2：使用高斯泼溅方法实现单目相机的 3D 重建（来源：微亿智造）

（3）Manipulation 才是具身智能机器人的最后一公里

机器人的操作是最困难的，传统上有模仿学习和强化学习的路径。比如斯坦福的 UMI ( Universal Manipulation Interface ) 是通过构建一个统一的机器人执行器来收集样本，用于任务的学习，这种方案的难点在于，机器人本身的性能没有被很好的发挥。而强化学习的方案，存在样本收集困难，任务学习缺乏知识导入的困难。

图 3：Universal Manipulation Interface（来源：斯坦福大学）

OpenAI 的 Sora 是一个非常好的示例，让人们意识到世界模型的有效性。通俗的讲，我们不需要这么多的材料力学、理论力学、流体力学和热力学公式，就可以构建一个比较有效地预测系统。Sora 起码说明了两个问题，第一，基于世界模型的生成模型将会为 manipulation 提供非常可靠轨迹级别的预测，它既有知识、又有物理定律、又可以交互，可以说解决了各种问题。第二，基于 Sora 的环境重建和技能学习，可以快速让机器人获取新的技能，元操作的学习样本更加丰富，配合上 UMI、ALOHA 等系统获取的少量人类操作样本，可以把技能学习的成本和时间降低到工业界能接受的程度。微亿智造搭建了整套数据采集环境，并尝试在工业现场重复的采集各种样本，庞大的应用数据将会成为再现工业 Sora 的有力支撑。

图 4：基于世界模型实现动态跟踪目标并实时估计抓取方案（来源：微亿智造）

（4）端到端和松耦合是个问题吗？

在具身智能机器人领域，端到端还有很长的路要走，因为其操作对象多变、对操作对象的精度要求高、要求复杂，端到端带来的训练成本实在太大。因此在工业界落地，松耦合基本上是目前的最优解，这是由多轴机械系统特性和应用特性决定的。

从不同的模块来说，上层感知和任务规划、建图是比较紧密的，完全可以端到端。具体到操作层面，元操作需要精心的设计该模块的学习方式和实现方式，有基于传统规划控制的元操作，也要有基于世界模型的 AIGC 生成式操作，然后被统一安排进入任务里，整个系统就可以闭环。微亿智造搭建了完整的工业机器人框架，感驱控一体化去控制原来只负责执行的机械臂，框架里包含了高级任务规划、高频的视觉响应、行为的定义和元操作执，可以驱动机械臂来执行各种任务，也可以快速的响应需求的变化。

图 5：松耦合框架下的多任务节点柔性切换（来源：微亿智造）

上述每个环节技术成熟度都有了雏形，但是距离通用机器人的完全落地应用，判断仍有 1~2 年的时间，因此限定场景、限定任务，成为目前进行实践的最优解。微亿智造从工业应用出发，在有限集场景下运用具身智能技术，将最新的技术组合进入框架里，打造具身智能工业机器人（EIIR），是一种务实有效的做法。比如对物体的位姿估计，我们充分考虑了工业场景下的变化量和不变量，采用预先训练的方式，用 2D 相机实现了已知对象的 pose 估计，在成本和精度上都领先 3D 相机，推理速度也达到了实时，让 manipulation 成本极低，这就是有限集场景带来的好处。

随着对技术的集聚和深入应用，很多泛泛而谈的 " 落地太远 " 言论将会轰然碎裂，我们希望带来巨大的冲击，让智能突然来到大家身边。

参考文献

[ 1 ] Xuan X, Jiahang L, Zhipeng W, Yanmin Z, Yong Q, Qian C, Bin H, Shuo J, et al. Robot Learning in the Era of Foundation Models: A Survey. [ J ] , CoRR, 2023, abs/2311.14379.

[ 2 ] Roya F, Johnathan T, Stephen T, Anirudha M, Jiankai S, Weiyu L, Yuke Z, Shuran S, Ashish K, Karol H, Brian I, Danny D, Jiajun W, Cewu L, Mac S, et al. Foundation Models in Robotics: Applications, Challenges, and the Future [ J ] , CoRR, 2023, abs/2312.07843.

[ 3 ] Bernhard K, Georgios K, Thomas L, George D, et al. 3D Gaussian Splatting for Real-Time Radiance Field Rendering [ J ] , ACM Transactions on Graphics, 2023, 42 ( 4 ) : 139:1-139:14.

[ 4 ] Cheng C, Zhenjia X, Chuer P, Eric C, Benjamin B, Siyuan F, Russ T, Shuran S, et al. Universal Manipulation Interface: In-The-Wild Robot Teaching Without In-The-Wild Robots [ J ] , CoRR, 2024, abs/2402.10329.

科技新闻传播、科技知识普及 - 中国科技新闻网
关注微信公众号（kjxw001）及微博（中国科技新闻网）

微信公众号

微博