OmniManip架构:创新视觉语言模型推动机器人的低层次高精度操作

来源:网界网 | 2025-01-23 13:42:56

  在具身智能领域,将视觉语言模型(VLMs)应用于机器人以实现通用操作,仍然面临着两大挑战。首先,VLM缺乏对3D世界的精准理解,通常仅依赖于2D图像和文本输入进行推理;其次,如何使VLM能够输出精确的低层次动作,这需要通过数据微调来训练视觉-语言-动作(VLA)模型,但目前的技术仍受限于数据收集成本和模型的泛化能力。为了解决这些问题,上海智元新创技术有限公司与北京大学携手推出了OmniManip架构,该架构旨在突破当前技术瓶颈,将VLM的高层次推理能力转化为机器人能够执行的低层次、高精度动作。

  OmniManip的核心设计理念是通过基于对象为中心的3D交互基元,将VLM强大的推理能力与机器人的实际操作相结合。该架构通过双闭环系统设计,克服了大模型幻觉和真实环境操作的不确定性,从而实现了机器人的操作性能突破。OmniManip的最新研究成果已在相关论文和项目页面上线,并计划开源其代码和测试平台,为更广泛的研究者和开发者提供支持。

  OmniManip的创新设计包括几个关键部分。首先,在任务解析阶段,OmniManip利用VLM的常识推理能力,将任务分解为多个结构化阶段,每个阶段都明确指定了主动物体、被动物体以及动作类型。其次,架构采用以物体为中心的3D交互基元作为空间约束,通过3D基座模型生成任务相关物体的3D模型,并规范化空间。这使得VLM能够在该空间中直接采样3D交互基元,并优化求解出主物体在规范坐标系下的目标交互姿态。

  在闭环VLM规划方面,OmniManip将目标交互姿态下的物体渲染成图像,交由VLM进行评估与重采样,从而实现自我调整。这一过程确保了VLM规划的结果能够在实际执行时达到预期的精度。而在闭环机器执行部分,OmniManip通过物体的6D姿态跟踪器实时更新主物体和被物体的位姿,并将这些信息转化为机械臂末端执行器的操作轨迹,从而实现精准的执行。

  除了具备强大的操作能力外,OmniManip还具有出色的通用性,不受特定场景和物体的限制。智元机器人团队已经将这一架构应用于数字资产自动标注和合成管道,并成功实现了大规模机器人轨迹的自动采集。团队还计划开源相应的泛化操作数据集和仿真评测基准,以推动这一技术的广泛应用。

  作为一家致力于具身智能的创新企业,智元机器人近期也迎来了令人瞩目的发展。2024年9月,智元机器人完成了A++++++轮融资,获得包括北汽、上汽和比亚迪在内的国内汽车巨头的支持,估值已突破70亿元。值得一提的是,智元机器人于2024年1月6日下线了第1000台量产通用具身机器人,标志着公司在机器人产业的技术和市场突破。

  OmniManip架构的发布,代表着机器人技术在感知、推理和执行之间的整合迈出了重要步伐。这一技术不仅有望解决机器人在复杂环境中执行任务的困难,还为未来通用型机器人在多个领域的应用奠定了基础。

相关阅读

每日精选