机器之心旗下的 AIxiv专栏致力于发布前沿的学术与技术内容。在过去的几年里,该专栏成功收录并报道了超过2000篇优质稿件,广泛涉及全球各大高校及企业的顶尖研究实验室,极大地推动了学术信息的交流与传播。对于拥有创新研究成果的学者和企业,我们诚邀投稿或联系报道,共同分享智慧成果。欢迎将稿件发送至 liyazhou@jiqizhixin.com 或 zhaoyunfeng@jiqizhixin.com。
本篇研究论文已被 NeurlPS(Neural Information Processing Systems Conference)2024正式录用。论文的主要作者团队来自哈尔滨工业大学(深圳)的聂礼强、邵睿研究团队,合作机构为鹏城实验室。论文的第一作者李在京是哈尔滨工业大学(深圳)计算机学院的学生,其研究方向聚焦于开放世界智能体和多模态学习领域。
在著名的沙盒游戏 Minecraft 中,构建能够执行复杂长序列任务的智能体是一项极具挑战性的工作。当前的研究多采用大语言模型或多模态大模型来生成行动规划,以此提升智能体处理长序列任务的能力。然而,这些智能体由于缺乏足够的知识储备和经验积累,在面对 Minecraft 中错综复杂的环境时仍显得力不从心。针对这一问题,本研究提出了一种创新的智能体框架——Optimus-1,该框架通过融合结构化知识与多模态经验,旨在显著增强智能体执行长序列任务的表现。
- 论文标题:Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks
- 论文链接:https://arxiv.org/abs/2408.03615
- 项目主页:https://cybertronagent.github.io/Optimus-1.github.io/
- 代码仓库:https://github.com/JiuTian-VL/Optimus-1
视频加载中…
目前 Minecraft Agents 存在哪些主要局限?
1. 结构化知识探索不足。Minecraft 游戏中蕴含着丰富的结构化知识,例如工具的合成配方(如用一根木棍和两块铁锭制作铁剑)以及分阶段的科技发展路径(木材 → 石器 → 铁器 → 金器 → 钻石)。这些知识对于智能体制定合理的行动计划至关重要,能够帮助其逐步获取完成任务所需的资源和工具。然而,现有智能体在结构化知识探索方面存在明显不足,导致其长序列规划能力受限。
2. 多模态经验积累缺陷。过往经验对于人类完成新任务具有重要指导作用,同样,智能体也能通过积累和总结历史经验来提升在新情境下的判断力和决策能力。但目前,现有智能体在多模态经验的积累与整合方面存在明显短板,未能有效融合视觉、语言和动作等多维度信息,从而限制了其在复杂任务环境中的适应性和决策水平。
为克服上述挑战,我们设计了一个混合多模态记忆模块,将结构化知识与多模态经验整合到智能体的记忆系统中。类似于知识与经验在人类完成复杂任务中的关键作用,智能体在规划阶段利用结构化知识生成可行的任务计划,而在反思阶段则借助多模态经验对当前状态进行评估,并据此做出更合理的决策。基于此,我们提出了名为 Optimus-1 的智能体框架。在混合多模态记忆的强大支持下,Optimus-1 在包括67个长序列任务在内的测试中取得了当前最佳表现,并显著缩小了与人类水平基线的差距。
研究方法
Optimus-1 的整体框架如下图所示。该框架主要由混合多模态记忆模块、知识引导的规划器、经验驱动的反思器以及行动控制器四个核心组件构成。当接收到一个长序列任务时,知识引导的规划器首先从混合多模态记忆中检索与任务相关的知识,并基于这些知识生成一系列可执行的子目标。这些子目标随后被输入到行动控制器中,用于生成执行任务的指令信号。在任务执行过程中,经验驱动反思器会定期激活,检索与当前子目标相关的多模态经验作为参考,通过分析智能体当前状态来辅助做出更精准的决策。
图 1:Optimus-1 的整体框架示意图
1. 混合多模态记忆(Hybrid Multimodal Memory)
图 2:摘要化多模态经验池和层次化有向知识图的构建流程
如图所示,混合多模态记忆主要由摘要化多模态经验池(AMEP)和层次化有向知识图(HDKG)两部分组成。对于 AMEP,系统首先通过 Video Buffer 和 Image Buffer 对视频流进行预处理,得到固定窗口大小的帧序列,然后利用 MineCLIP 模型计算这些帧序列与文本描述的相似度,若相似度超过预设阈值,则将对应的帧序列、文本描述及环境信息等保存为多模态经验。这些经验为智能体的反思阶段提供了细粒度的多模态信息支持,同时通过摘要化处理有效降低了存储成本。对于 HDKG,系统将任务执行过程中获取的知识转化为图结构表示。例如,“两根木棍和三块木板可以合成一把木镐”这一知识被表示为有向图 {2 sticks, 3 planks} → {1 wooden pickaxe},为智能体的规划阶段提供关键知识支持,帮助其制定合理的任务规划方案。
2. 知识引导的规划器(Knowledge-Guided Planner)
实验结果
本研究在开放世界环境 Minecraft 中选取了 67 个长序列任务进行综合评估,这些任务涵盖了木材采集、石器制造、铁器加工、金器打造、钻石挖掘、红石应用以及装备使用等七个不同的任务组。每次执行任务时,智能体都会在随机选择的游戏环境中启动,且初始装备为空,这种设置显著增加了任务的复杂性和挑战性。此外,我们还构建了一个人类水平的基线性能指标,用于评估现有智能体与人类表现之间的差距。
表 1:Optimus-1 在 7 个任务组上的平均成功率
实验结果如上表所示,Optimus-1 在所有任务组的成功率均显著高于先前研究提出的方法。广泛的消融实验也充分验证了知识和经验对于智能体执行长序列任务的重要性。
表 2:消融实验结果。其中,P,R,K,E 分别代表规划模块、反思模块、知识模块以及经验模块。
值得注意的是,本研究还探索了将任务失败案例应用于 in-context learning 的效果。实验结果表明,将成功案例和失败案例共同纳入智能体的反思阶段,能够显著提升任务的整体成功率。
表 3:对多模态经验的消融实验结果。其中,zero,suc,Fai 分别代表零样本学习(zero-shot)、仅使用成功案例以及仅使用失败案例。
通用性
虽然基于 GPT-4V 构建的 Optimus-1 表现出卓越性能,但商业大模型的调用成本仍然是一个不容忽视的问题。因此,本研究进一步进行了扩展实验,探讨一个关键问题:使用现有的开源多模态大模型构建 Optimus-1,其性能表现如何?
图 3:不同多模态大模型作为 backbone 的性能对比
如图所示,在没有混合多模态记忆模块的情况下,各种开源多模态大模型在长序列任务上的表现普遍较差,尤其是在钻石任务组这种具有较高挑战性的任务中,成功率接近于零。然而,在混合多模态记忆模块的赋能下,开源多模态大模型也展现出与 GPT-4V 相当的性能水平。这一发现充分证明了混合多模态记忆模块的通用性和有效性。
结论
在本研究中,我们提出了一种混合多模态记忆模块,该模块由层次化有向知识图(HDKG)和摘要化多模态经验池(AMEP)构成。HDKG 为智能体的规划阶段提供了必要的世界知识支持,而 AMEP 则为反思阶段提供了经过提炼的历史经验。基于此,我们在 Minecraft 环境中成功构建了名为 Optimus-1 的智能体。广泛的实验结果表明,Optimus-1 在长序列任务中的表现已经超越了现有智能体水平。此外,我们还验证了混合多模态记忆模块的通用性,证明开源多模态大模型在其赋能下,也能达到与 GPT-4V 相当的性能表现。