World Model Implanting for Test-time Adaptation of Embodied Agents

作者: Minjong Yoo, Jinwoo Jang, Sihyung Yoon, Honguk Woo

分类: cs.AI

发布日期: 2025-09-04

期刊: Forty-second International Conference on Machine Learning, 2025

💡 一句话要点

提出WorMI框架，通过世界模型植入实现具身智能体测试时自适应

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 具身智能 世界模型 测试时自适应 大型语言模型 领域泛化

📋 核心要点

具身智能体难以适应新领域，通常需要大量数据或重新训练，限制了其泛化能力。
WorMI框架通过植入领域相关的世界模型，结合LLM的推理能力，使智能体在测试时能够自适应。
在VirtualHome和ALFWorld等基准测试中，WorMI在零样本和少样本学习方面优于现有方法。

📝 摘要（中文）

本文提出了一种世界模型植入框架(WorMI)，旨在使具身智能体能够鲁棒地适应新领域，而无需大量数据收集或重新训练。WorMI通过测试时组合，将大型语言模型(LLM)的推理能力与独立学习的、特定领域的世界模型相结合。通过允许无缝植入和移除世界模型，具身智能体的策略能够实现并保持跨领域适应性。WorMI框架采用基于原型的世界模型检索方法，利用高效的基于轨迹的抽象表示匹配，将相关模型整合到测试时组合中。此外，还开发了一种世界感知复合注意力机制，不仅整合了检索到的世界模型的知识，还将它们的中间表示与智能体策略中推理模型的表示对齐。该框架设计有效地融合了来自多个世界模型的领域特定知识，确保对未见领域的鲁棒适应。在VirtualHome和ALFWorld基准测试中，WorMI表现出优于几种基于LLM的方法的零样本和少样本性能，突显了该框架在适应性和数据效率至关重要的具身智能体场景中进行可扩展的实际部署的潜力。

🔬 方法详解

问题定义：具身智能体在面对新的、未知的环境时，通常难以泛化。现有的方法要么需要大量的领域数据进行训练，要么依赖于大型语言模型，但这些模型缺乏对特定领域的细粒度理解。因此，如何在数据有限的情况下，使智能体快速适应新环境是一个关键问题。

核心思路：WorMI的核心思路是将大型语言模型的通用推理能力与独立学习的、特定领域的世界模型相结合。通过在测试时动态地植入和移除相关的世界模型，智能体可以获得对新环境的特定知识，从而提高其适应能力。这种方法避免了从头开始训练或微调模型的需要，提高了数据效率。

技术框架：WorMI框架主要包含以下几个模块：1) 原型世界模型库：存储了多个独立学习的、特定领域的世界模型。2) 世界模型检索模块：基于智能体的当前状态和目标，从世界模型库中检索相关的世界模型。该模块使用基于轨迹的抽象表示匹配，以提高检索效率。3) 世界感知复合注意力模块：将检索到的世界模型的知识整合到智能体的策略中。该模块不仅整合了世界模型的知识，还将它们的中间表示与智能体策略中推理模型的表示对齐。4) 智能体策略：利用LLM进行推理，并根据整合后的知识生成动作。

关键创新：WorMI的关键创新在于其动态植入和移除世界模型的能力。与传统的微调或领域自适应方法不同，WorMI允许智能体在测试时根据环境的变化动态地调整其知识库。此外，世界感知复合注意力机制能够有效地融合来自多个世界模型的知识，并将其与智能体的推理模型对齐。

关键设计：原型世界模型库中的每个世界模型都对应于一个特定的领域或环境。世界模型检索模块使用基于轨迹的抽象表示匹配，通过比较智能体当前轨迹的抽象表示与世界模型库中轨迹的抽象表示，来选择相关的世界模型。世界感知复合注意力模块使用注意力机制来加权不同世界模型的贡献，并将其与智能体的推理模型对齐。具体的参数设置和网络结构细节在论文中进行了详细描述，但此处无法完全展开。

📊 实验亮点

WorMI在VirtualHome和ALFWorld基准测试中表现出优异的性能。在零样本学习方面，WorMI显著优于现有的基于LLM的方法。在少样本学习方面，WorMI也取得了显著的提升，表明其能够有效地利用少量数据进行自适应。具体的数据和提升幅度在论文中进行了详细的展示。

🎯 应用场景

WorMI框架具有广泛的应用前景，例如在机器人导航、家庭服务机器人、自动驾驶等领域。它可以使智能体在未知环境中快速适应，提高其鲁棒性和泛化能力。此外，WorMI框架还可以用于构建更加智能和灵活的虚拟助手，使其能够更好地理解用户的需求并提供个性化的服务。

📄 摘要（原文）

In embodied AI, a persistent challenge is enabling agents to robustly adapt to novel domains without requiring extensive data collection or retraining. To address this, we present a world model implanting framework (WorMI) that combines the reasoning capabilities of large language models (LLMs) with independently learned, domain-specific world models through test-time composition. By allowing seamless implantation and removal of the world models, the embodied agent's policy achieves and maintains cross-domain adaptability. In the WorMI framework, we employ a prototype-based world model retrieval approach, utilizing efficient trajectory-based abstract representation matching, to incorporate relevant models into test-time composition. We also develop a world-wise compound attention method that not only integrates the knowledge from the retrieved world models but also aligns their intermediate representations with the reasoning model's representation within the agent's policy. This framework design effectively fuses domain-specific knowledge from multiple world models, ensuring robust adaptation to unseen domains. We evaluate our WorMI on the VirtualHome and ALFWorld benchmarks, demonstrating superior zero-shot and few-shot performance compared to several LLM-based approaches across a range of unseen domains. These results highlight the frameworks potential for scalable, real-world deployment in embodied agent scenarios where adaptability and data efficiency are essential.

World Model Implanting for Test-time Adaptation of Embodied Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册