Exploring Plan Space through Conversation: An Agentic Framework for LLM-Mediated Explanations in Planning
作者: Guilhem Fouilhé, Rebecca Eifler, Antonin Poché, Sylvie Thiébaux, Nicholas Asher
分类: cs.AI, cs.CL, cs.HC, cs.MA
发布日期: 2026-03-02
备注: Preprint
💡 一句话要点
提出基于LLM的多智能体框架,用于规划中人机交互式解释,提升用户理解与信任。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人机交互 自动化规划 大型语言模型 多智能体系统 可解释性AI
📋 核心要点
- 现有规划系统缺乏自然的人机交互方式,难以根据用户偏好和专业知识进行调整。
- 论文提出一种基于多智能体LLM的框架,实现用户和上下文相关的交互式解释,提升理解。
- 用户研究表明,基于LLM的交互式解释优于传统模板方法,增强了用户对规划方案的理解。
📝 摘要(中文)
在自动化真实世界序列决策问题的规划生成时,目标通常不是取代人类规划者,而是促进一个迭代的推理和启发过程,其中人类的角色是根据他们的偏好和专业知识来指导AI规划器。在这种背景下,能够回应用户问题的解释对于提高他们对潜在解决方案的理解以及增加他们对系统的信任至关重要。为了实现与这种系统的自然交互,我们提出了一个多智能体大型语言模型(LLM)架构,该架构与解释框架无关,并支持用户和上下文相关的交互式解释。我们还描述了该框架在目标冲突解释中的一个实例,并使用它进行了一项用户研究,比较了基于LLM的交互与基于模板的基线解释界面。
🔬 方法详解
问题定义:论文旨在解决自动化规划系统中人机交互不足的问题。现有方法生成的规划方案难以解释,用户无法根据自身知识和偏好进行有效指导,导致信任度低。现有解释方法通常基于预定义模板,缺乏灵活性和上下文感知能力。
核心思路:论文的核心思路是利用大型语言模型(LLM)的强大自然语言处理能力,构建一个多智能体系统,实现用户与规划系统之间的自然交互。通过对话的方式,系统可以根据用户的提问和反馈,提供定制化的解释,帮助用户理解规划方案并进行指导。
技术框架:该框架采用多智能体架构,包含以下主要模块:1) 用户代理:负责接收用户输入,并将其转化为系统可理解的形式;2) 规划代理:负责生成规划方案;3) 解释代理:利用LLM生成解释,并根据用户反馈进行调整;4) 上下文管理代理:负责维护对话历史和上下文信息。整个流程是用户发起提问,用户代理接收并传递给解释代理,解释代理与规划代理和上下文管理代理交互,生成解释并返回给用户。
关键创新:该框架的关键创新在于:1) 采用多智能体架构,将规划、解释和交互解耦,提高了系统的灵活性和可扩展性;2) 利用LLM生成自然语言解释,提高了用户理解度;3) 支持用户和上下文相关的交互式解释,能够根据用户提问和反馈进行调整。
关键设计:论文重点在于框架设计而非具体参数或损失函数。关键设计包括:1) LLM的选择和微调策略,以确保生成的解释准确、流畅且符合上下文;2) 多智能体之间的通信协议,以确保信息传递的效率和可靠性;3) 用户界面的设计,以提供友好的交互体验。
🖼️ 关键图片
📊 实验亮点
用户研究表明,与基于模板的基线解释界面相比,基于LLM的交互式解释显著提高了用户对规划方案的理解和信任度。具体而言,用户在使用LLM解释界面时,能够更快地找到规划方案中的问题,并提出更有效的改进建议。研究结果表明,LLM在人机交互式规划中具有巨大的潜力。
🎯 应用场景
该研究成果可应用于各种需要人机协作的自动化规划场景,例如:机器人任务规划、供应链管理、智能交通调度等。通过提供自然、可信的解释,可以提升用户对自动化系统的信任,促进人机协同,提高决策效率和质量。未来可进一步探索LLM在规划中的应用,例如:利用LLM进行规划方案的优化和改进。
📄 摘要(原文)
When automating plan generation for a real-world sequential decision problem, the goal is often not to replace the human planner, but to facilitate an iterative reasoning and elicitation process, where the human's role is to guide the AI planner according to their preferences and expertise. In this context, explanations that respond to users' questions are crucial to improve their understanding of potential solutions and increase their trust in the system. To enable natural interaction with such a system, we present a multi-agent Large Language Model (LLM) architecture that is agnostic to the explanation framework and enables user- and context-dependent interactive explanations. We also describe an instantiation of this framework for goal-conflict explanations, which we use to conduct a user study comparing the LLM-powered interaction with a baseline template-based explanation interface.