CONDESION-BENCH: Conditional Decision-Making of Large Language Models in Compositional Action Space

📄 arXiv: 2604.09029v1 📥 PDF

作者: Yeonjun Hwang, Sungyong Park, Minju Kim, Dongha Lee, Jinyoung Yeo

分类: cs.CL, cs.AI

发布日期: 2026-04-10

备注: preprint


💡 一句话要点

提出CONDESION-BENCH,评估大语言模型在组合动作空间中的条件决策能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 决策支持 组合动作空间 条件决策 基准测试 人工智能 自然语言处理

📋 核心要点

  1. 现有决策基准假设动作选择范围有限,且忽略了显式条件约束,无法反映真实世界决策的复杂性。
  2. CONDESION-BENCH通过定义组合动作空间和显式条件,更真实地模拟了现实世界的决策场景。
  3. 该基准采用基于oracle的评估方法,能够更严格地评估LLM在决策质量和条件遵守方面的表现。

📝 摘要(中文)

由于其上下文理解和推理能力,大型语言模型已被广泛探索作为高风险领域的决策支持工具。然而,现有的决策基准依赖于两个简化的假设:动作是从预定义的候选集合中选择的,并且显式地限制动作可行性的条件没有被纳入决策过程中。这些假设未能捕捉到真实世界动作的组合结构以及约束其有效性的显式条件。为了解决这些局限性,我们引入了CONDESION-BENCH,这是一个旨在评估组合动作空间中条件决策的基准。在CONDESION-BENCH中,动作被定义为对决策变量的分配,并受到变量、上下文和分配级别的显式条件的限制。通过采用基于oracle的决策质量和条件遵守情况的评估,我们为大语言模型作为决策支持工具提供了更严格的评估。

🔬 方法详解

问题定义:现有的大语言模型决策基准通常假设动作是从一个预定义的有限集合中选择的,并且没有考虑显式的条件约束。这种简化忽略了真实世界决策的复杂性,即动作通常是组合式的,并且受到各种条件限制,例如变量约束、上下文约束和分配约束。因此,现有基准无法准确评估LLM在真实决策场景中的能力。

核心思路:CONDESION-BENCH的核心思路是构建一个更真实的决策环境,其中动作被定义为对决策变量的分配,并且这些分配受到显式的条件约束。通过引入组合动作空间和显式条件,该基准能够更全面地评估LLM在复杂决策场景中的能力。

技术框架:CONDESION-BENCH包含以下几个主要组成部分:1) 决策问题定义:定义决策变量、动作空间和约束条件。2) LLM决策模块:使用LLM生成决策方案。3) Oracle评估模块:使用oracle评估决策方案的质量和条件遵守情况。4) 评估指标:定义用于评估LLM性能的指标,例如决策质量和条件遵守率。

关键创新:CONDESION-BENCH的关键创新在于其对组合动作空间和显式条件的建模。与现有基准不同,CONDESION-BENCH允许动作是组合式的,并且受到各种条件约束。这使得该基准能够更真实地模拟现实世界的决策场景,并更准确地评估LLM的决策能力。

关键设计:CONDESION-BENCH的关键设计包括:1) 决策变量的定义:决策变量可以是离散的或连续的,并且可以具有不同的约束条件。2) 动作空间的定义:动作空间由所有可能的决策变量分配组成。3) 约束条件的定义:约束条件可以分为变量约束、上下文约束和分配约束。4) Oracle评估模块的设计:Oracle评估模块使用专家知识或模拟器来评估决策方案的质量和条件遵守情况。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CONDESION-BENCH通过引入组合动作空间和显式条件,提供了一个更严格的LLM决策能力评估平台。该基准采用基于oracle的评估方法,能够更准确地评估LLM在决策质量和条件遵守方面的表现。实验结果(具体数据未知)表明,现有LLM在CONDESION-BENCH上的表现仍有提升空间,表明该基准能够有效区分不同LLM的决策能力。

🎯 应用场景

CONDESION-BENCH可用于评估和改进LLM在各种决策支持系统中的应用,例如资源分配、任务调度、医疗诊断和金融投资等。该基准的引入将有助于推动LLM在复杂决策场景中的应用,并提高决策的质量和效率。未来,该基准可以扩展到更复杂的决策场景,例如多智能体决策和动态决策。

📄 摘要(原文)

Large language models have been widely explored as decision-support tools in high-stakes domains due to their contextual understanding and reasoning capabilities. However, existing decision-making benchmarks rely on two simplifying assumptions: actions are selected from a finite set of pre-defined candidates, and explicit conditions restricting action feasibility are not incorporated into the decision-making process. These assumptions fail to capture the compositional structure of real-world actions and the explicit conditions that constrain their validity. To address these limitations, we introduce CONDESION-BENCH, a benchmark designed to evaluate conditional decision-making in compositional action space. In CONDESION-BENCH, actions are defined as allocations to decision variables and are restricted by explicit conditions at the variable, contextual, and allocation levels. By employing oracle-based evaluation of both decision quality and condition adherence, we provide a more rigorous assessment of LLMs as decision-support tools.