Predictability-Based Curiosity-Guided Action Symbol Discovery

📄 arXiv: 2505.18248v1 📥 PDF

作者: Burcu Kilic, Alper Ahmetoglu, Emre Ugur

分类: cs.RO

发布日期: 2025-05-23

备注: Submitted to IEEE ICDL 2025


💡 一句话要点

提出基于可预测性的好奇心引导的动作符号发现方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 符号表示 自主学习 动作原语 好奇心探索 机器人规划 神经符号系统

📋 核心要点

  1. 现有方法主要依赖于预定义的动作库,缺乏自主发现符号动作原语的能力,限制了机器人的灵活性和适应性。
  2. 本研究提出了一种基于编码器-解码器结构的系统,结合好奇心引导的探索模块,能够自主发现符号动作原语和感知符号。
  3. 实验结果表明,该方法能够学习多样化的符号动作原语,并在实现给定操作目标的规划中表现出色,优于基线方法。

📝 摘要(中文)

发现技能的符号表示对于机器人中的抽象推理和高效规划至关重要。以往的神经符号机器人研究主要集中在给定预定义动作库的情况下发现感知符号类别,并利用已有的动作符号生成计划。而真正的自主发展机器人系统应能在最小人类干预下自主发现规划系统所需的所有抽象。本研究提出了一种新颖的系统,旨在自主发现符号动作原语和感知符号。该系统基于编码器-解码器结构,输入对象和动作信息并预测生成效果。为了高效探索广泛的连续动作参数空间,我们引入了一种基于好奇心的探索模块,选择最具信息量的动作,以最大化预测效果分布的熵。发现的符号动作原语随后用于在单一和双对象操作任务中使用符号树搜索策略进行规划。

🔬 方法详解

问题定义:本论文旨在解决现有神经符号机器人研究中缺乏自主发现符号动作原语的问题。现有方法通常依赖于预定义的动作库,限制了机器人的自主性和灵活性。

核心思路:本研究提出的系统通过编码器-解码器结构,结合基于好奇心的探索模块,能够自主发现符号动作原语和感知符号,从而提高机器人在复杂环境中的适应能力。

技术框架:整体架构包括输入对象和动作信息的编码器,生成效果的解码器,以及好奇心引导的探索模块。探索模块选择最具信息量的动作,以最大化预测效果分布的熵。

关键创新:该研究的主要创新在于引入了好奇心引导的探索机制,使得机器人能够在广泛的动作参数空间中高效探索,并自主发现符号动作原语,区别于以往依赖于固定动作库的方法。

关键设计:系统中采用了特定的损失函数来优化预测效果的准确性,并设计了适应性强的网络结构,以支持复杂的动作和对象信息输入。

📊 实验亮点

实验结果显示,该方法在单一和双对象操作任务中表现优异,相较于基线方法,学习到的符号动作原语在生成规划方面的有效性显著提升,具体性能数据未提供,但提升幅度明显。

🎯 应用场景

该研究的潜在应用领域包括自主机器人、智能制造和人机协作等。通过自主发现符号动作原语,机器人能够在动态环境中更灵活地执行任务,提升工作效率和适应能力,具有重要的实际价值和未来影响。

📄 摘要(原文)

Discovering symbolic representations for skills is essential for abstract reasoning and efficient planning in robotics. Previous neuro-symbolic robotic studies mostly focused on discovering perceptual symbolic categories given a pre-defined action repertoire and generating plans with given action symbols. A truly developmental robotic system, on the other hand, should be able to discover all the abstractions required for the planning system with minimal human intervention. In this study, we propose a novel system that is designed to discover symbolic action primitives along with perceptual symbols autonomously. Our system is based on an encoder-decoder structure that takes object and action information as input and predicts the generated effect. To efficiently explore the vast continuous action parameter space, we introduce a Curiosity-Based exploration module that selects the most informative actions -- the ones that maximize the entropy in the predicted effect distribution. The discovered symbolic action primitives are then used to make plans using a symbolic tree search strategy in single- and double-object manipulation tasks. We compare our model with two baselines that use different exploration strategies in different experiments. The results show that our approach can learn a diverse set of symbolic action primitives, which are effective for generating plans in order to achieve given manipulation goals.