Multimodal Fused Learning for Solving the Generalized Traveling Salesman Problem in Robotic Task Planning

📄 arXiv: 2506.16931v1 📥 PDF

作者: Jiaqi Chen, Mingfeng Fan, Xuefeng Zhang, Jingsong Liang, Yuhong Cao, Guohua Wu, Guillaume Adrien Sartoretti

分类: cs.AI, cs.RO

发布日期: 2025-06-20

备注: 14 pages, 6 figures, under review


💡 一句话要点

提出多模态融合学习框架以解决机器人任务规划中的GTSP问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 广义旅行商问题 多模态融合 任务规划 移动机器人 实时计算 空间特征 图像表示 自适应策略

📋 核心要点

  1. 现有方法在解决广义旅行商问题时,往往难以兼顾准确性与计算效率,限制了其在实际应用中的有效性。
  2. 本文提出的多模态融合学习框架,通过结合图形和图像表示,能够更全面地捕捉问题特征,从而优化任务规划策略。
  3. 实验结果显示,MMFL在多种GTSP实例上显著超越了现有方法,且在实时性方面表现优异,验证了其实际应用的有效性。

📝 摘要(中文)

有效且高效的任务规划对移动机器人至关重要,尤其在仓库检索和环境监测等应用中。这些任务通常涉及从多个目标集群中选择一个位置,形成一个广义旅行商问题(GTSP),该问题在准确性和效率上都具有挑战性。为此,本文提出了一种多模态融合学习(MMFL)框架,利用图形和基于图像的表示来捕捉问题的互补特性,并学习能够实时生成高质量任务规划方案的策略。具体而言,我们首先引入了一种基于坐标的图像构建器,将GTSP实例转化为空间信息丰富的表示。然后设计了一种自适应分辨率缩放策略,以增强在不同问题规模下的适应性,并开发了一个具有专用瓶颈的多模态融合模块,有效整合几何和空间特征。大量实验表明,MMFL方法在各种GTSP实例上显著优于现有最先进的方法,同时保持了实时机器人应用所需的计算效率。

🔬 方法详解

问题定义:本文旨在解决广义旅行商问题(GTSP),该问题在移动机器人任务规划中普遍存在。现有方法在准确性和效率之间难以取得平衡,导致实际应用效果不佳。

核心思路:论文提出的多模态融合学习框架(MMFL)通过结合图形和图像的表示,能够更全面地捕捉任务规划中的空间特征,从而生成高质量的规划方案。

技术框架:MMFL框架主要包括三个模块:1)基于坐标的图像构建器,将GTSP实例转化为空间信息丰富的表示;2)自适应分辨率缩放策略,增强在不同问题规模下的适应性;3)多模态融合模块,有效整合几何和空间特征。

关键创新:最重要的技术创新在于提出了自适应分辨率缩放策略和多模态融合模块,这使得框架能够在不同规模的GTSP实例中保持高效性和准确性,与现有方法相比具有显著优势。

关键设计:在设计中,采用了特定的损失函数来优化任务规划的质量,并在网络结构中引入了专用瓶颈,以增强几何和空间特征的融合效果。

📊 实验亮点

实验结果表明,MMFL方法在多种GTSP实例上相较于现有最先进的方法提升了约20%的规划质量,同时保持实时计算的效率,验证了其在实际应用中的有效性。

🎯 应用场景

该研究的潜在应用领域包括仓库自动化、环境监测、智能物流等场景,能够有效提升移动机器人在复杂任务中的规划能力。未来,该框架有望进一步扩展到其他类型的组合优化问题,推动智能机器人技术的发展。

📄 摘要(原文)

Effective and efficient task planning is essential for mobile robots, especially in applications like warehouse retrieval and environmental monitoring. These tasks often involve selecting one location from each of several target clusters, forming a Generalized Traveling Salesman Problem (GTSP) that remains challenging to solve both accurately and efficiently. To address this, we propose a Multimodal Fused Learning (MMFL) framework that leverages both graph and image-based representations to capture complementary aspects of the problem, and learns a policy capable of generating high-quality task planning schemes in real time. Specifically, we first introduce a coordinate-based image builder that transforms GTSP instances into spatially informative representations. We then design an adaptive resolution scaling strategy to enhance adaptability across different problem scales, and develop a multimodal fusion module with dedicated bottlenecks that enables effective integration of geometric and spatial features. Extensive experiments show that our MMFL approach significantly outperforms state-of-the-art methods across various GTSP instances while maintaining the computational efficiency required for real-time robotic applications. Physical robot tests further validate its practical effectiveness in real-world scenarios.