BiGraspFormer: End-to-End Bimanual Grasp Transformer

作者: Kangmin Kim, Seunghyeok Back, Geonhyup Lee, Sangbeom Lee, Sangjun Noh, Kyoobin Lee

分类: cs.RO

发布日期: 2025-09-23

备注: 8 pages, 5 figures

💡 一句话要点

BiGraspFormer：端到端双臂抓取Transformer网络，解决复杂物体操作中的协调问题。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 双臂抓取 机器人操作 Transformer网络 点云处理 端到端学习

📋 核心要点

现有双臂抓取方法在协调性方面存在不足，容易出现碰撞和力分布不均等问题。
BiGraspFormer采用单引导双臂（SGB）策略，先生成单臂抓取候选，再预测协调的双臂姿态。
实验结果表明，BiGraspFormer在性能上优于现有方法，并具有高效的推理速度。

📝 摘要（中文）

双臂抓取对于机器人处理大型和复杂物体至关重要。然而，现有方法要么只关注单臂抓取，要么采用分离的抓取生成和双臂评估阶段，导致协调问题，包括碰撞风险和不平衡的力分布。为了解决这些限制，我们提出了BiGraspFormer，一个统一的端到端Transformer框架，可以直接从物体点云生成协调的双臂抓取姿态。我们的核心思想是单引导双臂（SGB）策略，该策略首先使用Transformer解码器生成多样化的单抓取候选，然后利用其学习到的特征，通过专门的注意力机制来联合预测双臂姿态和质量分数。这种条件策略降低了12自由度搜索空间的复杂性，同时确保了协调的双臂操作。全面的仿真实验和真实世界验证表明，BiGraspFormer始终优于现有方法，同时保持了高效的推理速度（<0.05s），证实了我们框架的有效性。

🔬 方法详解

问题定义：现有双臂抓取方法通常采用分离的抓取生成和评估流程，导致双臂之间的协调性较差，容易出现碰撞风险和不平衡的力分布。此外，直接搜索12自由度的双臂抓取空间计算量巨大，效率低下。因此，如何高效且协调地生成双臂抓取姿态是一个关键问题。

核心思路：BiGraspFormer的核心思路是利用单臂抓取作为引导，通过学习单臂抓取的特征来辅助双臂抓取的预测。这种方法将复杂的12自由度搜索空间分解为更易处理的单臂抓取空间，并通过注意力机制实现双臂之间的信息交互和协调。这样设计可以有效降低搜索空间复杂度，同时保证双臂抓取的协调性。

技术框架：BiGraspFormer是一个端到端的Transformer框架，主要包含以下几个模块：1) 点云特征提取模块：用于提取物体点云的特征表示。2) 单臂抓取生成模块：使用Transformer解码器生成多个单臂抓取候选姿态。3) 注意力机制模块：利用单臂抓取候选的特征，通过注意力机制学习双臂之间的关系，并预测双臂抓取姿态和质量分数。4) 抓取评估模块：评估生成的双臂抓取的质量，并选择最优的抓取姿态。整个流程从点云输入到双臂抓取姿态输出，实现端到端的学习和推理。

关键创新：BiGraspFormer的关键创新在于其单引导双臂（SGB）策略和端到端的Transformer框架。SGB策略通过单臂抓取引导降低了双臂抓取搜索空间的复杂度，而端到端的Transformer框架则实现了双臂抓取的联合预测和优化。与现有方法相比，BiGraspFormer避免了分离的抓取生成和评估流程，从而更好地保证了双臂抓取的协调性。

关键设计：BiGraspFormer的关键设计包括：1) Transformer解码器的结构和参数设置，用于生成多样化的单臂抓取候选。2) 注意力机制的设计，用于学习单臂抓取特征之间的关系，并预测双臂抓取姿态和质量分数。3) 损失函数的设计，用于优化双臂抓取的质量和协调性。具体的损失函数可能包括抓取成功率损失、碰撞损失和力分布平衡损失等。此外，网络结构的细节，如注意力头的数量、隐藏层的维度等，也会影响模型的性能。

📊 实验亮点

BiGraspFormer在仿真实验和真实世界实验中均表现出色，显著优于现有方法。在仿真实验中，BiGraspFormer的抓取成功率明显高于其他基线方法。更重要的是，BiGraspFormer保持了高效的推理速度，小于0.05秒，使其能够满足实时操作的需求。这些结果充分验证了BiGraspFormer框架的有效性和实用性。

🎯 应用场景

BiGraspFormer在机器人操作领域具有广泛的应用前景，例如：工业自动化中的复杂零件装配、家庭服务机器人中的大型物体搬运、以及医疗机器人中的手术辅助等。该研究可以提高机器人处理复杂物体的能力，降低操作难度，并提高操作效率和安全性。未来，该技术有望应用于更多需要双臂协调操作的场景。

📄 摘要（原文）

Bimanual grasping is essential for robots to handle large and complex objects. However, existing methods either focus solely on single-arm grasping or employ separate grasp generation and bimanual evaluation stages, leading to coordination problems including collision risks and unbalanced force distribution. To address these limitations, we propose BiGraspFormer, a unified end-to-end transformer framework that directly generates coordinated bimanual grasps from object point clouds. Our key idea is the Single-Guided Bimanual (SGB) strategy, which first generates diverse single grasp candidates using a transformer decoder, then leverages their learned features through specialized attention mechanisms to jointly predict bimanual poses and quality scores. This conditioning strategy reduces the complexity of the 12-DoF search space while ensuring coordinated bimanual manipulation. Comprehensive simulation experiments and real-world validation demonstrate that BiGraspFormer consistently outperforms existing methods while maintaining efficient inference speed (<0.05s), confirming the effectiveness of our framework. Code and supplementary materials are available at https://sites.google.com/bigraspformer

BiGraspFormer: End-to-End Bimanual Grasp Transformer

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册