Digital Twin Driven Textile Classification and Foreign Object Recognition in Automated Sorting Systems
作者: Serkan Ergun, Tobias Mitterer, Hubert Zangl
分类: cs.CV, cs.RO
发布日期: 2026-03-05
备注: 10 pages,single column, 5 figures, preprint for Photomet Edumet 2026 (Klagenfurt, Austria)
💡 一句话要点
提出数字孪生驱动的纺织品分类与异物识别系统,用于自动化分拣
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 数字孪生 纺织品分类 异物识别 视觉语言模型 机器人分拣
📋 核心要点
- 现有纺织品回收自动化解决方案难以处理衣物形变和复杂环境下的异物识别。
- 本文提出基于数字孪生的机器人分拣系统,融合抓取预测、多模态感知和语义推理。
- 实验表明,Qwen模型在纺织品分类和异物检测中表现最佳,准确率高达87.9%。
📝 摘要(中文)
为了满足日益增长的可持续纺织品回收需求,本文提出了一种基于数字孪生驱动的机器人分拣系统,该系统能够处理易变形的衣物并在杂乱环境中检测异物。该系统集成了抓取预测、多模态感知和语义推理,用于现实世界中的纺织品分类。一个配备RGBD传感、电容式触觉反馈和防碰撞运动规划的双臂机器人单元,能够自主地从未分类的篮子中分离衣物,将其转移到检查区域,并使用最先进的视觉语言模型(VLM)对其进行分类。本文在包含衬衫、袜子、裤子、内衣、异物(包括上述类别之外的衣物)和空场景的223个检查场景的数据集上,对来自五个模型系列的九个VLM进行了基准测试。评估内容包括每类准确率、幻觉行为以及实际硬件约束下的计算性能。结果表明,Qwen模型系列实现了最高的总体准确率(高达87.9%),并且具有强大的异物检测性能,而诸如Gemma3之类的较轻量级模型则为边缘部署提供了具有竞争力的速度-准确率权衡。数字孪生与MoveIt结合,实现了防碰撞路径规划,并将检查衣物的分割3D点云集成到虚拟环境中,从而提高了操作可靠性。所提出的系统证明了将语义VLM推理与传统抓取检测和数字孪生技术相结合,在实际工业环境中实现可扩展的自主纺织品分拣的可行性。
🔬 方法详解
问题定义:纺织品回收过程中,如何实现自动化、高精度、高效率的衣物分类和异物识别是一个关键问题。现有方法在处理易变形衣物和复杂背景下的异物时,鲁棒性较差,难以满足实际工业需求。此外,缺乏有效的手段将物理世界的状态反馈到控制系统中,导致操作可靠性降低。
核心思路:本文的核心思路是利用数字孪生技术,构建一个与真实机器人系统同步的虚拟环境,结合视觉语言模型(VLM)的语义理解能力,实现对衣物的精确分类和异物的有效识别。通过多模态感知和防碰撞运动规划,提高系统的鲁棒性和操作可靠性。
技术框架:该系统主要包含以下几个模块:1) 双臂机器人单元,负责从杂乱的篮子中抓取衣物并将其转移到检查区域;2) RGBD传感器和电容式触觉传感器,用于获取衣物的视觉和触觉信息;3) 基于VLM的分类模块,利用视觉信息对衣物进行分类和异物识别;4) 数字孪生模块,构建虚拟环境,用于碰撞检测和路径规划;5) MoveIt运动规划库,用于生成防碰撞的机器人运动轨迹。整个流程为:机器人抓取衣物 -> 多模态感知 -> VLM分类 -> 数字孪生环境更新 -> 机器人放置衣物。
关键创新:该论文的关键创新在于将数字孪生技术与视觉语言模型相结合,用于纺织品分类和异物识别。数字孪生技术能够提供实时的环境反馈,提高操作的可靠性,而VLM则能够利用其强大的语义理解能力,实现对衣物的精确分类和异物的有效识别。与传统方法相比,该方法具有更高的鲁棒性和准确性。
关键设计:在VLM的选择上,作者评估了来自五个模型系列的九个VLM,包括Qwen、Gemma等。实验中,作者构建了一个包含223个检查场景的数据集,涵盖了衬衫、袜子、裤子、内衣、异物和空场景等多种情况。评估指标包括每类准确率、幻觉行为和计算性能。数字孪生环境的构建利用了MoveIt运动规划库,实现了防碰撞路径规划。此外,系统还集成了电容式触觉传感器,用于提供额外的触觉反馈信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Qwen模型系列在纺织品分类和异物检测方面表现最佳,总体准确率高达87.9%。同时,Gemma3等轻量级模型在边缘部署方面也表现出良好的速度-准确率权衡。该系统在实际工业环境中验证了数字孪生驱动的机器人分拣系统的可行性。
🎯 应用场景
该研究成果可应用于纺织品回收、服装制造、仓储物流等领域。通过自动化分拣,能够提高纺织品回收效率,降低人工成本,并减少环境污染。此外,该技术还可扩展到其他类似场景,如废品回收、食品分拣等,具有广阔的应用前景。
📄 摘要(原文)
The increasing demand for sustainable textile recycling requires robust automation solutions capable of handling deformable garments and detecting foreign objects in cluttered environments. This work presents a digital twin driven robotic sorting system that integrates grasp prediction, multi modal perception, and semantic reasoning for real world textile classification. A dual arm robotic cell equipped with RGBD sensing, capacitive tactile feedback, and collision-aware motion planning autonomously separates garments from an unsorted basket, transfers them to an inspection zone, and classifies them using state of the art Visual Language Models (VLMs). We benchmark nine VLM s from five model families on a dataset of 223 inspection scenarios comprising shirts, socks, trousers, underwear, foreign objects (including garments outside of the aforementioned classes), and empty scenes. The evaluation assesses per class accuracy, hallucination behavior, and computational performance under practical hardware constraints. Results show that the Qwen model family achieves the highest overall accuracy (up to 87.9 %), with strong foreign object detection performance, while lighter models such as Gemma3 offer competitive speed accuracy trade offs for edge deployment. A digital twin combined with MoveIt enables collision aware path planning and integrates segmented 3D point clouds of inspected garments into the virtual environment for improved manipulation reliability. The presented system demonstrates the feasibility of combining semantic VLM reasoning with conventional grasp detection and digital twin technology for scalable, autonomous textile sorting in realistic industrial settings.