GRASP: Grounded CoT Reasoning with Dual-Stage Optimization for Multimodal Sarcasm Target Identification
作者: Faxian Wan, Xiaocui Yang, Yifan Cao, Shi Feng, Daling Wang, Yifei Zhang
分类: cs.CL
发布日期: 2026-04-10
💡 一句话要点
提出GRASP框架,通过双阶段优化和Grounded CoT推理解决多模态讽刺目标识别问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态讽刺 目标识别 Chain-of-Thought 视觉Grounding 双阶段优化 情感分析 MSTI-MAX数据集
📋 核心要点
- 现有MSTI方法依赖隐式跨模态对齐,缺乏可解释性,细粒度定位效果欠佳。
- GRASP框架通过视觉Grounded CoT推理,显式地将视觉区域与推理过程关联,提升定位精度。
- 实验表明GRASP在细粒度讽刺目标识别上超越现有方法,并通过LLM评估验证推理链质量。
📝 摘要(中文)
本文针对多模态讽刺目标识别(MSTI)任务,提出了GRASP框架,该框架结合了视觉 grounding 和显式的 Chain-of-Thought (CoT) 推理,旨在超越黑盒 MSTI。为了缓解类别不平衡并丰富多模态讽刺线索,作者构建了 MSTI-MAX 数据集。GRASP 引入了 Grounded CoT 推理,将讽刺相关的视觉区域锚定在推理轨迹中,并提示模型在预测最终分类标签和讽刺目标之前阐明理由。此外,采用双阶段结果监督联合优化策略:坐标感知加权损失的监督微调,以及细粒度目标策略优化。实验结果表明,GRASP 在跨模态的细粒度讽刺目标识别方面优于现有基线。LLM-as-a-Judge 评估定量地衡量了内部推理链的质量。数据集和源代码将在 GitHub 上发布。
🔬 方法详解
问题定义:多模态讽刺目标识别(MSTI)旨在精确定位文本短语和视觉区域等细粒度目标,而现有方法主要依赖隐式跨模态对齐,导致可解释性差,无法实现最优的细粒度定位。这些方法如同黑盒,难以理解其决策过程。
核心思路:GRASP的核心思路是将视觉 grounding 与显式的 Chain-of-Thought (CoT) 推理相结合。通过将讽刺相关的视觉区域锚定在推理轨迹中,模型能够更清晰地表达其推理过程,从而提高目标识别的准确性和可解释性。双阶段优化策略进一步提升了模型的性能。
技术框架:GRASP框架包含以下主要模块:1) Grounded CoT推理模块,负责生成包含视觉 grounding 的推理链;2) 预测模块,基于推理链预测分类标签和讽刺目标;3) 双阶段优化模块,包括坐标感知加权损失的监督微调和细粒度目标策略优化。整体流程是:输入多模态数据,通过Grounded CoT推理生成推理链,然后基于推理链进行预测,最后通过双阶段优化提升性能。
关键创新:GRASP的关键创新在于Grounded CoT推理,它显式地将视觉信息融入到推理过程中,使得模型能够更好地理解多模态数据中的讽刺含义。与现有方法相比,GRASP不再是一个黑盒,而是能够提供可解释的推理过程。此外,双阶段优化策略也进一步提升了模型的性能。
关键设计:在Grounded CoT推理中,模型被提示在预测之前阐明理由,并将讽刺相关的视觉区域锚定在推理轨迹中。双阶段优化包括:1) 坐标感知加权损失的监督微调,该损失函数考虑了目标区域的坐标信息,以提高定位精度;2) 细粒度目标策略优化,通过强化学习的方式优化模型的策略,使其能够更准确地识别讽刺目标。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GRASP在细粒度讽刺目标识别方面优于现有基线方法。此外,通过LLM-as-a-Judge评估,定量地验证了GRASP内部推理链的质量。MSTI-MAX数据集的构建也为多模态讽刺研究提供了新的资源。
🎯 应用场景
GRASP框架可应用于社交媒体情感分析、舆情监控、智能客服等领域。通过识别多模态数据中的讽刺目标,可以更准确地理解用户的情感和意图,从而提高信息过滤、风险预警和个性化服务的质量。该研究还有助于提升人机交互的自然性和智能化水平。
📄 摘要(原文)
Moving beyond the traditional binary classification paradigm of Multimodal Sarcasm Detection, Multimodal Sarcasm Target Identification (MSTI) presents a more formidable challenge, requiring precise localization of fine-grained targets such as textual phrases and visual regions. Existing approaches predominantly rely on implicit cross-modal alignment, offering limited interpretability and suboptimal fine-grained localization. To address these limitations, we propose GRASP, Grounded Chain-of-Thought ReAsoning with Dual-Stage Optimization for Multimodal Sarcasm Prediction and Target Identification, a framework that integrates visual grounding with explicit Chain-of-Thought (CoT) reasoning to move beyond black-box MSTI. Specifically, we curate MSTI-MAX, a refined dataset that mitigates class imbalance and enriches multimodal sarcasm cues. We introduce Grounded CoT reasoning, which explicitly anchors sarcasm-related visual regions within the reasoning trajectory and prompts the model to articulate rationales before predicting the final classification labels and sarcasm targets. Furthermore, we employ a dual-stage outcome-supervised joint optimization strategy: Supervised Fine-Tuning with a coordinate-aware weighted loss, followed by Fine-Grained Target Policy Optimization. Extensive experiments demonstrate that GRASP outperforms existing baselines in fine-grained sarcasm target identification across modalities, and an LLM-as-a-Judge evaluation quantitatively measures the quality of internal reasoning chains. Our dataset and source code will be released on GitHub.