GRASP: Grounded CoT Reasoning with Dual-Stage Optimization for Multimodal Sarcasm Target Identification

作者: Faxian Wan, Xiaocui Yang, Yifan Cao, Shi Feng, Daling Wang, Yifei Zhang

分类: cs.CL

发布日期: 2026-04-10

💡 一句话要点

提出GRASP框架，通过双阶段优化和Grounded CoT推理解决多模态讽刺目标识别问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态讽刺 目标识别 Chain-of-Thought 视觉Grounding 双阶段优化 情感分析 MSTI-MAX数据集

📋 核心要点

现有MSTI方法依赖隐式跨模态对齐，缺乏可解释性，细粒度定位效果欠佳。
GRASP框架通过视觉Grounded CoT推理，显式地将视觉区域与推理过程关联，提升定位精度。
实验表明GRASP在细粒度讽刺目标识别上超越现有方法，并通过LLM评估验证推理链质量。

📝 摘要（中文）

本文针对多模态讽刺目标识别（MSTI）任务，提出了GRASP框架，该框架结合了视觉 grounding 和显式的 Chain-of-Thought (CoT) 推理，旨在超越黑盒 MSTI。为了缓解类别不平衡并丰富多模态讽刺线索，作者构建了 MSTI-MAX 数据集。GRASP 引入了 Grounded CoT 推理，将讽刺相关的视觉区域锚定在推理轨迹中，并提示模型在预测最终分类标签和讽刺目标之前阐明理由。此外，采用双阶段结果监督联合优化策略：坐标感知加权损失的监督微调，以及细粒度目标策略优化。实验结果表明，GRASP 在跨模态的细粒度讽刺目标识别方面优于现有基线。LLM-as-a-Judge 评估定量地衡量了内部推理链的质量。数据集和源代码将在 GitHub 上发布。

🔬 方法详解

问题定义：多模态讽刺目标识别（MSTI）旨在精确定位文本短语和视觉区域等细粒度目标，而现有方法主要依赖隐式跨模态对齐，导致可解释性差，无法实现最优的细粒度定位。这些方法如同黑盒，难以理解其决策过程。

核心思路：GRASP的核心思路是将视觉 grounding 与显式的 Chain-of-Thought (CoT) 推理相结合。通过将讽刺相关的视觉区域锚定在推理轨迹中，模型能够更清晰地表达其推理过程，从而提高目标识别的准确性和可解释性。双阶段优化策略进一步提升了模型的性能。

技术框架：GRASP框架包含以下主要模块：1) Grounded CoT推理模块，负责生成包含视觉 grounding 的推理链；2) 预测模块，基于推理链预测分类标签和讽刺目标；3) 双阶段优化模块，包括坐标感知加权损失的监督微调和细粒度目标策略优化。整体流程是：输入多模态数据，通过Grounded CoT推理生成推理链，然后基于推理链进行预测，最后通过双阶段优化提升性能。

关键创新：GRASP的关键创新在于Grounded CoT推理，它显式地将视觉信息融入到推理过程中，使得模型能够更好地理解多模态数据中的讽刺含义。与现有方法相比，GRASP不再是一个黑盒，而是能够提供可解释的推理过程。此外，双阶段优化策略也进一步提升了模型的性能。

关键设计：在Grounded CoT推理中，模型被提示在预测之前阐明理由，并将讽刺相关的视觉区域锚定在推理轨迹中。双阶段优化包括：1) 坐标感知加权损失的监督微调，该损失函数考虑了目标区域的坐标信息，以提高定位精度；2) 细粒度目标策略优化，通过强化学习的方式优化模型的策略，使其能够更准确地识别讽刺目标。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GRASP在细粒度讽刺目标识别方面优于现有基线方法。此外，通过LLM-as-a-Judge评估，定量地验证了GRASP内部推理链的质量。MSTI-MAX数据集的构建也为多模态讽刺研究提供了新的资源。

🎯 应用场景

GRASP框架可应用于社交媒体情感分析、舆情监控、智能客服等领域。通过识别多模态数据中的讽刺目标，可以更准确地理解用户的情感和意图，从而提高信息过滤、风险预警和个性化服务的质量。该研究还有助于提升人机交互的自然性和智能化水平。

📄 摘要（原文）

Moving beyond the traditional binary classification paradigm of Multimodal Sarcasm Detection, Multimodal Sarcasm Target Identification (MSTI) presents a more formidable challenge, requiring precise localization of fine-grained targets such as textual phrases and visual regions. Existing approaches predominantly rely on implicit cross-modal alignment, offering limited interpretability and suboptimal fine-grained localization. To address these limitations, we propose GRASP, Grounded Chain-of-Thought ReAsoning with Dual-Stage Optimization for Multimodal Sarcasm Prediction and Target Identification, a framework that integrates visual grounding with explicit Chain-of-Thought (CoT) reasoning to move beyond black-box MSTI. Specifically, we curate MSTI-MAX, a refined dataset that mitigates class imbalance and enriches multimodal sarcasm cues. We introduce Grounded CoT reasoning, which explicitly anchors sarcasm-related visual regions within the reasoning trajectory and prompts the model to articulate rationales before predicting the final classification labels and sarcasm targets. Furthermore, we employ a dual-stage outcome-supervised joint optimization strategy: Supervised Fine-Tuning with a coordinate-aware weighted loss, followed by Fine-Grained Target Policy Optimization. Extensive experiments demonstrate that GRASP outperforms existing baselines in fine-grained sarcasm target identification across modalities, and an LLM-as-a-Judge evaluation quantitatively measures the quality of internal reasoning chains. Our dataset and source code will be released on GitHub.

GRASP: Grounded CoT Reasoning with Dual-Stage Optimization for Multimodal Sarcasm Target Identification

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理