SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning

作者: Zhu Li, Yongjian Chen, Huiyuan Lai, Xiyuan Gao, Shekhar Nayak, Matt Coler

分类: cs.MM, cs.CL, cs.SD

发布日期: 2026-03-05

💡 一句话要点

SarcasmMiner：提出双轨后训练框架，增强音视频反讽推理的鲁棒性

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 反讽检测 多模态学习 强化学习 后训练 奖励模型 跨模态推理 MUStARD++

📋 核心要点

现有方法在多模态反讽检测中，难以有效解决文本、声音和视觉线索之间的语用不协调问题，容易产生幻觉。
SarcasmMiner通过强化学习和双轨蒸馏策略，将反讽检测重新定义为结构化推理，提升模型的多模态推理能力。
实验表明，SarcasmMiner在MUStARD++数据集上显著提升了反讽检测的F1值，验证了推理感知奖励建模的有效性。

📝 摘要（中文）

多模态反讽检测需要通过跨模态推理来解决文本、声音和视觉线索之间的语用不协调问题。为了使基础模型能够进行鲁棒的反讽推理，我们提出了SarcasmMiner，这是一个基于强化学习的后训练框架，可以抵抗多模态推理中的幻觉。我们将反讽检测重新定义为结构化推理，并采用双轨蒸馏策略：高质量的教师轨迹初始化学生模型，而完整的轨迹集训练生成式奖励模型（GenRM）来评估推理质量。学生模型使用组相对策略优化（GRPO）进行优化，并使用解耦的奖励来衡量准确性和推理质量。在MUStARD++数据集上，SarcasmMiner将F1值从59.83%（零样本）、68.23%（监督微调）提高到70.22%。这些发现表明，推理感知的奖励建模可以提高性能和多模态基础。

🔬 方法详解

问题定义：论文旨在解决多模态反讽检测中，现有方法难以有效融合文本、声音和视觉信息，进行准确推理的问题。现有方法容易受到模态信息噪声的干扰，产生幻觉，导致反讽检测性能下降。

核心思路：论文的核心思路是将反讽检测问题转化为一个结构化推理问题，并利用强化学习来训练模型进行有效的跨模态推理。通过奖励模型来引导模型学习高质量的推理过程，从而提高反讽检测的准确性和鲁棒性。

技术框架：SarcasmMiner采用双轨后训练框架，包含以下主要模块：1) 教师模型：提供高质量的推理轨迹；2) 学生模型：通过模仿教师模型和强化学习进行优化；3) 生成式奖励模型（GenRM）：评估推理轨迹的质量，并为学生模型提供奖励信号。整个框架通过双轨蒸馏策略，利用教师轨迹初始化学生模型，并使用完整的轨迹集训练GenRM。

关键创新：论文的关键创新在于提出了基于强化学习的后训练框架SarcasmMiner，以及双轨蒸馏策略和生成式奖励模型（GenRM）。GenRM能够评估推理质量，并为学生模型提供更有效的奖励信号，从而提高模型的推理能力和鲁棒性。

关键设计：论文采用组相对策略优化（GRPO）来优化学生模型，并使用解耦的奖励来衡量准确性和推理质量。GenRM的具体实现细节未知，但其目标是学习一个能够准确评估推理轨迹质量的函数。具体的参数设置和网络结构等细节可能在补充材料中。

🖼️ 关键图片

📊 实验亮点

SarcasmMiner在MUStARD++数据集上取得了显著的性能提升。相较于零样本学习，F1值提高了10.39%；相较于监督微调，F1值提高了1.99%，达到了70.22%。实验结果表明，推理感知的奖励建模能够有效提高反讽检测的性能和多模态基础。

🎯 应用场景

该研究成果可应用于情感分析、人机交互、舆情监控等领域。通过提高机器对反讽等复杂语言现象的理解能力，可以提升用户体验，并为决策提供更准确的信息支持。未来，该技术有望应用于更广泛的自然语言处理任务中。

📄 摘要（原文）

Multimodal sarcasm detection requires resolving pragmatic incongruity across textual, acoustic, and visual cues through cross-modal reasoning. To enable robust sarcasm reasoning with foundation models, we propose SarcasmMiner, a reinforcement learning based post-training framework that resists hallucination in multimodal reasoning. We reformulate sarcasm detection as structured reasoning and adopt a dual-track distillation strategy: high-quality teacher trajectories initialize the student model, while the full set of trajectories trains a generative reward model (GenRM) to evaluate reasoning quality. The student is optimized with group relative policy optimization (GRPO) using decoupled rewards for accuracy and reasoning quality. On MUStARD++, SarcasmMiner increases F1 from 59.83% (zero-shot), 68.23% (supervised finetuning) to 70.22%. These findings suggest that reasoning-aware reward modeling enhances both performance and multimodal grounding.

SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理