Decoders Laugh as Loud as Encoders

📄 arXiv: 2509.04779v1 📥 PDF

作者: Eli Borodach, Raj Dandekar, Rajat Dandekar, Sreedath Panat

分类: cs.CL, cs.AI

发布日期: 2025-09-05


💡 一句话要点

解码器在幽默理解上可与编码器媲美:GPT-4o在幽默理解上达到RoBERTa水平

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幽默理解 解码器 编码器 GPT-4o RoBERTa 自然语言处理

📋 核心要点

  1. 大型语言模型在自然语言处理任务中表现出色,但其对幽默等微妙主题的理解程度尚不明确。
  2. 该研究通过比较微调后的解码器(GPT-4o)和编码器(RoBERTa)在幽默理解任务上的表现来评估解码器的能力。
  3. 实验结果表明,经过微调的GPT-4o在幽默理解任务中表现与RoBERTa相当,证明了解码器在理解幽默方面的潜力。

📝 摘要(中文)

艾伦·图灵曾梦想创造出能像人类一样用语言交流的机器人。大型语言模型(LLMs)的最新进展震惊了科学界,单个模型即可应用于各种自然语言处理(NLP)任务,其输出结果有时甚至优于人类的沟通技巧。GPT、Claude、Grok等模型在科学界留下了深刻的印记。然而,这些模型在多大程度上理解它们所产生的内容尚不清楚,尤其是在幽默这种微妙的主题上。计算机是否理解幽默的问题仍然悬而未决(在解码器中,最新检查的是GPT-2)。本文探讨了这个问题,结果表明,经过微调的解码器(GPT-4o)的性能(平均F1-macro得分为0.85)与最佳微调编码器(RoBERTa,平均F1-score为0.86)相当。

🔬 方法详解

问题定义:论文旨在探讨大型语言模型,特别是解码器,在理解幽默方面的能力。现有方法主要集中在编码器模型上,而对解码器在幽默理解方面的研究较少。因此,该研究旨在填补这一空白,并评估解码器是否能够像编码器一样有效地理解幽默。

核心思路:论文的核心思路是通过微调解码器模型(GPT-4o)并在幽默理解任务上进行评估,将其性能与经过微调的编码器模型(RoBERTa)进行比较。如果解码器能够达到与编码器相当的性能,则表明解码器也具备理解幽默的能力。

技术框架:该研究的技术框架主要包括以下几个步骤:1)选择合适的解码器模型(GPT-4o)和编码器模型(RoBERTa);2)收集幽默理解数据集;3)使用数据集对GPT-4o和RoBERTa进行微调;4)在测试集上评估微调后的模型的性能;5)比较GPT-4o和RoBERTa的性能指标(如F1-macro得分)。

关键创新:该研究的关键创新在于它关注了解码器在幽默理解方面的能力,而之前的研究主要集中在编码器上。通过比较GPT-4o和RoBERTa的性能,该研究为解码器在幽默理解方面的潜力提供了新的见解。

关键设计:该研究的关键设计包括:1)使用GPT-4o作为解码器模型,因为它是一种先进的大型语言模型;2)使用RoBERTa作为编码器模型,因为它在各种NLP任务中表现出色;3)使用F1-macro得分作为评估指标,因为它能够综合考虑精确率和召回率;4)对GPT-4o和RoBERTa进行微调,以使其适应幽默理解任务。

📊 实验亮点

实验结果表明,经过微调的GPT-4o在幽默理解任务中取得了与RoBERTa相当的性能,平均F1-macro得分为0.85,而RoBERTa的平均F1-score为0.86。这一结果表明,解码器在理解幽默方面具有与编码器相当的潜力。

🎯 应用场景

该研究成果可应用于开发更具人情味的聊天机器人和虚拟助手,使其能够理解和回应用户的幽默。此外,该研究还可以促进对大型语言模型理解能力的深入研究,并为开发更智能的自然语言处理系统提供指导。

📄 摘要(原文)

From the dawn of the computer, Allen Turing dreamed of a robot that could communicate using language as a human being. The recent advances in the field of Large Language Models (LLMs) shocked the scientific community when a single model can apply for various natural language processing (NLP) tasks, while the output results are sometimes even better than most human communication skills. Models such as GPT, Claude, Grok, etc. have left their mark on the scientific community. However, it is unclear how much these models understand what they produce, especially in a nuanced theme such as humor. The question of whether computers understand humor is still open (among the decoders, the latest to be checked was GPT-2). We addressed this issue in this paper; we have showed that a fine-tuned decoder (GPT-4o) performed (Mean F1-macro score of 0.85) as well as the best fine-tuned encoder (RoBERTa with a Mean of F1-score 0.86)