Detecting Referring Expressions in Visually Grounded Dialogue with Autoregressive Language Models
作者: Bram Willemsen, Gabriel Skantze
分类: cs.CL, cs.AI
发布日期: 2025-06-26
备注: Accepted for publication at XLLM @ ACL 2025
💡 一句话要点
提出文本自回归模型以解决视觉对话中的指称表达检测问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 指称表达 视觉对话 自回归模型 语言模型 多模态问题 自然语言处理
📋 核心要点
- 现有方法在视觉对话中缺乏有效的指称表达检测,尤其是仅依赖语言上下文时的局限性。
- 论文提出通过调整预训练的大型语言模型,利用下一个标记预测来识别对话中的指称表达范围。
- 实验结果显示,文本自回归方法在小数据集上也能有效工作,强调了语言上下文的重要性。
📝 摘要(中文)
本文探讨了使用文本自回归语言模型从视觉基础对话中提取指称表达的有效性。研究旨在考察仅通过语言上下文能在多大程度上帮助识别在对话视觉背景中可感知的指称。为此,作者对预训练的大型语言模型进行了调整,以通过下一个标记预测来标记对话中的指称范围边界。研究结果表明,即使使用中等规模的语言模型和相对较小的数据集,文本自回归方法在此任务中依然有效,强调了语言上下文的重要性。然而,作者也指出该任务本质上是多模态的,讨论了单模态方法的局限性。
🔬 方法详解
问题定义:本文旨在解决在视觉对话中指称表达的检测问题,现有方法在仅依赖语言上下文时存在识别准确性不足的挑战。
核心思路:通过调整预训练的大型语言模型,利用其自回归特性进行指称表达的范围标记,旨在探讨语言上下文的有效性。
技术框架:整体流程包括数据预处理、模型调整、下一个标记预测和结果评估。主要模块为语言模型的输入处理和输出的指称范围标记。
关键创新:该研究的创新点在于使用文本自回归模型进行指称表达检测,强调了语言上下文的作用,区别于传统的多模态方法。
关键设计:在参数设置上,采用了相对小的数据集进行微调,损失函数设计为适应下一个标记预测,网络结构基于现有的大型语言模型进行优化。
📊 实验亮点
实验结果表明,使用中等规模的语言模型和小数据集,文本自回归方法在指称表达检测中表现出色,准确率显著高于传统方法,验证了语言上下文的重要性。
🎯 应用场景
该研究在视觉对话系统、智能助手和人机交互等领域具有广泛的应用潜力。通过提高指称表达的检测能力,可以增强系统的理解和响应能力,从而提升用户体验。未来,该方法可能会推动多模态交互技术的发展。
📄 摘要(原文)
In this paper, we explore the use of a text-only, autoregressive language modeling approach for the extraction of referring expressions from visually grounded dialogue. More specifically, the aim is to investigate the extent to which the linguistic context alone can inform the detection of mentions that have a (visually perceivable) referent in the visual context of the conversation. To this end, we adapt a pretrained large language model (LLM) to perform a relatively course-grained annotation of mention spans in unfolding conversations by demarcating mention span boundaries in text via next-token prediction. Our findings indicate that even when using a moderately sized LLM, relatively small datasets, and parameter-efficient fine-tuning, a text-only approach can be effective, highlighting the relative importance of the linguistic context for this task. Nevertheless, we argue that the task represents an inherently multimodal problem and discuss limitations fundamental to unimodal approaches.