Random Direct Preference Optimization for Radiography Report Generation

📄 arXiv: 2509.21351v1 📥 PDF

作者: Valentin Samokhin, Boris Shirokikh, Mikhail Goncharov, Dmitriy Umerenkov, Maksim Bobrin, Ivan Oseledets, Dmitry Dylov, Mikhail Belyaev

分类: cs.CV, cs.AI, cs.CL

发布日期: 2025-09-19


💡 一句话要点

提出基于随机直接偏好优化的胸片报告生成框架,提升临床性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 放射影像报告生成 直接偏好优化 随机对比采样 视觉语言模型 医学图像分析

📋 核心要点

  1. 现有放射影像报告生成方法在临床应用中质量不足,无法有效缓解放射科医生工作压力。
  2. 论文提出基于随机对比采样的直接偏好优化方法,无需人工标注或奖励模型,提升报告质量。
  3. 实验表明,该方法在多个模型上提升了临床性能指标高达5%,且无需额外训练数据。

📝 摘要(中文)

放射影像报告生成(RRG)作为减轻放射科医生日益增长的工作负担的一种有前景的工具,在医学图像分析领域受到了广泛关注。尽管取得了许多进展,但现有方法尚未达到在实际临床环境中部署所需的质量。同时,大型视觉语言模型(VLMs)通过采用最初为大型语言模型(LLMs)设计的训练策略(如对齐技术),在通用领域取得了显著进展。本文介绍了一种与模型无关的框架,利用直接偏好优化(DPO)来提高RRG的准确性。我们的方法利用随机对比采样来构建训练对,无需奖励模型或人工偏好注释。在三个最先进的模型上补充我们的随机DPO的实验表明,我们的方法将临床性能指标提高了高达5%,而无需任何额外的训练数据。

🔬 方法详解

问题定义:放射影像报告生成旨在自动生成对医学图像的描述性报告,以减轻放射科医生的工作负担。然而,现有方法生成的报告质量不高,难以满足临床需求,主要痛点在于模型难以准确捕捉图像中的关键信息并生成流畅、准确的报告。

核心思路:论文的核心思路是利用直接偏好优化(DPO)方法,通过对比不同报告的优劣,直接优化模型的生成策略,使其更倾向于生成高质量的报告。关键在于使用随机对比采样,避免了人工标注偏好数据或训练奖励模型,降低了成本和复杂度。

技术框架:该框架是一种与模型无关的后处理方法,可以应用于任何现有的放射影像报告生成模型。其主要流程包括:1)使用现有模型生成多个候选报告;2)使用随机对比采样方法,从候选报告中构建训练对,其中一个报告被认为是“更好”的,另一个是“更差”的;3)使用DPO损失函数,基于这些训练对微调现有模型,使其更倾向于生成“更好”的报告。

关键创新:最重要的技术创新点在于使用随机对比采样来构建训练数据,无需人工标注或训练奖励模型。这种方法简化了DPO的训练流程,使其更容易应用于放射影像报告生成任务。与现有方法的本质区别在于,现有方法通常依赖于人工标注的偏好数据或复杂的奖励模型,而该方法则通过随机采样自动生成训练数据。

关键设计:关键设计包括:1)随机对比采样策略,例如随机选择一个报告作为“更好”的报告,然后从剩余报告中随机选择一个作为“更差”的报告;2)DPO损失函数,用于优化模型,使其更倾向于生成“更好”的报告。具体的损失函数形式未知,但通常基于对数似然比,鼓励模型增加“更好”报告的概率,减少“更差”报告的概率。论文中没有明确提及具体的网络结构或参数设置,因为该方法是模型无关的。

📊 实验亮点

实验结果表明,将该方法应用于三个最先进的放射影像报告生成模型后,临床性能指标提高了高达5%,且无需任何额外的训练数据。这一显著的提升表明了该方法在提高报告质量方面的有效性,并验证了随机对比采样策略的可行性。具体的性能指标类型未知。

🎯 应用场景

该研究成果可应用于临床放射影像报告生成系统,辅助放射科医生进行诊断,提高工作效率,并减少人为错误。通过自动生成初步报告,医生可以更快地审核和修改,从而缩短诊断时间,改善患者护理。未来,该方法有望扩展到其他医学图像分析任务,例如病灶检测和分割。

📄 摘要(原文)

Radiography Report Generation (RRG) has gained significant attention in medical image analysis as a promising tool for alleviating the growing workload of radiologists. However, despite numerous advancements, existing methods have yet to achieve the quality required for deployment in real-world clinical settings. Meanwhile, large Visual Language Models (VLMs) have demonstrated remarkable progress in the general domain by adopting training strategies originally designed for Large Language Models (LLMs), such as alignment techniques. In this paper, we introduce a model-agnostic framework to enhance RRG accuracy using Direct Preference Optimization (DPO). Our approach leverages random contrastive sampling to construct training pairs, eliminating the need for reward models or human preference annotations. Experiments on supplementing three state-of-the-art models with our Random DPO show that our method improves clinical performance metrics by up to 5%, without requiring any additional training data.