A Generative Foundation Model for Chest Radiography

作者: Yuanfeng Ji, Dan Lin, Xiyue Wang, Lu Zhang, Wenhui Zhou, Chongjian Ge, Ruihang Chu, Xiaoli Yang, Junhan Zhao, Junsong Chen, Xiangde Luo, Sen Yang, Jin Fang, Ping Luo, Ruijiang Li

分类: cs.CV

发布日期: 2025-09-04

💡 一句话要点

ChexGen：用于胸部X光片的生成式基础模型，提升医疗AI性能与公平性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 生成式模型 胸部X光片 数据增强 迁移学习 医疗AI 公平性 潜在扩散模型 Transformer

📋 核心要点

高质量标注医疗图像的匮乏是医疗AI发展的瓶颈，限制了模型的可靠性和泛化能力。
ChexGen提出了一种统一的框架，通过文本、掩码和边界框引导，生成高质量的胸部X光片。
实验证明，ChexGen能够提升疾病分类、检测和分割任务的性能，并能有效缓解模型中的人口统计偏差。

📝 摘要（中文）

本文提出了ChexGen，一个生成式视觉-语言基础模型，用于胸部X光片的文本、掩码和边界框引导合成，旨在解决医疗领域带标注的多样化图像稀缺问题。ChexGen基于潜在扩散Transformer架构，并使用迄今为止最大的胸部X光数据集（包含96万张X光片-报告对）进行预训练。实验表明，ChexGen能够准确合成X光片，并通过专家评估和定量指标验证。ChexGen可用于训练数据增强和监督预训练，从而在使用少量训练数据的情况下，提高疾病分类、检测和分割任务的性能。此外，该模型能够创建多样化的患者队列，通过检测和减轻人口统计偏差来增强模型的公平性。该研究表明，生成式基础模型在构建更准确、数据高效和公平的医疗AI系统中具有变革性作用。

🔬 方法详解

问题定义：现有医疗AI模型受限于高质量、多样化标注数据的稀缺，尤其是在胸部X光片领域。这导致模型泛化能力差，容易出现偏差，并且需要大量的标注数据才能达到可接受的性能。现有方法难以有效利用未标注数据，且数据增强方法有限，无法充分模拟真实世界的多样性。

核心思路：ChexGen的核心思路是利用生成式模型学习胸部X光片的潜在分布，从而能够根据文本描述、掩码或边界框等条件生成逼真的X光片。通过预训练一个强大的生成模型，可以将其用于数据增强、预训练等下游任务，从而提高模型性能并减少对大量标注数据的依赖。此外，通过控制生成过程，可以创建多样化的患者队列，用于评估和减轻模型偏差。

技术框架：ChexGen基于潜在扩散Transformer架构。整体流程包括：1) 使用大规模胸部X光片-报告对数据集进行预训练，学习X光片的潜在表示和文本描述之间的对应关系；2) 通过文本、掩码或边界框等条件，引导生成过程，生成特定类型的X光片；3) 将生成的X光片用于数据增强或预训练，提升下游任务的性能；4) 利用生成模型创建多样化的患者队列，评估和减轻模型偏差。

关键创新：ChexGen的关键创新在于：1) 提出了一个统一的框架，能够通过文本、掩码和边界框等多种方式引导X光片的生成；2) 利用大规模数据集进行预训练，学习了X光片的丰富语义信息；3) 将生成模型应用于数据增强、预训练和偏差缓解等多个下游任务，展示了其通用性和有效性。与现有方法相比，ChexGen能够生成更高质量、更多样化的X光片，并且能够更有效地利用未标注数据。

关键设计：ChexGen使用了潜在扩散模型，将图像编码到潜在空间，并在潜在空间中进行扩散和逆扩散过程。Transformer架构用于建模文本描述和潜在表示之间的关系。损失函数包括扩散损失和文本-图像对齐损失。在生成过程中，通过调整扩散过程的噪声水平和引导强度，可以控制生成图像的质量和多样性。具体参数设置和网络结构细节在论文中有详细描述（未知）。

📊 实验亮点

ChexGen在胸部X光片生成方面取得了显著成果，通过专家评估和定量指标验证了其生成图像的质量。在数据增强和预训练方面，ChexGen能够显著提升疾病分类、检测和分割任务的性能，尤其是在少量训练数据的情况下。此外，ChexGen能够有效检测和减轻模型中的人口统计偏差，提高了模型的公平性。具体性能提升幅度在论文中有详细描述（未知）。

🎯 应用场景

ChexGen在医疗影像领域具有广泛的应用前景，包括：数据增强，解决标注数据不足的问题；预训练，提升下游任务的性能；模型公平性评估与提升，减少AI系统中的偏差；辅助诊断，为医生提供更全面的信息；医学教育，生成各种病例的X光片用于教学。该研究有望推动医疗AI的发展，提高诊断准确性和效率，并促进医疗资源的公平分配。

📄 摘要（原文）

The scarcity of well-annotated diverse medical images is a major hurdle for developing reliable AI models in healthcare. Substantial technical advances have been made in generative foundation models for natural images. Here we develop `ChexGen', a generative vision-language foundation model that introduces a unified framework for text-, mask-, and bounding box-guided synthesis of chest radiographs. Built upon the latent diffusion transformer architecture, ChexGen was pretrained on the largest curated chest X-ray dataset to date, consisting of 960,000 radiograph-report pairs. ChexGen achieves accurate synthesis of radiographs through expert evaluations and quantitative metrics. We demonstrate the utility of ChexGen for training data augmentation and supervised pretraining, which led to performance improvements across disease classification, detection, and segmentation tasks using a small fraction of training data. Further, our model enables the creation of diverse patient cohorts that enhance model fairness by detecting and mitigating demographic biases. Our study supports the transformative role of generative foundation models in building more accurate, data-efficient, and equitable medical AI systems.

A Generative Foundation Model for Chest Radiography

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册