D3LM: A Discrete DNA Diffusion Language Model for Bidirectional DNA Understanding and Generation

📄 arXiv: 2603.01780v1 📥 PDF

作者: Zhao Yang, Hengchang Liu, Chuan Cao, Bing Su

分类: cs.LG, q-bio.GN

发布日期: 2026-03-02

备注: Accepted as a workshop paper at MLGenX 2026

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

D3LM:用于双向DNA理解与生成的离散DNA扩散语言模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: DNA语言模型 扩散模型 双向表示学习 DNA生成 调控元件 基因组学 Transformer 离散扩散

📋 核心要点

  1. 现有DNA基础模型要么擅长理解但缺乏生成能力,要么采用次优的单向建模进行生成,无法充分捕捉DNA双向调控关系。
  2. D3LM通过将训练目标重构为离散DNA空间中的掩码扩散,在统一的模型中实现了双向DNA理解和生成能力。
  3. 实验表明,D3LM在理解任务上优于同等规模的NT v2,并在调控元件生成任务上显著超越了现有自回归模型。

📝 摘要(中文)

早期的DNA基础模型采用BERT风格的训练方式,在DNA理解任务上表现良好,但缺乏生成能力。最近的自回归模型实现了DNA生成,但采用从左到右的因果建模,这对于DNA来说并非最优,因为DNA中的调控关系本质上是双向的。我们提出了D3LM(离散DNA扩散语言模型),它通过掩码扩散统一了双向表示学习和DNA生成。D3LM直接采用了Nucleotide Transformer (NT) v2架构,但将训练目标重新定义为离散DNA空间中的掩码扩散,从而在单个模型中实现双向理解和生成能力。与相同大小的NT v2相比,D3LM在理解任务上取得了更好的性能。值得注意的是,在调控元件生成方面,D3LM实现了10.92的SFID,接近真实DNA序列(7.85),并大大优于先前自回归模型的最佳结果29.16。我们的工作表明,扩散语言模型是统一DNA基础模型的一个有希望的范例。我们进一步提出了对DNA领域中掩码扩散模型的首次系统研究,调查了诸如tokenization方案和采样策略等实际设计选择,从而为未来的研究提供了经验见解和坚实的基础。D3LM已在https://huggingface.co/collections/Hengchang-Liu/d3lm上发布。

🔬 方法详解

问题定义:论文旨在解决现有DNA基础模型在理解和生成能力上的割裂问题,以及自回归模型在捕捉DNA双向调控关系方面的不足。现有方法要么侧重于理解而忽略生成,要么采用单向建模,无法充分利用DNA序列的双向信息。

核心思路:论文的核心思路是将DNA序列的理解和生成统一到一个基于扩散模型的框架中。通过将DNA序列视为离散数据,并采用掩码扩散的方式进行训练,模型可以同时学习DNA序列的双向表示和生成能力。

技术框架:D3LM模型直接采用Nucleotide Transformer (NT) v2的架构,但改变了训练方式。训练过程包括前向扩散过程和反向去噪过程。在前向扩散过程中,随机掩盖DNA序列中的碱基。在反向去噪过程中,模型根据上下文预测被掩盖的碱基。通过这种方式,模型学习到DNA序列的双向依赖关系。

关键创新:D3LM的关键创新在于将扩散模型应用于离散的DNA序列数据,并将其用于统一DNA的理解和生成。与传统的自回归模型相比,D3LM能够更好地捕捉DNA序列的双向调控关系。此外,论文还对DNA领域的掩码扩散模型进行了系统研究,探索了tokenization方案和采样策略等设计选择。

关键设计:D3LM采用NT v2的Transformer架构,并使用交叉熵损失函数进行训练。在tokenization方面,论文探索了不同的碱基编码方式。在采样策略方面,论文研究了不同的采样步数和噪声 schedules 对生成质量的影响。具体的参数设置和训练细节可以在论文的实验部分找到。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

D3LM在调控元件生成任务上取得了显著的性能提升,SFID指标达到10.92,接近真实DNA序列的7.85,并大幅优于先前最佳自回归模型的29.16。此外,D3LM在DNA理解任务上也优于同等规模的NT v2模型,证明了扩散模型在DNA序列建模方面的有效性。

🎯 应用场景

D3LM具有广泛的应用前景,包括基因组编辑、药物发现、合成生物学等领域。它可以用于预测基因的功能、设计新的调控元件、生成具有特定功能的DNA序列。通过理解和生成DNA序列,D3LM可以加速生物学研究和生物技术的发展,例如设计更有效的基因疗法或开发新型生物传感器。

📄 摘要(原文)

Early DNA foundation models adopted BERT-style training, achieving good performance on DNA understanding tasks but lacking generative capabilities. Recent autoregressive models enable DNA generation, but employ left-to-right causal modeling that is suboptimal for DNA where regulatory relationships are inherently bidirectional. We present D3LM (\textbf{D}iscrete \textbf{D}NA \textbf{D}iffusion \textbf{L}anguage \textbf{M}odel), which unifies bidirectional representation learning and DNA generation through masked diffusion. D3LM directly adopts the Nucleotide Transformer (NT) v2 architecture but reformulates the training objective as masked diffusion in discrete DNA space, enabling both bidirectional understanding and generation capabilities within a single model. Compared to NT v2 of the same size, D3LM achieves improved performance on understanding tasks. Notably, on regulatory element generation, D3LM achieves an SFID of 10.92, closely approaching real DNA sequences (7.85) and substantially outperforming the previous best result of 29.16 from autoregressive models. Our work suggests diffusion language models as a promising paradigm for unified DNA foundation models. We further present the first systematic study of masked diffusion models in the DNA domain, investigating practical design choices such as tokenization schemes and sampling strategies, thereby providing empirical insights and a solid foundation for future research. D3LM has been released at https://huggingface.co/collections/Hengchang-Liu/d3lm.