Multimodal Quantum Vision Transformer for Enzyme Commission Classification from Biochemical Representations

📄 arXiv: 2508.14844v1 📥 PDF

作者: Murat Isik, Mandeep Kaur Saggi, Humaira Gowher, Sabre Kais

分类: cs.LG

发布日期: 2025-08-20

备注: Accepted at IEEE International Conference on Quantum Artificial Intelligence (QAI) 2025


💡 一句话要点

提出多模态量子视觉变换器以解决酶功能预测问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 量子机器学习 酶功能预测 生化表示 视觉变换器

📋 核心要点

  1. 现有方法在酶功能预测中面临挑战,尤其是对于结构信息不足的酶,准确性较低。
  2. 本文提出的多模态量子机器学习框架结合了多种生化模态,旨在提升酶委员会分类的准确性。
  3. 实验结果显示,模型达到了85.1%的Top-1准确率,显著优于传统序列基线,展现出更强的性能。

📝 摘要(中文)

准确预测酶的功能性是计算生物学中的一大挑战,尤其是对于结构注释或序列同源性有限的酶。本文提出了一种新颖的多模态量子机器学习框架,通过整合四种互补的生化模态:蛋白质序列嵌入、量子导出的电子描述符、分子图结构和二维分子图像表示,来增强酶委员会(EC)分类。该框架采用量子视觉变换器(QVT)作为主干,配备特定模态的编码器和统一的交叉注意力融合模块。通过整合图特征和空间模式,我们的方法捕捉了酶功能背后的关键立体电子相互作用。实验结果表明,我们的多模态QVT模型实现了85.1%的Top-1准确率,显著超越了仅基于序列的基线,并在性能上优于其他QML模型。

🔬 方法详解

问题定义:本文旨在解决酶功能预测中的准确性问题,尤其是针对结构注释和序列同源性有限的酶,现有方法在这些情况下表现不佳。

核心思路:提出一种多模态量子机器学习框架,通过整合蛋白质序列、量子电子描述符、分子图和二维分子图像等多种信息,增强酶的功能性分类。

技术框架:整体架构包括量子视觉变换器(QVT)作为主干,配备模态特定的编码器和统一的交叉注意力融合模块,以有效整合不同模态的信息。

关键创新:最重要的创新在于通过量子机器学习技术和多模态融合,捕捉酶功能背后的立体电子相互作用,这在现有方法中尚未实现。

关键设计:模型设计中采用了特定的损失函数和网络结构,以优化不同模态的特征提取和融合,确保模型在多模态信息下的有效学习。

📊 实验亮点

实验结果表明,提出的多模态QVT模型在酶功能分类任务中达到了85.1%的Top-1准确率,显著优于传统的仅基于序列的基线,展示了较大的性能提升幅度,证明了多模态融合的有效性。

🎯 应用场景

该研究的潜在应用领域包括生物医药、酶工程和生物催化等,能够为新酶的发现和功能预测提供强有力的工具,推动相关领域的研究进展。未来,该框架可能在其他生物分子功能预测中展现出广泛的应用价值。

📄 摘要(原文)

Accurately predicting enzyme functionality remains one of the major challenges in computational biology, particularly for enzymes with limited structural annotations or sequence homology. We present a novel multimodal Quantum Machine Learning (QML) framework that enhances Enzyme Commission (EC) classification by integrating four complementary biochemical modalities: protein sequence embeddings, quantum-derived electronic descriptors, molecular graph structures, and 2D molecular image representations. Quantum Vision Transformer (QVT) backbone equipped with modality-specific encoders and a unified cross-attention fusion module. By integrating graph features and spatial patterns, our method captures key stereoelectronic interactions behind enzyme function. Experimental results demonstrate that our multimodal QVT model achieves a top-1 accuracy of 85.1%, outperforming sequence-only baselines by a substantial margin and achieving better performance results compared to other QML models.