Escaping the Hydrolysis Trap: An Agentic Workflow for Inverse Design of Durable Photocatalytic Covalent Organic Frameworks
作者: Iman Peivaste, Nicolas D. Boscher, Ahmed Makradi, Salim Belouettar
分类: physics.chem-ph, cond-mat.mtrl-sci, cs.AI, physics.comp-ph
发布日期: 2026-03-05
💡 一句话要点
提出Ara智能体工作流,加速耐用光催化共价有机框架的逆向设计。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 共价有机框架 光催化 逆向设计 大型语言模型 材料发现
📋 核心要点
- 传统COFs光催化剂存在活性与稳定性trade-off,亚胺键易水解限制应用。
- 提出Ara智能体,利用LLM化学知识指导COFs设计,兼顾带隙、带边和稳定性。
- Ara命中率达52.7%,是随机搜索的11.5倍,优于贝叶斯优化,加速材料发现。
📝 摘要(中文)
共价有机框架(COFs)是极具潜力的太阳能制氢光催化剂,但最有利的电子连接方式——亚胺,在水中会迅速水解,造成稳定性和活性之间的权衡,限制了实际应用。为了寻找同时满足带隙、带边和水解稳定性标准的光催化COFs,需要在节点、连接体、连接方式和官能团的组合设计空间中进行探索,这是一个巨大的挑战。本文介绍了一种大型语言模型(LLM)智能体Ara,它利用预训练的化学知识、供体-受体理论、共轭效应和连接稳定性等级,来指导光催化COFs的搜索。在包含各种节点、连接体、连接方式和R基团的候选空间中,通过GFN1-xTB片段流程进行筛选,Ara的命中率达到52.7%(是随机搜索的11.5倍,p = 0.006),首次命中出现在第12次迭代,而随机搜索则为第25次。Ara的性能显著优于贝叶斯优化(BO)(p = 0.006)。对智能体推理过程的检查揭示了可解释的化学逻辑:早期收敛于乙烯基和β-酮烯胺连接以保证稳定性,节点选择受吸电子特性的影响,以及系统地优化R基团以将带隙中心定位于2.0 eV。对完整搜索空间的详尽评估揭示了智能体和BO之间互补的利用-探索权衡,表明混合策略可以结合两者的优势。这些结果表明,LLM化学先验知识可以显著加速多标准材料的发现。
🔬 方法详解
问题定义:论文旨在解决光催化共价有机框架(COFs)设计中活性和稳定性之间的trade-off问题。传统的COFs,尤其是使用亚胺键连接的COFs,虽然在电子性能上表现良好,但容易在水环境中发生水解,导致催化性能下降。现有的材料设计方法难以在庞大的组合空间中有效地找到同时满足活性和稳定性要求的COFs。
核心思路:论文的核心思路是利用大型语言模型(LLM)的化学知识和推理能力,构建一个智能体(Ara),该智能体能够根据预定义的化学规则、供体-受体理论、共轭效应和连接键稳定性等级,指导COFs的设计过程。通过这种方式,Ara能够更智能地探索设计空间,优先选择具有良好稳定性和光催化活性的COFs结构。
技术框架:Ara智能体工作流主要包含以下几个阶段: 1. 候选COFs生成:基于预定义的节点、连接体、连接键和R基团的组合,生成大量的COFs候选结构。 2. LLM指导的搜索:Ara智能体利用LLM的化学知识,根据预定义的规则和目标(带隙、带边、稳定性),对候选结构进行评估和排序,选择有潜力的结构进行进一步的筛选。 3. GFN1-xTB筛选:使用GFN1-xTB片段流程对选定的候选结构进行快速的计算筛选,评估其电子性能和稳定性。 4. 结果评估与迭代:对筛选结果进行评估,并根据评估结果调整LLM的搜索策略,进行迭代优化。
关键创新:该论文的关键创新在于将大型语言模型(LLM)应用于COFs的逆向设计。与传统的随机搜索或贝叶斯优化方法相比,Ara智能体能够利用LLM中蕴含的丰富的化学知识,更有效地探索设计空间,从而加速新材料的发现。此外,Ara智能体的推理过程具有可解释性,可以帮助研究人员理解COFs结构与性能之间的关系。
关键设计:Ara智能体的关键设计包括: 1. LLM的化学知识库:利用预训练的化学知识,包括供体-受体理论、共轭效应和连接键稳定性等级等。 2. 目标函数:定义了带隙、带边和水解稳定性等多个目标,并设计了相应的评估函数。 3. 搜索策略:采用了一种基于LLM的智能搜索策略,能够根据目标函数和化学知识,自适应地调整搜索方向。
🖼️ 关键图片
📊 实验亮点
Ara智能体在COFs设计中表现出显著优势,命中率达到52.7%,是随机搜索的11.5倍(p = 0.006),且首次命中迭代次数更少(12 vs 25)。Ara的性能也显著优于贝叶斯优化(p = 0.006)。这些结果表明,LLM化学先验知识可以显著加速多标准材料的发现。
🎯 应用场景
该研究成果可应用于太阳能制氢、光催化降解污染物等领域。通过智能设计具有高活性和高稳定性的COFs材料,有望提高太阳能利用效率,降低环境污染治理成本。未来,该方法可推广至其他功能材料的设计,加速新材料的发现和应用。
📄 摘要(原文)
Covalent organic frameworks (COFs) are promising photocatalysts for solar hydrogen production, yet the most electronically favorable linkages, imines, hydrolyze rapidly in water, creating a stability--activity trade-off that limits practical deployment. Navigating the combinatorial design space of nodes, linkers, linkages, and functional groups to identify candidates that are simultaneously active and durable remains a formidable challenge. Here we introduce Ara, a large-language-model (LLM) agent that leverages pretrained chemical knowledge, donor--acceptor theory, conjugation effects, and linkage stability hierarchies, to guide the search for photocatalytic COFs satisfying joint band-gap, band-edge, and hydrolytic-stability criteria. Evaluated against random search and Bayesian optimization (BO) over a space consisting of candidates with various nodes, linkers, linkages, and r-groups, screened with a GFN1-xTB fragment pipeline, Ara achieves a 52.7\% hit rate (11.5$\times$ random, p = 0.006), finds its first hit at iteration 12 versus 25 for random search, and significantly outperforms BO (p = 0.006). Inspection of the agent's reasoning traces reveals interpretable chemical logic: early convergence on vinylene and beta-ketoenamine linkages for stability, node selection informed by electron-withdrawing character, and systematic R-group optimization to center the band gap at 2.0 eV. Exhaustive evaluation of the full search space uncovers a complementary exploitation--exploration trade-off between the agent and BO, suggesting that hybrid strategies may combine the strengths of both approaches. These results demonstrate that LLM chemical priors can substantially accelerate multi-criteria materials discovery.