Focal plane wavefront control with model-based reinforcement learning

作者: Jalo Nousiainen, Iremsu Taskin, Markus Kasper, Gilles Orban De Xivry, Olivier Absil

分类: astro-ph.IM, cs.LG, cs.RO

发布日期: 2026-04-01

备注: 13 pages, 11 figures accepted by A&A

💡 一句话要点

提出基于模型强化学习的焦平面波前控制方法PO4NCPA，用于校正高对比度成像中的动态和静态像差。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 焦平面波前控制 强化学习 自适应光学 高对比度成像 系外行星 非公共光路像差 模型预测控制

📋 核心要点

传统NCPA校正依赖机械探测，影响观测性能，且难以应对动态像差。
提出PO4NCPA算法，利用模型强化学习，通过焦平面图像和相位多样性，自动校正动态和静态NCPA。
数值模拟表明，PO4NCPA能有效补偿静态和动态NCPA，性能媲美传统方法，且适用多种场景。

📝 摘要（中文）

直接成像潜在宜居系外行星是极大望远镜上高对比度成像仪器的主要科学目标。大多数此类行星围绕其主恒星运行，其观测受到快速移动的大气斑点和准静态非公共光路像差（NCPA）的限制。传统的NCPA校正方法通常使用机械镜面探测，这会降低运行期间的性能。本文提出了一种基于机器学习的NCPA控制方法，该方法通过利用序列相位多样性自动检测和校正动态和静态NCPA误差。我们将先前在自适应光学强化学习方面的工作扩展到焦平面控制。一种新的基于模型的RL算法，即用于NCPA的策略优化（PO4NCPA），将焦平面图像解释为输入数据，并通过序列相位多样性确定相位校正，从而在没有先验系统知识的情况下优化非日冕和后日冕PSF。此外，我们通过数值模拟地面望远镜上的静态NCPA误差以及受水汽引起的大气抖动（动态NCPA）影响的红外成像仪，证明了该方法的有效性。仿真结果表明，PO4NCPA能够稳健地补偿静态和动态NCPA。在静态情况下，它可以通过日冕仪实现接近最佳的焦平面光抑制，并且在没有日冕仪的情况下实现接近最佳的Strehl比。对于动态NCPA，它在这些指标中与模态最小二乘重建结合单步延迟积分器的性能相匹配。该方法对于ELT光瞳、矢量涡旋日冕仪以及光子和背景噪声仍然有效。PO4NCPA是无模型的，可以直接应用于标准成像以及任何日冕仪。其亚毫秒级的推理时间和性能也使其适用于大气湍流的实时低阶校正，超出HCI的范围。

🔬 方法详解

问题定义：论文旨在解决高对比度成像中，由大气湍流和光学系统误差引起的动态和静态非公共光路像差（NCPA）问题。现有方法，如机械镜面探测，会降低观测性能，且难以实时校正快速变化的动态像差。

核心思路：论文的核心思路是利用模型强化学习，直接从焦平面图像学习如何校正NCPA。通过将焦平面图像作为输入，强化学习算法能够学习到像差与校正动作之间的映射关系，从而实现自适应的波前控制。这种方法无需预先了解系统模型，能够处理复杂的动态像差。

技术框架：PO4NCPA算法的技术框架主要包含以下几个阶段：1) 环境建模：模拟望远镜和成像系统的光学特性，包括像差、日冕仪等。2) 状态表示：将焦平面图像作为强化学习的状态输入。3) 动作空间：定义可执行的波前校正动作，例如调整变形镜的形状。4) 奖励函数：设计奖励函数，鼓励算法降低焦平面上的光强，提高对比度。5) 策略优化：使用基于模型的强化学习算法（Policy Optimization）来学习最优的波前校正策略。

关键创新：PO4NCPA的关键创新在于：1) 无模型性：无需预先了解系统模型，可以直接从数据中学习。2) 动态像差校正：能够有效处理快速变化的动态像差。3) 焦平面直接控制：直接优化焦平面图像，无需中间步骤。4) 基于模型的强化学习：利用环境模型进行策略优化，提高学习效率和稳定性。

关键设计：PO4NCPA算法的关键设计包括：1) 序列相位多样性：通过引入序列相位多样性，增加状态空间的丰富性，提高算法的鲁棒性。2) 奖励函数设计：奖励函数综合考虑了焦平面光强、Strehl比等指标，以实现最佳的成像质量。3) 模型预测误差的利用：算法利用模型预测误差来指导策略优化，提高学习效率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PO4NCPA算法在静态NCPA校正中，能够实现接近最优的焦平面光抑制和Strehl比。在动态NCPA校正中，其性能与传统的模态最小二乘重建方法相当。此外，该算法对ELT光瞳、矢量涡旋日冕仪以及光子和背景噪声具有鲁棒性，推理时间亚毫秒级，适用于实时控制。

🎯 应用场景

该研究成果可应用于下一代极大望远镜的高对比度成像，用于直接探测和表征系外行星。该方法无需精确的系统模型，降低了对仪器标定的要求，并能实时校正大气湍流引起的像差，提高成像质量。此外，该方法还可应用于其他需要精确波前控制的领域，如自适应光学、激光通信等。

📄 摘要（原文）

The direct imaging of potentially habitable exoplanets is one prime science case for high-contrast imaging instruments on extremely large telescopes. Most such exoplanets orbit close to their host stars, where their observation is limited by fast-moving atmospheric speckles and quasi-static non-common-path aberrations (NCPA). Conventional NCPA correction methods often use mechanical mirror probes, which compromise performance during operation. This work presents machine-learning-based NCPA control methods that automatically detect and correct both dynamic and static NCPA errors by leveraging sequential phase diversity. We extend previous work in reinforcement learning for AO to focal plane control. A new model-based RL algorithm, Policy Optimization for NCPAs (PO4NCPA), interprets the focal-plane image as input data and, through sequential phase diversity, determines phase corrections that optimize both non-coronagraphic and post-coronagraphic PSFs without prior system knowledge. Further, we demonstrate the effectiveness of this approach by numerically simulating static NCPA errors on a ground-based telescope and an infrared imager affected by water-vapor-induced seeing (dynamic NCPAs). Simulations show that PO4NCPA robustly compensates static and dynamic NCPAs. In static cases, it achieves near-optimal focal-plane light suppression with a coronagraph and near-optimal Strehl without one. With dynamics NCPA, it matches the performance of the modal least-squares reconstruction combined with a 1-step delay integrator in these metrics. The method remains effective for the ELT pupil, vector vortex coronagraph, and under photon and background noise. PO4NCPA is model-free and can be directly applied to standard imaging as well as to any coronagraph. Its sub-millisecond inference times and performance also make it suitable for real-time low-order correction of atmospheric turbulence beyond HCI.

Focal plane wavefront control with model-based reinforcement learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理