Opto-Electronic Convolutional Neural Network Design Via Direct Kernel Optimization

📄 arXiv: 2511.02065v1 📥 PDF

作者: Ali Almuallem, Harshana Weligampola, Abhiram Gnanasambandam, Wei Xu, Dilshan Godaliyadda, Hamid R. Sheikh, Stanley H. Chan, Qi Guo

分类: eess.IV, cs.CV

发布日期: 2025-11-03


💡 一句话要点

提出光电卷积神经网络两阶段设计,通过直接核优化提升单目深度估计精度。

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 光电神经网络 卷积神经网络 超表面 直接核优化 单目深度估计

📋 核心要点

  1. 传统光电神经网络端到端优化面临计算成本高、参数空间大的挑战。
  2. 提出两阶段优化策略,先训练电子CNN,再通过直接核优化设计光学前端。
  3. 实验表明,该方法在单目深度估计中,精度是端到端训练的两倍。

📝 摘要(中文)

本文提出了一种用于设计光电卷积神经网络(CNNs)的两阶段策略,旨在实现快速且节能的视觉处理。该方法将光学前端与电子后端集成,首先训练一个标准的电子CNN,然后通过直接核优化实现光学前端,该前端被实现为超表面阵列,并作为第一卷积层。与端到端优化相比,这种方法显著降低了计算和内存需求,可达数百倍,并提高了训练稳定性。在单目深度估计任务中,在相同的训练时间和资源约束下,所提出的两阶段设计实现了两倍于端到端训练的精度。

🔬 方法详解

问题定义:现有光电卷积神经网络的设计通常采用端到端优化方法,但这种方法需要对光学和电子模块进行联合仿真和优化,计算成本非常高昂,且参数空间巨大,导致训练不稳定,难以获得理想的性能。因此,如何降低光电神经网络的设计复杂度,提高训练效率和稳定性是一个亟待解决的问题。

核心思路:本文的核心思路是将光电神经网络的设计分解为两个阶段。首先,训练一个标准的电子卷积神经网络,这一步可以使用现有的成熟技术。然后,将光学前端作为第一卷积层,通过直接核优化方法来设计光学前端,使其能够实现期望的卷积核。这种分解策略显著降低了计算复杂度和参数空间,简化了优化过程。

技术框架:整个设计框架包含两个主要阶段:1) 电子CNN训练阶段:使用标准的电子CNN架构,例如ResNet等,在目标数据集上进行训练,得到一个性能良好的电子CNN模型。2) 光学前端设计阶段:将训练好的电子CNN的第一卷积层作为目标卷积核,通过直接核优化方法,设计一个能够实现该卷积核的光学前端,该前端通常由超表面阵列实现。

关键创新:本文的关键创新在于提出了两阶段设计策略,将光电神经网络的复杂优化问题分解为两个相对独立的子问题。通过直接核优化方法,可以有效地设计光学前端,使其能够实现期望的卷积核,从而避免了端到端优化的复杂性和不稳定性。

关键设计:在光学前端设计阶段,采用了直接核优化方法,该方法旨在找到一组超表面参数,使得光学前端实现的卷积核与目标卷积核之间的差异最小化。通常使用均方误差作为损失函数,并通过梯度下降等优化算法来求解超表面参数。此外,还需要考虑超表面的物理约束,例如折射率、厚度等,以保证设计的可行性。

📊 实验亮点

实验结果表明,在单目深度估计任务中,采用所提出的两阶段设计方法,在相同的训练时间和资源约束下,可以达到两倍于端到端训练的精度。这表明该方法能够有效地降低光电神经网络的设计复杂度,提高训练效率和性能。此外,该方法还显著降低了计算和内存需求,可达数百倍,并提高了训练稳定性。

🎯 应用场景

该研究成果可应用于需要快速、节能视觉处理的场景,例如自动驾驶、机器人视觉、智能监控等。通过将计算密集型的卷积操作卸载到光学前端,可以显著降低电子后端的功耗和计算负担,从而实现更高效的视觉系统。未来,该技术有望推动边缘计算和嵌入式视觉的发展。

📄 摘要(原文)

Opto-electronic neural networks integrate optical front-ends with electronic back-ends to enable fast and energy-efficient vision. However, conventional end-to-end optimization of both the optical and electronic modules is limited by costly simulations and large parameter spaces. We introduce a two-stage strategy for designing opto-electronic convolutional neural networks (CNNs): first, train a standard electronic CNN, then realize the optical front-end implemented as a metasurface array through direct kernel optimization of its first convolutional layer. This approach reduces computational and memory demands by hundreds of times and improves training stability compared to end-to-end optimization. On monocular depth estimation, the proposed two-stage design achieves twice the accuracy of end-to-end training under the same training time and resource constraints.