UAV4D: Dynamic Neural Rendering of Human-Centric UAV Imagery using Gaussian Splatting
作者: Jaehoon Choi, Dongki Jung, Christopher Maxey, Yonghan Lee, Sungmin Eum, Dinesh Manocha, Heesung Kwon
分类: cs.CV
发布日期: 2025-06-05
💡 一句话要点
提出UAV4D以解决无人机图像动态渲染问题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 动态神经渲染 无人机图像 高斯点初始化 人类网格重建 场景重建 视觉效果提升
📋 核心要点
- 现有动态神经渲染方法未能有效处理无人机捕获的场景,尤其是单目相机和多个移动人群的情况。
- 本文提出UAV4D框架,通过3D基础模型和人类网格重建模型,重建动态场景并解决尺度模糊问题。
- 在VisDrone、Manipal-UAV和Okutama-Action三个复杂数据集上进行评估,结果显示PSNR提升1.5 dB,视觉效果显著改善。
📝 摘要(中文)
尽管动态神经渲染技术取得了显著进展,但现有方法未能有效应对无人机捕获场景所带来的独特挑战,尤其是涉及单目相机、俯视视角及多个小型移动人群的场景。本文提出了UAV4D框架,旨在实现无人机捕获的动态真实场景的照片级渲染。我们通过结合3D基础模型和人类网格重建模型,重建场景背景和人类,解决场景尺度模糊问题,并通过识别人与场景的接触点将人类和场景置于世界坐标中。此外,我们利用SMPL模型和背景网格初始化高斯点,实现整体场景渲染。实验结果表明,我们的方法在新视角合成上相较于现有方法有显著提升,PSNR提高了1.5 dB,视觉清晰度更佳。
🔬 方法详解
问题定义:本文解决的具体问题是如何从单目视频数据中重建动态场景,尤其是涉及多个移动行人的场景。现有方法在处理这些场景时存在数据不足和动态重建精度低的问题。
核心思路:论文的核心思路是结合3D基础模型与人类网格重建模型,利用人类与场景的接触点来解决场景尺度模糊问题,从而实现高质量的动态场景重建。
技术框架:整体架构包括数据输入、动态场景重建、尺度模糊解决和高斯点初始化四个主要模块。首先,输入单目视频数据,然后通过模型重建背景和人类,最后进行高斯点初始化以实现整体渲染。
关键创新:最重要的技术创新在于通过识别人与场景的接触点来解决尺度模糊问题,这一方法在现有动态渲染技术中尚属首次,显著提高了重建精度。
关键设计:在技术细节上,采用了SMPL模型进行人类重建,并结合背景网格进行高斯点的初始化,确保了渲染的整体性和准确性。
📊 实验亮点
实验结果显示,UAV4D在新视角合成任务中相较于现有方法实现了1.5 dB的PSNR提升,且在视觉清晰度上表现优越,验证了该方法在复杂动态场景重建中的有效性。
🎯 应用场景
该研究在无人机图像处理、智能监控、城市规划等领域具有广泛的应用潜力。通过实现高质量的动态场景渲染,能够为实时监控和分析提供更为精准的数据支持,推动相关技术的进步与应用。
📄 摘要(原文)
Despite significant advancements in dynamic neural rendering, existing methods fail to address the unique challenges posed by UAV-captured scenarios, particularly those involving monocular camera setups, top-down perspective, and multiple small, moving humans, which are not adequately represented in existing datasets. In this work, we introduce UAV4D, a framework for enabling photorealistic rendering for dynamic real-world scenes captured by UAVs. Specifically, we address the challenge of reconstructing dynamic scenes with multiple moving pedestrians from monocular video data without the need for additional sensors. We use a combination of a 3D foundation model and a human mesh reconstruction model to reconstruct both the scene background and humans. We propose a novel approach to resolve the scene scale ambiguity and place both humans and the scene in world coordinates by identifying human-scene contact points. Additionally, we exploit the SMPL model and background mesh to initialize Gaussian splats, enabling holistic scene rendering. We evaluated our method on three complex UAV-captured datasets: VisDrone, Manipal-UAV, and Okutama-Action, each with distinct characteristics and 10~50 humans. Our results demonstrate the benefits of our approach over existing methods in novel view synthesis, achieving a 1.5 dB PSNR improvement and superior visual sharpness.