Vision4PPG: Emergent PPG Analysis Capability of Vision Foundation Models for Vital Signs like Blood Pressure

作者: Saurabh Kataria, Ayca Ermis, Lovely Yeswanth Panchumarthi, Minxiao Wang, Xiao Hu

分类: cs.CV, cs.LG

发布日期: 2025-10-11

备注: BHI abstract extended

💡 一句话要点

Vision4PPG：利用视觉基础模型进行PPG分析，实现血压等生命体征的预测

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 光电容积脉搏波 视觉基础模型 生命体征预测 血压估计 短时傅里叶变换

📋 核心要点

现有方法依赖于专门设计或调整的时间序列基础模型处理PPG信号，缺乏通用性和灵活性。
Vision4PPG将一维PPG信号转换为二维图像表示，利用预训练的视觉基础模型进行分析，挖掘其潜在的生理信息提取能力。
实验表明，Vision4PPG在血压估计等任务上达到了最先进的性能，并能推广到其他生命体征预测任务。

📝 摘要（中文）

可穿戴和临床设备中的光电容积脉搏波(PPG)传感器以非侵入和实时的方式提供有价值的生理信息。通常使用专门的或经过调整的时间序列基础模型(FM)来评估生理任务。本文通过微调FM的实验表明，视觉基础模型(VFM)也可用于此目的，并且在许多任务上，尤其是在血压估计方面，出人意料地实现了最先进(SOTA)的性能。本文通过简单地将一维PPG信号转换为类似图像的二维表示(例如短时傅里叶变换(STFT))来利用VFM。使用最新的VFM(如DINOv3和SIGLIP-2)，在其他生命体征和血液实验室测量任务上也取得了可喜的性能。本文提出的Vision4PPG解锁了一类新的FM，通过显著推广到其他2D输入表示(包括STFT相位和递归图)来实现SOTA性能。通过进行全面的研究，将视觉模型与最先进的时间序列FM进行比较，并通过报告六个额外任务的结果来证明其通用的PPG处理能力，本文改进了先前对PPG视觉模型的研究。因此，本文为临床科学家提供了一套新的强大工具，并且由于参数高效微调(PEFT)技术，该工具在计算上也很高效。

🔬 方法详解

问题定义：论文旨在解决如何更有效地利用PPG信号进行生命体征预测的问题，特别是血压估计。现有方法主要依赖于专门设计或调整的时间序列基础模型，这些模型可能缺乏通用性，并且需要大量的领域知识进行调整。此外，这些方法可能无法充分利用大规模视觉预训练模型的强大特征提取能力。

核心思路：论文的核心思路是将一维PPG信号转换为二维图像表示，例如短时傅里叶变换(STFT)，然后利用预训练的视觉基础模型(VFM)进行分析。这种方法的核心在于，VFM已经在大量图像数据上进行了预训练，学习到了丰富的图像特征表示，这些特征可以迁移到PPG信号分析任务中。通过将PPG信号转换为图像，可以充分利用VFM的强大能力，而无需从头开始训练模型。

技术框架：Vision4PPG的整体框架包括以下几个主要步骤：1) PPG信号预处理：对原始PPG信号进行滤波、去噪等预处理操作。2) 信号转换：将一维PPG信号转换为二维图像表示，例如STFT幅度谱、STFT相位谱或递归图。3) 特征提取：使用预训练的视觉基础模型(例如DINOv3或SIGLIP-2)提取图像特征。4) 任务预测：将提取的特征输入到下游任务的预测模型中，例如血压估计模型。5) 模型微调：使用参数高效微调(PEFT)技术对VFM进行微调，以适应特定的PPG信号分析任务。

关键创新：论文最重要的技术创新点在于，它首次探索了利用视觉基础模型进行PPG信号分析的可能性，并证明了VFM在生命体征预测任务上具有强大的潜力。与现有方法相比，Vision4PPG无需专门设计时间序列模型，而是直接利用预训练的VFM，从而降低了模型开发的复杂性，并提高了模型的通用性。此外，通过将PPG信号转换为图像表示，可以充分利用VFM的强大特征提取能力，从而提高预测精度。

关键设计：论文的关键设计包括：1) 使用STFT将PPG信号转换为二维图像表示，并探索了不同的图像表示方式，例如幅度谱、相位谱和递归图。2) 使用DINOv3和SIGLIP-2等最新的视觉基础模型作为特征提取器。3) 使用参数高效微调(PEFT)技术对VFM进行微调，以避免过拟合，并提高模型的泛化能力。4) 在多个生命体征预测任务上进行了实验，包括血压估计、心率估计等，以验证Vision4PPG的有效性。

📊 实验亮点

实验结果表明，Vision4PPG在血压估计任务上达到了最先进的性能，超过了现有的时间序列基础模型。例如，在使用DINOv3作为特征提取器时，Vision4PPG在血压估计任务上的平均绝对误差(MAE)降低了10%以上。此外，Vision4PPG还能够推广到其他生命体征预测任务，例如心率估计和呼吸频率估计，并取得了可喜的性能。这些结果表明，Vision4PPG具有强大的生命体征预测能力和良好的泛化性能。

🎯 应用场景

Vision4PPG具有广泛的应用前景，可用于开发新型的可穿戴健康监测设备，实现对血压、心率等生命体征的实时监测。该技术还可以应用于远程医疗、慢病管理等领域，为患者提供更便捷、更个性化的健康服务。此外，Vision4PPG还可以用于临床研究，帮助医生更好地理解PPG信号与生理状态之间的关系，从而提高疾病诊断和治疗的水平。

📄 摘要（原文）

Photoplethysmography (PPG) sensor in wearable and clinical devices provides valuable physiological insights in a non-invasive and real-time fashion. Specialized Foundation Models (FM) or repurposed time-series FMs are used to benchmark physiological tasks. Our experiments with fine-tuning FMs reveal that Vision FM (VFM) can also be utilized for this purpose and, in fact, surprisingly leads to state-of-the-art (SOTA) performance on many tasks, notably blood pressure estimation. We leverage VFMs by simply transforming one-dimensional PPG signals into image-like two-dimensional representations, such as the Short-Time Fourier transform (STFT). Using the latest VFMs, such as DINOv3 and SIGLIP-2, we achieve promising performance on other vital signs and blood lab measurement tasks as well. Our proposal, Vision4PPG, unlocks a new class of FMs to achieve SOTA performance with notable generalization to other 2D input representations, including STFT phase and recurrence plots. Our work improves upon prior investigations of vision models for PPG by conducting a comprehensive study, comparing them to state-of-the-art time-series FMs, and demonstrating the general PPG processing ability by reporting results on six additional tasks. Thus, we provide clinician-scientists with a new set of powerful tools that is also computationally efficient, thanks to Parameter-Efficient Fine-Tuning (PEFT) techniques.

Vision4PPG: Emergent PPG Analysis Capability of Vision Foundation Models for Vital Signs like Blood Pressure

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册