Querying Labeled Time Series Data with Scenario Programs
作者: Edward Kim, Devan Shanker, Varun Bharadwaj, Hongbeen Park, Jinkyu Kim, Hazem Torfah, Daniel J Fremont, Sanjit A Seshia
分类: cs.AI, cs.CV, cs.FL, cs.LG
发布日期: 2025-11-13
期刊: NASA Formal Methods Conference 2025
DOI: 10.1007/978-3-031-93706-4_12
💡 一句话要点
提出基于场景程序的时序数据查询方法,用于验证仿真环境中自动驾驶系统的失效场景。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 自动驾驶 场景程序 时序数据查询 仿真验证 失效场景
📋 核心要点
- 现有方法难以验证仿真环境中发现的自动驾驶失效场景在真实世界中的可复现性,存在sim-to-real的差距。
- 提出一种基于Scenic场景程序的时序数据查询方法,用于在真实世界数据集中定位和验证模拟失效场景。
- 实验结果表明,该算法在查询效率和准确性上优于现有商业视觉大语言模型,并具有良好的可扩展性。
📝 摘要(中文)
基于仿真的测试已成为确保网络物理系统(CPS)安全的关键补充手段。因此,大量的研究工作致力于识别仿真环境中的失效场景。然而,一个关键问题仍然存在:在仿真中发现的自动驾驶(AV)失效场景是否可以在真实世界的实际系统中重现?模拟和真实传感器数据之间的差异导致的sim-to-real差距意味着,在仿真中识别出的失效场景可能是合成传感器数据的人为产物,也可能是真实传感器数据中实际存在的问题。为了解决这个问题,验证模拟失效场景的有效方法是在真实世界数据集中找到这些场景的发生,并验证失效是否在数据集上持续存在。为此,我们正式定义了标记的时序传感器数据如何与抽象场景匹配,该场景使用Scenic概率编程语言表示为场景程序。我们提出了一种查询算法,该算法在给定场景程序和标记数据集的情况下,识别与指定场景匹配的数据子集。实验表明,我们的算法在查询场景时比最先进的商业视觉大语言模型更准确,速度快几个数量级,并且可以随着查询时序数据的持续时间进行扩展。
🔬 方法详解
问题定义:论文旨在解决自动驾驶系统仿真测试中,如何验证仿真环境中发现的失效场景在真实世界中是否真实存在的问题。现有方法主要依赖人工分析或通用视觉模型,效率低下且准确性不足,难以有效弥合sim-to-real的差距。
核心思路:论文的核心思路是将失效场景抽象为Scenic概率编程语言描述的场景程序,然后设计一种高效的查询算法,在真实世界的标记时序数据中搜索与该场景程序匹配的数据片段。通过验证这些数据片段上是否也发生失效,从而验证仿真结果的真实性。
技术框架:该方法包含两个主要步骤:1) 使用Scenic语言编写场景程序,描述待验证的失效场景;2) 设计查询算法,在标记的时序数据集中搜索与场景程序匹配的数据片段。查询算法的核心是高效地评估时序数据与场景程序之间的匹配程度,并返回所有匹配的数据片段。
关键创新:该方法最重要的创新在于将概率编程语言Scenic引入到自动驾驶失效场景的验证中,利用Scenic的表达能力将复杂的场景描述形式化,并设计了高效的查询算法。与传统的基于规则或模板匹配的方法相比,该方法更加灵活和通用,能够处理更复杂的场景。与直接使用视觉大模型相比,该方法更加高效和准确,避免了视觉大模型在特定任务上的泛化性问题。
关键设计:Scenic场景程序的设计需要仔细考虑场景的抽象程度和参数范围,以保证查询的准确性和效率。查询算法的设计需要考虑时序数据的特点,例如时间序列的长度、采样频率和噪声水平。具体的匹配策略和阈值设置需要根据具体的应用场景进行调整。
📊 实验亮点
实验结果表明,该算法在查询场景时比最先进的商业视觉大语言模型更准确,速度快几个数量级。此外,该算法具有良好的可扩展性,可以随着查询时序数据的持续时间进行扩展,适用于大规模数据集的分析。
🎯 应用场景
该研究成果可应用于自动驾驶系统的测试和验证,帮助开发者快速定位和修复真实世界中存在的安全隐患。此外,该方法还可以扩展到其他网络物理系统领域,例如机器人、航空航天等,用于验证仿真模型的准确性和可靠性,提高系统的安全性和稳定性。
📄 摘要(原文)
Simulation-based testing has become a crucial complement to road testing for ensuring the safety of cyber physical systems (CPS). As a result, significant research efforts have been directed toward identifying failure scenarios within simulation environments. However, a critical question remains. Are the AV failure scenarios discovered in simulation reproducible on actual systems in the real world? The sim-to-real gap caused by differences between simulated and real sensor data means that failure scenarios identified in simulation might either be artifacts of synthetic sensor data or actual issues that also occur with real sensor data. To address this, an effective approach to validating simulated failure scenarios is to locate occurrences of these scenarios within real-world datasets and verify whether the failure persists on the datasets. To this end, we introduce a formal definition of how labeled time series sensor data can match an abstract scenario, represented as a scenario program using the Scenic probabilistic programming language. We present a querying algorithm that, given a scenario program and a labeled dataset, identifies the subset of data that matches the specified scenario. Our experiment shows that our algorithm is more accurate and orders of magnitude faster in querying scenarios than the state-of-the-art commercial vision large language models, and can scale with the duration of queried time series data.