PilotBench: A Benchmark for General Aviation Agents with Safety Constraints

📄 arXiv: 2604.08987v1 📥 PDF

作者: Yalun Wu, Haotian Liu, Zhoujun Li, Boyang Wang

分类: cs.AI

发布日期: 2026-04-10

备注: Accepted at the 2026 IEEE International Joint Conference on Neural Networks (IJCNN 2026). 6 pages, 7 figures


💡 一句话要点

PilotBench:面向通用航空代理,带安全约束的基准测试

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 通用航空 具身智能 大型语言模型 安全约束 基准测试

📋 核心要点

  1. 现有方法难以兼顾物理世界的复杂推理和安全约束,尤其是在飞行控制等安全攸关领域。
  2. PilotBench通过构建包含真实飞行数据的基准测试,并提出Pilot-Score综合评估模型性能。
  3. 实验表明,传统预测器精度高但缺乏语义理解,LLM可控性好但精度较低,存在动态复杂性差距。

📝 摘要(中文)

随着大型语言模型(LLMs)向在物理环境中运行的具身AI代理发展,一个根本问题出现了:在文本语料库上训练的模型能否可靠地推理复杂的物理规律,同时遵守安全约束?我们通过PilotBench来解决这个问题,PilotBench是一个评估LLM在安全关键的飞行轨迹和姿态预测方面的基准。PilotBench构建于708个真实世界的通用航空轨迹之上,涵盖九个操作上不同的飞行阶段,并同步了34通道的遥测数据。通过对LLM和传统预测器的比较分析,PilotBench系统地探究了语义理解和物理规律预测的交叉点。我们引入了Pilot-Score,这是一个综合指标,以60%的回归精度和40%的指令遵循和安全合规性进行平衡。对41个模型的比较评估揭示了一种精度-可控性二分法:传统预测器实现了7.01的卓越MAE,但缺乏语义推理能力,而LLM以11-14 MAE精度的代价获得了86-89%的指令遵循可控性。分阶段分析进一步揭示了动态复杂性差距——LLM的性能在爬升和进近等高负荷阶段急剧下降,表明其隐式物理模型较为脆弱。这些经验性发现推动了混合架构的发展,将LLM的符号推理与专用预测器的数值精度相结合。PilotBench为推进安全约束领域中的具身AI提供了坚实的基础。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLMs)在安全关键的飞行轨迹和姿态预测任务中的表现。现有方法,如传统的预测模型,虽然在数值预测方面表现良好,但缺乏对语义信息的理解和推理能力,难以满足复杂场景下的安全约束。而LLMs虽然具备一定的语义理解能力,但在物理规律的精确预测方面存在不足,容易出现安全隐患。

核心思路:论文的核心思路是构建一个综合性的基准测试PilotBench,用于系统地评估LLMs在飞行控制任务中的性能,并分析其在精度、可控性和安全性方面的优缺点。通过比较LLMs和传统预测器在不同飞行阶段的表现,揭示LLMs在处理复杂物理环境时的局限性,并为未来混合架构的设计提供指导。

技术框架:PilotBench包含以下主要组成部分:1) 真实飞行数据:收集了708个真实世界的通用航空轨迹,涵盖九个操作上不同的飞行阶段,并同步了34通道的遥测数据。2) 评估指标:引入了Pilot-Score,这是一个综合指标,以60%的回归精度和40%的指令遵循和安全合规性进行平衡。3) 模型评估:对41个模型(包括LLMs和传统预测器)进行比较评估,分析其在不同飞行阶段的表现。

关键创新:论文的关键创新在于:1) 构建了一个面向通用航空代理的基准测试PilotBench,填补了LLMs在安全关键领域评估的空白。2) 提出了Pilot-Score,这是一个综合指标,能够同时评估模型的精度、可控性和安全性。3) 揭示了LLMs在处理复杂物理环境时的动态复杂性差距,为未来混合架构的设计提供了指导。

关键设计:Pilot-Score的权重设计是关键。回归精度占比60%,指令遵循和安全合规性占比40%,旨在平衡模型的预测精度和安全性能。此外,论文还对不同飞行阶段进行了分层分析,以评估模型在不同工作负载下的表现。具体模型选择和参数设置未详细说明,属于实验细节。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,传统预测器在MAE方面表现更优(7.01),但缺乏语义推理能力;LLM在指令遵循方面表现更好(86-89%),但MAE较高(11-14)。分阶段分析揭示了LLM在爬升和进近等高负荷阶段性能下降,表明其隐式物理模型较为脆弱。这些结果突出了混合架构的潜力。

🎯 应用场景

该研究成果可应用于开发更安全、更可靠的自动驾驶飞行系统。通过结合LLM的语义理解能力和传统预测器的数值精度,可以构建混合架构,提高飞行控制系统的智能化水平和安全性。此外,PilotBench可以作为评估其他安全关键领域(如自动驾驶汽车、机器人等)AI代理的基准。

📄 摘要(原文)

As Large Language Models (LLMs) advance toward embodied AI agents operating in physical environments, a fundamental question emerges: can models trained on text corpora reliably reason about complex physics while adhering to safety constraints? We address this through PilotBench, a benchmark evaluating LLMs on safety-critical flight trajectory and attitude prediction. Built from 708 real-world general aviation trajectories spanning nine operationally distinct flight phases with synchronized 34-channel telemetry, PilotBench systematically probes the intersection of semantic understanding and physics-governed prediction through comparative analysis of LLMs and traditional forecasters. We introduce Pilot-Score, a composite metric balancing 60% regression accuracy with 40% instruction adherence and safety compliance. Comparative evaluation across 41 models uncovers a Precision-Controllability Dichotomy: traditional forecasters achieve superior MAE of 7.01 but lack semantic reasoning capabilities, while LLMs gain controllability with 86--89% instruction-following at the cost of 11--14 MAE precision. Phase-stratified analysis further exposes a Dynamic Complexity Gap-LLM performance degrades sharply in high-workload phases such as Climb and Approach, suggesting brittle implicit physics models. These empirical discoveries motivate hybrid architectures combining LLMs' symbolic reasoning with specialized forecasters' numerical precision. PilotBench provides a rigorous foundation for advancing embodied AI in safety-constrained domains.