PilotBench: A Benchmark for General Aviation Agents with Safety Constraints

作者: Yalun Wu, Haotian Liu, Zhoujun Li, Boyang Wang

分类: cs.AI

发布日期: 2026-04-10

备注: Accepted at the 2026 IEEE International Joint Conference on Neural Networks (IJCNN 2026). 6 pages, 7 figures

💡 一句话要点

PilotBench：面向通用航空代理，带安全约束的基准测试

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 通用航空 具身智能 大型语言模型 安全约束 基准测试

📋 核心要点

现有方法难以兼顾物理世界的复杂推理和安全约束，尤其是在飞行控制等安全攸关领域。
PilotBench通过构建包含真实飞行数据的基准测试，并提出Pilot-Score综合评估模型性能。
实验表明，传统预测器精度高但缺乏语义理解，LLM可控性好但精度较低，存在动态复杂性差距。

📝 摘要（中文）

随着大型语言模型（LLMs）向在物理环境中运行的具身AI代理发展，一个根本问题出现了：在文本语料库上训练的模型能否可靠地推理复杂的物理规律，同时遵守安全约束？我们通过PilotBench来解决这个问题，PilotBench是一个评估LLM在安全关键的飞行轨迹和姿态预测方面的基准。PilotBench构建于708个真实世界的通用航空轨迹之上，涵盖九个操作上不同的飞行阶段，并同步了34通道的遥测数据。通过对LLM和传统预测器的比较分析，PilotBench系统地探究了语义理解和物理规律预测的交叉点。我们引入了Pilot-Score，这是一个综合指标，以60%的回归精度和40%的指令遵循和安全合规性进行平衡。对41个模型的比较评估揭示了一种精度-可控性二分法：传统预测器实现了7.01的卓越MAE，但缺乏语义推理能力，而LLM以11-14 MAE精度的代价获得了86-89%的指令遵循可控性。分阶段分析进一步揭示了动态复杂性差距——LLM的性能在爬升和进近等高负荷阶段急剧下降，表明其隐式物理模型较为脆弱。这些经验性发现推动了混合架构的发展，将LLM的符号推理与专用预测器的数值精度相结合。PilotBench为推进安全约束领域中的具身AI提供了坚实的基础。

🔬 方法详解

问题定义：论文旨在评估大型语言模型（LLMs）在安全关键的飞行轨迹和姿态预测任务中的表现。现有方法，如传统的预测模型，虽然在数值预测方面表现良好，但缺乏对语义信息的理解和推理能力，难以满足复杂场景下的安全约束。而LLMs虽然具备一定的语义理解能力，但在物理规律的精确预测方面存在不足，容易出现安全隐患。

核心思路：论文的核心思路是构建一个综合性的基准测试PilotBench，用于系统地评估LLMs在飞行控制任务中的性能，并分析其在精度、可控性和安全性方面的优缺点。通过比较LLMs和传统预测器在不同飞行阶段的表现，揭示LLMs在处理复杂物理环境时的局限性，并为未来混合架构的设计提供指导。

技术框架：PilotBench包含以下主要组成部分：1) 真实飞行数据：收集了708个真实世界的通用航空轨迹，涵盖九个操作上不同的飞行阶段，并同步了34通道的遥测数据。2) 评估指标：引入了Pilot-Score，这是一个综合指标，以60%的回归精度和40%的指令遵循和安全合规性进行平衡。3) 模型评估：对41个模型（包括LLMs和传统预测器）进行比较评估，分析其在不同飞行阶段的表现。

关键创新：论文的关键创新在于：1) 构建了一个面向通用航空代理的基准测试PilotBench，填补了LLMs在安全关键领域评估的空白。2) 提出了Pilot-Score，这是一个综合指标，能够同时评估模型的精度、可控性和安全性。3) 揭示了LLMs在处理复杂物理环境时的动态复杂性差距，为未来混合架构的设计提供了指导。

关键设计：Pilot-Score的权重设计是关键。回归精度占比60%，指令遵循和安全合规性占比40%，旨在平衡模型的预测精度和安全性能。此外，论文还对不同飞行阶段进行了分层分析，以评估模型在不同工作负载下的表现。具体模型选择和参数设置未详细说明，属于实验细节。

🖼️ 关键图片

📊 实验亮点

实验结果表明，传统预测器在MAE方面表现更优（7.01），但缺乏语义推理能力；LLM在指令遵循方面表现更好（86-89%），但MAE较高（11-14）。分阶段分析揭示了LLM在爬升和进近等高负荷阶段性能下降，表明其隐式物理模型较为脆弱。这些结果突出了混合架构的潜力。

🎯 应用场景

该研究成果可应用于开发更安全、更可靠的自动驾驶飞行系统。通过结合LLM的语义理解能力和传统预测器的数值精度，可以构建混合架构，提高飞行控制系统的智能化水平和安全性。此外，PilotBench可以作为评估其他安全关键领域（如自动驾驶汽车、机器人等）AI代理的基准。

📄 摘要（原文）

As Large Language Models (LLMs) advance toward embodied AI agents operating in physical environments, a fundamental question emerges: can models trained on text corpora reliably reason about complex physics while adhering to safety constraints? We address this through PilotBench, a benchmark evaluating LLMs on safety-critical flight trajectory and attitude prediction. Built from 708 real-world general aviation trajectories spanning nine operationally distinct flight phases with synchronized 34-channel telemetry, PilotBench systematically probes the intersection of semantic understanding and physics-governed prediction through comparative analysis of LLMs and traditional forecasters. We introduce Pilot-Score, a composite metric balancing 60% regression accuracy with 40% instruction adherence and safety compliance. Comparative evaluation across 41 models uncovers a Precision-Controllability Dichotomy: traditional forecasters achieve superior MAE of 7.01 but lack semantic reasoning capabilities, while LLMs gain controllability with 86--89% instruction-following at the cost of 11--14 MAE precision. Phase-stratified analysis further exposes a Dynamic Complexity Gap-LLM performance degrades sharply in high-workload phases such as Climb and Approach, suggesting brittle implicit physics models. These empirical discoveries motivate hybrid architectures combining LLMs' symbolic reasoning with specialized forecasters' numerical precision. PilotBench provides a rigorous foundation for advancing embodied AI in safety-constrained domains.

PilotBench: A Benchmark for General Aviation Agents with Safety Constraints

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理