A Vision-and-Knowledge Enhanced Large Language Model for Generalizable Pedestrian Crossing Behavior Inference

作者: Qingwen Pu, Kun Xie, Hong Yang, Guocong Zhai

分类: cs.AI

发布日期: 2026-01-02

💡 一句话要点

提出PedX-LLM，通过视觉知识增强LLM，提升行人过马路行为推断的泛化性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 行人过马路行为推断 大语言模型 视觉知识增强 零样本学习 领域知识融合

📋 核心要点

现有行人过马路行为推断方法泛化性差，难以适应新场景，缺乏对环境和知识的有效利用。
PedX-LLM通过融合视觉信息和交通领域知识，增强大语言模型的推理能力，模拟人类决策过程。
实验表明，PedX-LLM在平衡准确率和泛化性上显著优于传统方法，尤其在零样本学习中表现突出。

📝 摘要（中文）

本研究针对现有行人过马路行为推断方法在新的场景中泛化能力有限的问题，提出了一个视觉和知识增强的大语言模型框架PedX-LLM。该框架将LLaVA提取的视觉特征与文本数据和交通领域知识相结合，通过低秩适应(LoRA)微调LLaMA-2-7B基础模型，从而推断行人过马路决策。实验结果表明，PedX-LLM实现了82.0%的平衡准确率，优于最佳的统计和监督学习方法。视觉增强模块贡献了2.9%的性能提升，领域知识的整合带来了额外的4.1%的改进。在跨站点验证中，零样本PedX-LLM在五个未见过的测试站点上实现了66.9%的平衡准确率，超过基线数据驱动方法至少18个百分点。通过少量样本学习，PedX-LLM的平衡准确率进一步提升至72.2%。PedX-LLM展现了对未见场景的强大泛化能力，验证了视觉和知识增强的推理能够使模型模仿人类的决策逻辑，克服纯数据驱动方法的局限性。

🔬 方法详解

问题定义：现有行人过马路行为推断方法，如统计模型和监督学习，依赖于特定场景的数据，在新场景下的泛化能力不足。这些方法难以捕捉环境因素和交通规则等领域知识，导致模型无法做出合理的决策。因此，需要一种能够利用视觉信息和领域知识，并具备良好泛化能力的行人过马路行为推断方法。

核心思路：论文的核心思路是将大语言模型(LLM)与视觉信息和交通领域知识相结合，利用LLM强大的推理能力，模拟人类在过马路时的决策过程。通过视觉信息，模型可以感知周围环境；通过领域知识，模型可以理解交通规则和行人行为模式。这种结合使得模型能够做出更准确、更合理的决策，并具备更好的泛化能力。

技术框架：PedX-LLM的整体框架包括以下几个主要模块：1) 视觉特征提取模块：使用LLaVA提取图像中的视觉特征，例如车辆、行人、交通信号灯等。2) 文本数据构建模块：将场景描述、交通规则等信息转化为文本数据。3) 知识融合模块：将视觉特征、文本数据和交通领域知识进行融合，形成统一的输入表示。4) 大语言模型微调模块：使用LoRA方法微调LLaMA-2-7B基础模型，使其能够根据融合后的输入进行行人过马路行为推断。

关键创新：PedX-LLM的关键创新在于将视觉信息和领域知识融入到大语言模型中，从而增强了模型的推理能力和泛化能力。与传统的基于数据驱动的方法相比，PedX-LLM能够更好地理解场景和规则，做出更合理的决策。此外，使用LoRA方法进行微调，降低了计算成本，使得模型更容易部署和应用。

关键设计：在视觉特征提取方面，使用了预训练的LLaVA模型，并根据具体任务进行了微调。在知识融合方面，采用了文本嵌入和视觉特征拼接的方式。在损失函数方面，使用了交叉熵损失函数，并加入了一些正则化项，以防止过拟合。LoRA的秩设置为一个较小的值，以平衡性能和计算成本。

📊 实验亮点

PedX-LLM在行人过马路行为推断任务中取得了显著成果。在平衡准确率方面，PedX-LLM达到了82.0%，超过了最佳的统计和监督学习方法。视觉增强模块和领域知识的整合分别带来了2.9%和4.1%的性能提升。在跨站点验证中，零样本PedX-LLM在五个未见过的测试站点上实现了66.9%的平衡准确率，超过基线方法至少18个百分点。通过少量样本学习，PedX-LLM的平衡准确率进一步提升至72.2%。

🎯 应用场景

PedX-LLM可应用于智能交通系统、自动驾驶、行人安全监测等领域。通过准确预测行人过马路行为，可以优化交通信号灯控制，提高道路通行效率，减少交通事故发生。此外，该研究为其他需要结合视觉信息和领域知识的决策问题提供了借鉴。

📄 摘要（原文）

Existing paradigms for inferring pedestrian crossing behavior, ranging from statistical models to supervised learning methods, demonstrate limited generalizability and perform inadequately on new sites. Recent advances in Large Language Models (LLMs) offer a shift from numerical pattern fitting to semantic, context-aware behavioral reasoning, yet existing LLM applications lack domain-specific adaptation and visual context. This study introduces Pedestrian Crossing LLM (PedX-LLM), a vision-and-knowledge enhanced framework designed to transform pedestrian crossing inference from site-specific pattern recognition to generalizable behavioral reasoning. By integrating LLaVA-extracted visual features with textual data and transportation domain knowledge, PedX-LLM fine-tunes a LLaMA-2-7B foundation model via Low-Rank Adaptation (LoRA) to infer crossing decisions. PedX-LLM achieves 82.0% balanced accuracy, outperforming the best statistical and supervised learning methods. Results demonstrate that the vision-augmented module contributes a 2.9% performance gain by capturing the built environment and integrating domain knowledge yields an additional 4.1% improvement. To evaluate generalizability across unseen environments, cross-site validation was conducted using site-based partitioning. The zero-shot PedX-LLM configuration achieves 66.9% balanced accuracy on five unseen test sites, outperforming the baseline data-driven methods by at least 18 percentage points. Incorporating just five validation examples via few-shot learning to PedX-LLM further elevates the balanced accuracy to 72.2%. PedX-LLM demonstrates strong generalizability to unseen scenarios, confirming that vision-and-knowledge-enhanced reasoning enables the model to mimic human-like decision logic and overcome the limitations of purely data-driven methods.

A Vision-and-Knowledge Enhanced Large Language Model for Generalizable Pedestrian Crossing Behavior Inference

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册