AECV-Bench: Benchmarking Multimodal Models on Architectural and Engineering Drawings Understanding

📄 arXiv: 2601.04819v1 📥 PDF

作者: Aleksei Kondratenko, Mussie Birhane, Houssame E. Hsain, Guido Maciocci

分类: cs.AI

发布日期: 2026-01-08


💡 一句话要点

AECV-Bench:用于建筑工程图理解的多模态模型基准测试

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 建筑工程图纸理解 基准测试 物体计数 文档问答 空间推理 视觉语言模型

📋 核心要点

  1. 现有的多模态模型在理解建筑工程图纸中的几何和语义信息方面存在不足,尤其是在符号识别和空间推理方面。
  2. AECV-Bench基准测试旨在提供一个统一的平台,用于评估多模态模型在AEC图纸理解方面的能力,包括物体计数和文档问答。
  3. 实验结果表明,现有模型在文本提取方面表现良好,但在符号理解和空间推理方面仍有很大的提升空间,尤其是在门窗等关键元素的计数上。

📝 摘要(中文)

本文提出了AECV-Bench,一个用于评估多模态和视觉-语言模型在建筑工程(AEC)图纸理解能力上的基准。该基准通过两个互补的用例,利用真实的AEC图纸进行评估:(i) 在120张高质量的平面图上进行物体计数(门、窗、卧室、卫生间);(ii) 基于图纸的文档问答,包含192个问题-答案对,测试文本提取(OCR)、实例计数、空间推理以及对常见图纸区域的比较推理。物体计数性能使用每个字段的精确匹配准确率和MAPE结果进行报告,而文档问答性能使用总体准确率和每个类别的细分结果进行报告,并采用LLM作为评判标准,并对边缘情况进行人工判决。通过统一的协议评估了一系列最先进的模型,观察到稳定的能力梯度;OCR和以文本为中心的文档问答能力最强(高达0.95的准确率),空间推理能力中等,而以符号为中心的图纸理解——特别是可靠的门窗计数——仍然未解决(通常为0.40-0.55的准确率),存在很大的比例误差。这些结果表明,当前的系统作为文档助手运行良好,但缺乏强大的图纸理解能力,因此需要特定领域的表示和工具增强的、人机协作的工作流程,以实现高效的AEC自动化。

🔬 方法详解

问题定义:论文旨在解决多模态模型在理解建筑工程图纸(AEC)方面的能力评估问题。现有的多模态模型在处理AEC图纸时,尤其是在符号识别、空间推理和精确计数方面表现不佳,缺乏一个专门的基准来系统地评估和比较不同模型的性能。

核心思路:论文的核心思路是构建一个专门针对AEC图纸理解的基准测试集,包含物体计数和文档问答两个任务,并设计相应的评估指标,从而全面评估多模态模型在AEC图纸理解方面的能力。通过分析模型在不同任务上的表现,揭示现有模型的优势和不足,为未来的研究提供指导。

技术框架:AECV-Bench基准测试包含两个主要模块:(1) 物体计数:提供120张高质量的平面图,要求模型计数特定类型的物体(门、窗、卧室、卫生间)。(2) 文档问答:包含192个问题-答案对,涵盖文本提取(OCR)、实例计数、空间推理和比较推理等多个方面。评估流程包括:模型预测、LLM自动评估和人工判决。

关键创新:AECV-Bench是首个专门针对建筑工程图纸理解的多模态模型基准测试。它提供了一个统一的评估平台,可以系统地评估不同模型在AEC图纸理解方面的能力。此外,该基准测试还采用了LLM自动评估和人工判决相结合的评估方法,提高了评估的准确性和可靠性。

关键设计:在物体计数任务中,使用精确匹配准确率和MAPE(平均绝对百分比误差)作为评估指标。在文档问答任务中,使用总体准确率和每个类别的细分结果进行评估,并采用LLM作为评判标准,并对边缘情况进行人工判决。问题设计涵盖了文本提取、实例计数、空间推理和比较推理等多个方面,全面评估模型的理解能力。

📊 实验亮点

实验结果表明,现有模型在OCR和文本相关的文档问答任务中表现较好(准确率高达0.95),但在空间推理和符号理解方面仍有不足,尤其是在门窗计数任务中,准确率仅为0.40-0.55,存在较大的误差。这些结果揭示了当前模型在AEC图纸理解方面的局限性,为未来的研究方向提供了指导。

🎯 应用场景

该研究成果可应用于建筑信息模型(BIM)、智能建筑、自动化设计等领域。通过提升多模态模型对建筑工程图纸的理解能力,可以实现更高效的图纸分析、自动化设计和智能决策,从而提高建筑行业的生产效率和智能化水平。未来,该研究可以扩展到其他类型的工程图纸理解,例如机械图纸、电路图等。

📄 摘要(原文)

AEC drawings encode geometry and semantics through symbols, layout conventions, and dense annotation, yet it remains unclear whether modern multimodal and vision-language models can reliably interpret this graphical language. We present AECV-Bench, a benchmark for evaluating multimodal and vision-language models on realistic AEC artefacts via two complementary use cases: (i) object counting on 120 high-quality floor plans (doors, windows, bedrooms, toilets), and (ii) drawing-grounded document QA spanning 192 question-answer pairs that test text extraction (OCR), instance counting, spatial reasoning, and comparative reasoning over common drawing regions. Object-counting performance is reported using per-field exact-match accuracy and MAPE results, while document-QA performance is reported using overall accuracy and per-category breakdowns with an LLM-as-a-judge scoring pipeline and targeted human adjudication for edge cases. Evaluating a broad set of state-of-the-art models under a unified protocol, we observe a stable capability gradient; OCR and text-centric document QA are strongest (up to 0.95 accuracy), spatial reasoning is moderate, and symbol-centric drawing understanding - especially reliable counting of doors and windows - remains unsolved (often 0.40-0.55 accuracy) with substantial proportional errors. These results suggest that current systems function well as document assistants but lack robust drawing literacy, motivating domain-specific representations and tool-augmented, human-in-the-loop workflows for an efficient AEC automation.