DSC2025 -- ViHallu Challenge: Detecting Hallucination in Vietnamese LLMs

📄 arXiv: 2601.04711v1 📥 PDF

作者: Anh Thi-Hoang Nguyen, Khanh Quoc Tran, Tin Van Huynh, Phuoc Tan-Hoang Nguyen, Cam Tan Nguyen, Kiet Van Nguyen

分类: cs.CL, cs.AI

发布日期: 2026-01-08


💡 一句话要点

发布ViHallu数据集与挑战赛,用于检测越南语LLM中的幻觉问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 越南语LLM 幻觉检测 ViHallu数据集 指令调优 自然语言处理

📋 核心要点

  1. 现有越南语LLM幻觉检测缺乏大规模数据集和标准化评估框架,阻碍了模型可靠性的提升。
  2. 构建包含10,000个样本的ViHallu数据集,涵盖三种幻觉类型和提示方式,用于全面评估模型。
  3. ViHallu挑战赛结果表明,指令调优LLM结合结构化提示和集成策略能有效提升幻觉检测性能。

📝 摘要(中文)

大型语言模型(LLM)在生产环境中的可靠性受到其产生幻觉的倾向的严重限制,即生成流畅但与事实相悖或捏造信息的输出。虽然幻觉检测已成为以英语为中心的基准测试中的优先事项,但越南语等中低资源语言在标准化评估框架中仍然覆盖不足。本文介绍了DSC2025 ViHallu挑战赛,这是首个用于检测越南语LLM中幻觉的大规模共享任务。我们提出了ViHallu数据集,包含10,000个带注释的(上下文,提示,响应)三元组样本,系统地划分为三种幻觉类别:无幻觉、内在幻觉和外在幻觉。该数据集包含三种提示类型——事实性、噪声性和对抗性——以测试模型的鲁棒性。共有111个团队参加,表现最佳的系统实现了84.80%的宏平均F1分数,而基线编码器的得分仅为32.83%,这表明经过指令调整的LLM通过结构化提示和集成策略,显著优于通用架构。然而,与完美性能的差距表明,幻觉检测仍然是一个具有挑战性的问题,特别是对于内在(基于矛盾的)幻觉。这项工作建立了一个严格的基准,并探索了各种检测方法,为未来研究越南语人工智能系统的可信度和可靠性奠定了基础。

🔬 方法详解

问题定义:论文旨在解决越南语大型语言模型(LLM)中存在的幻觉问题,即模型生成看似合理但与事实不符或捏造信息的现象。现有方法,特别是针对英语的幻觉检测方法,无法直接应用于越南语,并且缺乏大规模的越南语数据集进行评估和改进。因此,痛点在于缺乏有效的越南语LLM幻觉检测基准和方法。

核心思路:论文的核心思路是构建一个大规模的、多样化的越南语幻觉检测数据集(ViHallu),并举办挑战赛,鼓励研究人员开发和评估各种幻觉检测方法。通过提供一个标准化的评估平台,促进越南语LLM幻觉检测技术的发展。

技术框架:ViHallu挑战赛的技术框架主要包含以下几个部分:1) 数据集构建:收集并标注包含上下文、提示和响应的三元组数据,分为无幻觉、内在幻觉和外在幻觉三种类型。2) 提示设计:设计事实性、噪声性和对抗性三种提示,以测试模型的鲁棒性。3) 评估指标:使用宏平均F1分数作为主要评估指标。4) 挑战赛组织:组织并运行ViHallu挑战赛,收集参赛队伍提交的模型结果,并进行评估和排名。

关键创新:论文的关键创新在于:1) 构建了首个大规模的越南语LLM幻觉检测数据集ViHallu,填补了该领域的空白。2) 设计了多种类型的提示,以更全面地评估模型的幻觉检测能力。3) 通过挑战赛的形式,促进了各种幻觉检测方法的发展和比较。

关键设计:ViHallu数据集包含10,000个样本,分为三种幻觉类型:无幻觉(No Hallucination)、内在幻觉(Intrinsic Hallucination,与上下文矛盾)和外在幻觉(Extrinsic Hallucination,与外部知识矛盾)。提示类型包括:事实性提示(Factual Prompts)、噪声性提示(Noisy Prompts)和对抗性提示(Adversarial Prompts)。评估指标采用宏平均F1分数,以平衡不同幻觉类型的影响。

📊 实验亮点

ViHallu挑战赛吸引了111个团队参与,最佳系统取得了84.80%的宏平均F1分数,相比于基线编码器模型的32.83%有显著提升。这表明,经过指令调优的LLM,结合结构化提示和集成策略,能够有效提高幻觉检测的性能。然而,与理想性能的差距也表明,幻觉检测仍然是一个具有挑战性的问题。

🎯 应用场景

该研究成果可应用于提升越南语LLM在各种场景下的可靠性,例如智能客服、信息检索、内容生成等。通过降低幻觉的发生,可以提高用户对LLM的信任度,并减少错误信息的传播。未来,该研究可以扩展到其他低资源语言,促进全球范围内LLM的可信发展。

📄 摘要(原文)

The reliability of large language models (LLMs) in production environments remains significantly constrained by their propensity to generate hallucinations -- fluent, plausible-sounding outputs that contradict or fabricate information. While hallucination detection has recently emerged as a priority in English-centric benchmarks, low-to-medium resource languages such as Vietnamese remain inadequately covered by standardized evaluation frameworks. This paper introduces the DSC2025 ViHallu Challenge, the first large-scale shared task for detecting hallucinations in Vietnamese LLMs. We present the ViHallu dataset, comprising 10,000 annotated triplets of (context, prompt, response) samples systematically partitioned into three hallucination categories: no hallucination, intrinsic, and extrinsic hallucinations. The dataset incorporates three prompt types -- factual, noisy, and adversarial -- to stress-test model robustness. A total of 111 teams participated, with the best-performing system achieving a macro-F1 score of 84.80\%, compared to a baseline encoder-only score of 32.83\%, demonstrating that instruction-tuned LLMs with structured prompting and ensemble strategies substantially outperform generic architectures. However, the gap to perfect performance indicates that hallucination detection remains a challenging problem, particularly for intrinsic (contradiction-based) hallucinations. This work establishes a rigorous benchmark and explores a diverse range of detection methodologies, providing a foundation for future research into the trustworthiness and reliability of Vietnamese language AI systems.