DSC2025 -- ViHallu Challenge: Detecting Hallucination in Vietnamese LLMs

作者: Anh Thi-Hoang Nguyen, Khanh Quoc Tran, Tin Van Huynh, Phuoc Tan-Hoang Nguyen, Cam Tan Nguyen, Kiet Van Nguyen

分类: cs.CL, cs.AI

发布日期: 2026-01-08

💡 一句话要点

发布ViHallu数据集与挑战赛，用于检测越南语LLM中的幻觉问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 越南语LLM 幻觉检测 ViHallu数据集 指令调优 自然语言处理

📋 核心要点

现有越南语LLM幻觉检测缺乏大规模数据集和标准化评估框架，阻碍了模型可靠性的提升。
构建包含10,000个样本的ViHallu数据集，涵盖三种幻觉类型和提示方式，用于全面评估模型。
ViHallu挑战赛结果表明，指令调优LLM结合结构化提示和集成策略能有效提升幻觉检测性能。

📝 摘要（中文）

大型语言模型（LLM）在生产环境中的可靠性受到其产生幻觉的倾向的严重限制，即生成流畅但与事实相悖或捏造信息的输出。虽然幻觉检测已成为以英语为中心的基准测试中的优先事项，但越南语等中低资源语言在标准化评估框架中仍然覆盖不足。本文介绍了DSC2025 ViHallu挑战赛，这是首个用于检测越南语LLM中幻觉的大规模共享任务。我们提出了ViHallu数据集，包含10,000个带注释的（上下文，提示，响应）三元组样本，系统地划分为三种幻觉类别：无幻觉、内在幻觉和外在幻觉。该数据集包含三种提示类型——事实性、噪声性和对抗性——以测试模型的鲁棒性。共有111个团队参加，表现最佳的系统实现了84.80%的宏平均F1分数，而基线编码器的得分仅为32.83%，这表明经过指令调整的LLM通过结构化提示和集成策略，显著优于通用架构。然而，与完美性能的差距表明，幻觉检测仍然是一个具有挑战性的问题，特别是对于内在（基于矛盾的）幻觉。这项工作建立了一个严格的基准，并探索了各种检测方法，为未来研究越南语人工智能系统的可信度和可靠性奠定了基础。

🔬 方法详解

问题定义：论文旨在解决越南语大型语言模型（LLM）中存在的幻觉问题，即模型生成看似合理但与事实不符或捏造信息的现象。现有方法，特别是针对英语的幻觉检测方法，无法直接应用于越南语，并且缺乏大规模的越南语数据集进行评估和改进。因此，痛点在于缺乏有效的越南语LLM幻觉检测基准和方法。

核心思路：论文的核心思路是构建一个大规模的、多样化的越南语幻觉检测数据集（ViHallu），并举办挑战赛，鼓励研究人员开发和评估各种幻觉检测方法。通过提供一个标准化的评估平台，促进越南语LLM幻觉检测技术的发展。

技术框架：ViHallu挑战赛的技术框架主要包含以下几个部分：1) 数据集构建：收集并标注包含上下文、提示和响应的三元组数据，分为无幻觉、内在幻觉和外在幻觉三种类型。2) 提示设计：设计事实性、噪声性和对抗性三种提示，以测试模型的鲁棒性。3) 评估指标：使用宏平均F1分数作为主要评估指标。4) 挑战赛组织：组织并运行ViHallu挑战赛，收集参赛队伍提交的模型结果，并进行评估和排名。

关键创新：论文的关键创新在于：1) 构建了首个大规模的越南语LLM幻觉检测数据集ViHallu，填补了该领域的空白。2) 设计了多种类型的提示，以更全面地评估模型的幻觉检测能力。3) 通过挑战赛的形式，促进了各种幻觉检测方法的发展和比较。

关键设计：ViHallu数据集包含10,000个样本，分为三种幻觉类型：无幻觉（No Hallucination）、内在幻觉（Intrinsic Hallucination，与上下文矛盾）和外在幻觉（Extrinsic Hallucination，与外部知识矛盾）。提示类型包括：事实性提示（Factual Prompts）、噪声性提示（Noisy Prompts）和对抗性提示（Adversarial Prompts）。评估指标采用宏平均F1分数，以平衡不同幻觉类型的影响。

📊 实验亮点

ViHallu挑战赛吸引了111个团队参与，最佳系统取得了84.80%的宏平均F1分数，相比于基线编码器模型的32.83%有显著提升。这表明，经过指令调优的LLM，结合结构化提示和集成策略，能够有效提高幻觉检测的性能。然而，与理想性能的差距也表明，幻觉检测仍然是一个具有挑战性的问题。

🎯 应用场景

该研究成果可应用于提升越南语LLM在各种场景下的可靠性，例如智能客服、信息检索、内容生成等。通过降低幻觉的发生，可以提高用户对LLM的信任度，并减少错误信息的传播。未来，该研究可以扩展到其他低资源语言，促进全球范围内LLM的可信发展。

📄 摘要（原文）

The reliability of large language models (LLMs) in production environments remains significantly constrained by their propensity to generate hallucinations -- fluent, plausible-sounding outputs that contradict or fabricate information. While hallucination detection has recently emerged as a priority in English-centric benchmarks, low-to-medium resource languages such as Vietnamese remain inadequately covered by standardized evaluation frameworks. This paper introduces the DSC2025 ViHallu Challenge, the first large-scale shared task for detecting hallucinations in Vietnamese LLMs. We present the ViHallu dataset, comprising 10,000 annotated triplets of (context, prompt, response) samples systematically partitioned into three hallucination categories: no hallucination, intrinsic, and extrinsic hallucinations. The dataset incorporates three prompt types -- factual, noisy, and adversarial -- to stress-test model robustness. A total of 111 teams participated, with the best-performing system achieving a macro-F1 score of 84.80\%, compared to a baseline encoder-only score of 32.83\%, demonstrating that instruction-tuned LLMs with structured prompting and ensemble strategies substantially outperform generic architectures. However, the gap to perfect performance indicates that hallucination detection remains a challenging problem, particularly for intrinsic (contradiction-based) hallucinations. This work establishes a rigorous benchmark and explores a diverse range of detection methodologies, providing a foundation for future research into the trustworthiness and reliability of Vietnamese language AI systems.

DSC2025 -- ViHallu Challenge: Detecting Hallucination in Vietnamese LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册