CORECODE: A Common Sense Annotated Dialogue Dataset with Benchmark Tasks for Chinese Large Language Models

📄 arXiv: 2312.12853v1 📥 PDF

作者: Dan Shi, Chaobin You, Jiantao Huang, Taihao Li, Deyi Xiong

分类: cs.CL

发布日期: 2023-12-20

备注: AAAI 2024

🔗 代码/项目: GITHUB


💡 一句话要点

CORECODE:一个用于评估中文大语言模型常识推理能力的对话数据集。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 常识推理 中文大语言模型 对话数据集 知识标注 自然语言处理

📋 核心要点

  1. 现有中文大语言模型在常识推理方面存在不足,尤其是在日常对话场景中,缺乏有效的评估数据集。
  2. CORECODE数据集通过人工标注对话中的常识知识,并定义了标准化的标注形式,从而构建了一个高质量的常识推理评估基准。
  3. 实验表明,现有开源中文大语言模型在CORECODE数据集上的表现不佳,即使是ChatGPT在零样本设置下也表现出明显的局限性。

📝 摘要(中文)

本文提出了CORECODE,一个包含丰富常识知识的对话数据集,旨在评估中文大语言模型(LLMs)的常识推理和常识冲突检测能力。该数据集通过人工标注二元对话中的常识知识,并将日常对话中的常识知识分为实体、事件和社交互动三个维度。为了便于标注和保持一致性,论文将开放域对话中的常识知识标注形式标准化为“领域:槽=值”。总共定义了9个领域和37个槽,以捕获各种常识知识。通过众包,从19700个对话中收集了76787个常识知识标注。为了评估和提高LLMs在该数据集上的常识推理能力,论文建立了一系列对话级别的推理和检测任务,包括常识知识填充、常识知识生成、常识冲突短语检测、领域识别、槽识别和事件因果推理。使用这些任务评估了各种现有的开源中文LLMs。实验结果表明,这些模型无法胜任CORECODE中丰富的推理内容,即使是ChatGPT在零样本设置下,在领域识别和槽识别任务上也只能达到0.275和0.084的准确率。论文发布了CORECODE的数据和代码,以促进日常对话中LLMs的常识推理评估和研究。

🔬 方法详解

问题定义:现有中文大语言模型在常识推理能力方面存在不足,尤其是在处理日常对话场景时。缺乏一个专门用于评估和提升中文LLM常识推理能力的高质量数据集。现有方法难以准确捕捉对话中蕴含的丰富常识知识,导致模型在实际应用中表现不佳。

核心思路:论文的核心思路是构建一个包含丰富常识知识的对话数据集,并设计一系列评估任务,以全面评估和提升中文LLM的常识推理能力。通过人工标注的方式,将对话中的常识知识显式地提取出来,并将其标准化为“领域:槽=值”的形式,从而方便模型学习和推理。

技术框架:CORECODE数据集的构建流程主要包括以下几个阶段:1) 定义常识知识的维度(实体、事件、社交互动)和领域(9个领域,37个槽);2) 通过众包的方式,从大量的对话数据中收集常识知识标注;3) 对标注数据进行清洗和验证,确保数据的质量;4) 基于标注数据,构建一系列评估任务,包括常识知识填充、常识知识生成、常识冲突短语检测、领域识别、槽识别和事件因果推理。

关键创新:该论文的关键创新在于:1) 提出了CORECODE数据集,这是首个专门用于评估中文LLM常识推理能力的对话数据集;2) 定义了一套标准化的常识知识标注形式,使得常识知识的提取和利用更加方便;3) 构建了一系列全面的评估任务,可以从多个角度评估LLM的常识推理能力。与现有方法相比,CORECODE数据集更加丰富、更加规范、更加全面。

关键设计:在常识知识标注方面,论文定义了9个领域和37个槽,以覆盖各种常见的常识知识。在评估任务方面,论文设计了多种类型的任务,包括生成式任务(常识知识生成)和判别式任务(常识冲突短语检测)。在实验评估方面,论文选择了多种开源中文LLM作为基线模型,并采用了零样本学习的方式进行评估。

📊 实验亮点

实验结果表明,现有开源中文LLM在CORECODE数据集上的表现普遍不佳,即使是ChatGPT在零样本设置下,在领域识别和槽识别任务上的准确率也仅为0.275和0.084。这表明现有模型在常识推理方面仍有很大的提升空间,CORECODE数据集为未来的研究提供了重要的评估基准。

🎯 应用场景

CORECODE数据集可广泛应用于中文大语言模型的常识推理能力评估与提升。通过该数据集,可以更准确地评估模型在日常对话场景下的常识推理能力,并指导模型训练,提高其在智能客服、聊天机器人等实际应用中的表现。该数据集的发布将促进中文自然语言处理领域常识推理相关研究的发展。

📄 摘要(原文)

As an indispensable ingredient of intelligence, commonsense reasoning is crucial for large language models (LLMs) in real-world scenarios. In this paper, we propose CORECODE, a dataset that contains abundant commonsense knowledge manually annotated on dyadic dialogues, to evaluate the commonsense reasoning and commonsense conflict detection capabilities of Chinese LLMs. We categorize commonsense knowledge in everyday conversations into three dimensions: entity, event, and social interaction. For easy and consistent annotation, we standardize the form of commonsense knowledge annotation in open-domain dialogues as "domain: slot = value". A total of 9 domains and 37 slots are defined to capture diverse commonsense knowledge. With these pre-defined domains and slots, we collect 76,787 commonsense knowledge annotations from 19,700 dialogues through crowdsourcing. To evaluate and enhance the commonsense reasoning capability for LLMs on the curated dataset, we establish a series of dialogue-level reasoning and detection tasks, including commonsense knowledge filling, commonsense knowledge generation, commonsense conflict phrase detection, domain identification, slot identification, and event causal inference. A wide variety of existing open-source Chinese LLMs are evaluated with these tasks on our dataset. Experimental results demonstrate that these models are not competent to predict CORECODE's plentiful reasoning content, and even ChatGPT could only achieve 0.275 and 0.084 accuracy on the domain identification and slot identification tasks under the zero-shot setting. We release the data and codes of CORECODE at https://github.com/danshi777/CORECODE to promote commonsense reasoning evaluation and study of LLMs in the context of daily conversations.