Beyond the Resumé: A Rubric-Aware Automatic Interview System for Information Elicitation

📄 arXiv: 2603.01775v1 📥 PDF

作者: Harry Stuart, Masahiro Kaneko, Timothy Baldwin

分类: cs.CL

发布日期: 2026-03-02

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于LLM的自动面试系统,用于更有效地筛选候选人

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动面试 大型语言模型 招聘系统 信息提取 信念更新

📋 核心要点

  1. 现有招聘流程依赖专家面试,成本高昂且难以规模化,导致早期筛选基于有限信息。
  2. 利用大型语言模型作为面试官,系统性地获取候选人细致且角色相关的潜在能力信息。
  3. 在模拟面试中验证系统有效性,证明信念能够收敛到模拟申请人的潜在能力水平。

📝 摘要(中文)

高效的招聘对于组织的成功至关重要,但找到最合适的候选人极具挑战,因为专家评估(例如,由技术经理进行的面试)的部署成本很高。因此,自动简历评分和其他申请人筛选方法越来越多地被用于粗略地过滤候选人,但这些方法基于有限的信息做出决策。我们提出,大型语言模型(LLM)可以扮演主题专家的角色,以经济高效的方式从每个候选人那里获取细致且特定于角色的信息,从而提高早期招聘决策的质量。我们提出了一个系统,该系统利用LLM面试官以校准的方式更新对申请人基于评分标准的潜在特征的信念。我们在模拟面试中评估了我们的系统,并表明信念收敛于模拟申请人的人工构建的潜在能力水平。我们发布了代码、一个适度的公共领域/匿名简历数据集、信念校准测试和模拟面试。

🔬 方法详解

问题定义:论文旨在解决招聘过程中早期筛选阶段信息不足的问题。现有方法,如简历筛选,依赖有限的信息,无法充分评估候选人的潜在能力。专家面试虽然有效,但成本高昂,难以大规模应用。因此,如何在早期阶段以较低的成本获取更全面、细致的候选人信息成为关键挑战。

核心思路:论文的核心思路是利用大型语言模型(LLM)作为面试官,模拟专家面试过程,主动向候选人提问,从而获取更丰富、更细致的信息。通过与候选人的交互,系统可以动态更新对候选人潜在能力的评估,从而更准确地判断其是否符合职位要求。这种方法旨在弥补传统简历筛选的不足,并降低专家面试的成本。

技术框架:该系统主要包含以下几个模块:1) LLM面试官:负责生成面试问题,并根据候选人的回答进行追问;2) 候选人信念更新模块:根据面试对话,动态更新对候选人基于评分标准的潜在特征的信念;3) 评分标准:定义了职位所需的关键能力和评估标准;4) 模拟面试环境:用于评估系统性能,通过模拟候选人的回答来测试系统的信念更新能力。整体流程是,LLM面试官根据评分标准向候选人提问,候选人给出回答,系统根据回答更新对候选人能力的信念,最终根据信念判断候选人是否符合职位要求。

关键创新:该论文的关键创新在于将大型语言模型应用于自动面试系统,并将其用于动态更新对候选人潜在能力的信念。与传统的简历筛选方法相比,该系统能够主动获取信息,并根据候选人的回答进行调整,从而更全面、更准确地评估候选人的能力。此外,该系统还引入了评分标准,使得评估过程更加客观和可解释。

关键设计:论文中没有详细描述关键参数设置、损失函数、网络结构等技术细节。但是,可以推断,LLM面试官可能采用了某种形式的强化学习或微调,以优化其提问策略和评估能力。信念更新模块可能采用了贝叶斯更新或类似的方法,以根据新的信息动态调整对候选人能力的评估。评分标准的设计也至关重要,需要仔细定义职位所需的关键能力和评估标准。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过模拟面试验证了系统的有效性,结果表明,系统对候选人能力的信念能够收敛到模拟申请人的人工构建的潜在能力水平。这表明该系统能够有效地获取候选人信息,并准确评估其能力。虽然论文没有提供具体的性能数据和对比基线,但收敛性结果表明该系统具有一定的应用潜力。

🎯 应用场景

该研究成果可应用于企业招聘流程的早期筛选阶段,降低招聘成本,提高招聘效率。通过自动面试系统,企业可以更全面地评估候选人的潜在能力,从而做出更明智的招聘决策。此外,该技术还可以应用于教育领域,例如模拟面试练习,帮助学生提高面试技巧。

📄 摘要(原文)

Effective hiring is integral to the success of an organisation, but it is very challenging to find the most suitable candidates because expert evaluation (e.g.\ interviews conducted by a technical manager) are expensive to deploy at scale. Therefore, automated resume scoring and other applicant-screening methods are increasingly used to coarsely filter candidates, making decisions on limited information. We propose that large language models (LLMs) can play the role of subject matter experts to cost-effectively elicit information from each candidate that is nuanced and role-specific, thereby improving the quality of early-stage hiring decisions. We present a system that leverages an LLM interviewer to update belief over an applicant's rubric-oriented latent traits in a calibrated way. We evaluate our system on simulated interviews and show that belief converges towards the simulated applicants' artificially-constructed latent ability levels. We release code, a modest dataset of public-domain/anonymised resumes, belief calibration tests, and simulated interviews, at \href{https://github.com/mbzuai-nlp/beyond-the-resume}{https://github.com/mbzuai-nlp/beyond-the-resume}. Our demo is available at \href{https://btr.hstu.net}{https://btr.hstu.net}.