行业动态

《中国人事科学》:人事考试与测评领域人工智能应用新探索

 

摘要:随着人工智能技术的快速发展,其作为新质生产力的核心已经渗透到各种领域,在考试与测评领域的应用也日益广泛。本文探讨了人工智能在人事考试与测评领域中智能命题、试评定标和智能质检三个场景的创新应用。智能命题利用生成式大模型结合领域知识,创新命题方式,提高命题质量和效率;试评定标基于数据挖掘和人工智能技术,完善试评样本抽取方案;智能质检引入多项人工智能技术辅助人工质检,提高评卷质量和效率。文中以各应用场景下具体实例展开人工智能应用介绍,并针对各场景应用存在的不足进行梳理。最后,对人工智能应用探索进行展望。人工智能技术对人事考试与测评领域各工作环节的赋能,对人才评价质量提升有较为显著且积极的影响,将提升人事考试管理部门的工作效率,减轻工作压力。

关键词:考试与测评;人工智能;智能命题;试评定标;智能质检

1、引言

2024年国务院政府工作报告提出,大力推进现代化产业体系建设,加快发展新质生产力,报告强调,要“深化大数据、人工智能等研发应用,开展‘人工智能+’行动”。

过去的2023年,生成式人工智能无疑是最耀眼的“科技明星”。自ChatGPT面世以来,人工智能领域经历了迅速的发展和广泛的关注,ChatGPT的推出标志着自然语言处理技术领域一个新的里程碑。其前身GPT系列模型自2018年不断升级,参数规模增加了数千倍,模型的性能和适用性大幅提升,近期GPT-4o模型的多模态、情感理解能力进一步提升,其自然语言交互与多场景内容的生成能力逼近人类。

人工智能作为新质生产力在考试与测评领域已成为不可或缺的技术手段,并发挥了重要的作用。国内外学者对人工智能在考试与测评领域的应用进行了深入研究。其中,智能评分技术已经在辅助人工评阅、提高评分效率和提高评卷质量等方面展现了显著优势。然而人工智能在考试与测评领域的应用能力还远不止于此,其潜力和可能性仍在不断拓展中。

人事考试涵盖公务员录用考试、事业单位招聘考试、职业资格考试、专业技术人员执业资格考试、专业技术资格考试、专业技术人员职称外语等级统一考试、高校毕业生“三支一扶”考试、选聘高校毕业生到村任职考试、军转干部进机关考试以及各种社会化考试等考试项目。本文结合人事考试与测评领域的人工智能应用案例,以智能命题、试评定标和智能质检三个应用场景为抓手,探讨人工智能在命题和评卷两个关键环节的应用情况,分析其所带来的优势以及必须面对的挑战。

随着人工智能技术飞速发展,其应用领域不断拓展。人工智能技术的引入为公务员录用考试、事业单位招聘考试等人事考试带来了新的技术力量和创新思维。公务员招聘考试作为国家选材用人的标准化考试,从考前命题到考后评卷全过程工作都追求公平公正。近年来,部分省市运用数字化改革理念,建立智能评卷辅助质检体系,利用人工智能技术对考生作答内容进行检测和评阅,创新性地实现了考生作答内容雷同检查、人机评分大分差数据质检等场景应用,有效提升人事考试评卷工作的公平性、科学性和高效性,助推人事考试评卷工作提质升级。此外,随着生成式人工智能的应用推广,试题命制阶段借助生成式大模型为命题专家搜集素材、开拓命题思路、命制试题草题,成为一条新的探索路径。相关技术已在事业单位、省级公务员考试、国企招考以及机关遴选等考试的笔试评卷工作环节中应用。

2、智能命题

试题命制是考试评价工作中极为重要的工作环节之一,它直接影响着考试的公平性、科学性和有效性,试题命制要根据考试大纲要求对试卷内容、题型、题量、能力层次、难易度等要素进行设计。智能命题作为人事考试与评测领域的一个重要研究课题,正逐渐成为研究者和教育从业者关注的焦点。智能命题旨在借助人工智能技术,自动或交互式的生成具有高质量的试题,从而为考试、练习和评估提供更为可靠的资源。此技术以提升试题生成的效率和质量为目标,提升试题在知识点覆盖率、难度及语言准确性等方面的质量。

2.1 智能命题方法

在传统的命审题工作中,命题专家通常需要投入大量时间和精力进行素材搜集、试题命制和组卷。智能命题技术能够自动从教材、题库或其他资源中生成试题,从而减轻命题的负担。智能命题技术能够更有效地满足大规模考试和个性化学习的命题需求,提升考试评估的质量和效果。

公务员考试对于试题有较高的要求,命题质量的高低直接关系到国家公务员录用考试的效度和信度。试题的难易程度、区分程度、覆盖面、试卷中的各种题型的比例、分数分配评分标准等因素对考试结果有直接影响。因此,命题人员在命题中应坚持科学性、求实性、互补性、公平性和导向性。

公务员考试在命题工作中对考试命题均有具体要求。如试题的选用材料应具有代表性,能覆盖考试内容的全部或主要内容;试题的表述必须用词恰当,表意确切明了,文字简练;出题要灵活、新颖,不是单纯考查考生对知识的记忆,而且要考查对概念、原理的应用;试题之间应彼此独立,不得含有本试题或同卷其他试题的答案线索;试题的难易程度应该按考试目标要求和考生差异化的水平设计,各种难度试题的比例合适;试题的正确答案应该是没有争议的,而且有利于客观评分;所命试题,不能存在与教材、公开印发的复习资料、教参资料中有完全相同的文字表述,也不能原封不动地照搬有关书刊、材料中的试题;命题题量应是所需题量的3-5倍,以备选用。

面对高质量的命题要求,命题专家需要从考试大纲、试题素材组织、试题命制、试题审核等多个环节,层次把关,认真打磨。对专家脑力和体力都是巨大考验,不同专家试题命制速度和质量也存在一定差异。借助生成式大模型则可以帮助专家,结合时政信息、专业论著、新闻报道等素材,与考试大纲相结合,按照考察能力的差别,命制相应的试题或者改编历史试题,可以开拓专家命题思路,帮助专家提高命题效率和审题质量。

综合国内外研究,目前智能命题方法可概括为三类:基于规则的智能命题方法、基于知识图谱的智能命题方法和基于大模型的智能命题方法。

基于规则的智能命题方法采用属性、规则和知识库的组合,通过程序化的逻辑生成符合特定要求的试题。属性是指试题的类型、难度、知识点和格式等参数,规则是指生成试题的约束条件,知识库则是包含所有知识点和概念的数据库,用于生成试题。知识库可以是结构化或非结构化,具体取决于所涉及知识点和概念的数量和复杂性。基于规则的智能命题方法,以语义分析和知识处理等规则为基础,构建试题生成模板,通过试题模板进行试题生成。尽管这种方法能够生成部分格式相对简单的试题,但其泛化性和实用性不足。

随着知识图谱技术的不断发展,其在可解释性、可信赖性、可溯源性及推理方面显现出独特的优势。通过构建学科知识图谱,教育者能够更深入的理解学科知识的结构和相互关系。基于知识图谱的智能命题方法是建立在学科知识图谱基础上,利用知识图谱技术对学科知识进行建模和表示,并根据学生的知识水平和能力表现,为其推荐合适的试题。基于知识图谱的智能命题方法的优点是能够根据试题难度和考试大纲的要求及学生的知识水平和学习风格生成个性化的题目,但必须建立完善的学科知识图谱和学生画像知识图谱,并且需要不断更新和维护这些图谱。

基于大模型的智能命题方法是借助大语言模型(Large Language Model, LLM)来自动生成试题的一种方法。基于大模型的通用语言理解、文本生成以及常识等多方面能力,通过在提示工程中引导问答情境,生成相应试题。在教育考试领域,王蕾探索了大模型在教育考试中的应用,提到可以通过AIGC技术辅助试题自动生成,从而降低命题成本,实验证明,大模型能够根据输入信息生成试题。此外,汪张龙等深入研究了认知智能大模型在教育考试中的智能化应用,提到大模型可以应用于试题命制、交互式语言测试、智能化评阅卷、基于考试数据的教育评价拓展以及智能化考试管理与服务等五大场景。大模型具备生成创新性试题的能力,但其在专业领域的知识表示不足,生成的题目在专业性仍低于命题专家。

针对大模型专业领域知识欠缺的问题,本文建议大模型结合检索增强生成(Retrieval-Augmented Generation,简称RAG)作为智能命题的主要形式,检索增强生成是一种结合了信息检索和自然语言生成技术的方法。其工作原理在于,针对要回答的问题,模型先从大量的文本数据中检索出相关信息,并根据这些检索结果生成自然语言文本。这种结合旨在提高在需要最新或特定领域知识情况下试题生成的质量。

目前,智能命题定位于辅助命题,辅助专家快速高效命制高质量试题。下面以某省公务员考试考试客观题和主观题的命制为例说明如何利用生成式大模型辅助专家命题。以《行政职业能力测试》言语理解题为例,基于给定原试题内容、正确答案和改编要求进行试题改编。

在本例中展示主观题试题命制过程。

2.2 智能命题的挑战

考试命题是一项高度专业化的工作,命题必须遵循科学性原则,试题不能出现科学性错误,语言表述必须严谨规范,尽可能采用相应的学科语言。同时,在语法和标点的使用上也应该正确无误,按法定要求使用计量单位名称和符号。命题需要体现专业性和创新性。专业性要求试题能充分反映相关学科的核心知识和能力要求,确保学生能够通过答题展现出对专业知识的掌握程度和应用能力。创新性则要求试题在保持专业性的基础上,能够设计一些能充分体现科学研究方法、科学理论水平和科学精神等内容的试题。目前认知大模型在专业知识理解和创造方面与人类还存在一定的距离,这些严格的命题要求和原则对智能命题是非常大的挑战。

智能命题领域技术人员对于命题领域理论、试题理解缺乏专业性,导致命制题目质量参差不齐。1) 命题定义的模糊性:如何准确界定命题的范围和边界,避免定义过于宽泛或狭窄,是个重要的挑战。2) 命题的逻辑关系:处理试题本身语义的逻辑关系,如蕴含、矛盾、等价等,需要深入理解和运用逻辑学原理。3) 题目和整卷的关系:往往一套试卷体现了教学内容、考试大纲、考察能力之间的关系,试题类型、难易度及其比重都影响个人素质的考量。对于智能命题而言难以感知全局考察内容、侧重点、难易度等命题要素。4) 用户需求的复杂性:用户对于智能命题需求往往具有多样性和复杂性,如何准确理解和满足用户的需求,提高系统的用户体验和满意度,需要重点关注。5) 命题过程如何有效融合命题专家的经验:需要充分理解专家命题逻辑,评价生成试题是否满足领域专家对试题的高质量要求。

3、试评定标

3.1 试评工作背景

执业资格考试中主观题设置多采用有参考答案的主观题,考生作答内容范围相对有限,但由于考生水平差异,作答内容也存在多种表达形式。因此,对于主观题评阅而言,在正式评卷前,为了确保评卷的公正性和公平性,统一评卷员思想和评阅准则。需要在正式评卷前组织专家对试卷进行试评阅,了解考生的学情考情,制定合理的评卷规范,并用于正式评阅参考。试评有助于统一评分标准,提高评卷水平和一致性。试评阶段,智能评卷可以利用自然语言处理和深度学习算法的优势,对考生作答内容进行分析,包含常见答案聚类、正确解法抓取、典型错误提示等,辅助专家了解当批次考生作答情况,更好的扩充和调整参考答案,完善评分标准。除此之外,如果评卷工作需要进行智能评卷,则试评阶段还承担为智能模型提供训练样本的任务。试评阶段评卷专家少、试评卷数量少,因此试评的样本需要具备多样性和代表性。概括地讲,试评卷质量是试评工作有效性的重要因素之一,因此亟需引入智能抽样算法提高试评样本质量。

试评定标过程需要抽取有限数量的考生答案进行专家评阅定标,专家基于有限抽样的数据评阅确定覆盖全集考生的答案形式、评卷标准以及各知识点分值等。传统的抽样方式是等概率随机抽取,或者结合客观分值段等概率随机抽取,抽取样本具有随机性,缺乏针对性和代表性,没有考虑主观题作答本身内容的差异。在有限抽样约束下,传统的等概率随机抽样方法难以保证抽样得到的试评样本涵盖多样化的表述及困难样本。若定标样本集合中存在较多相似的冗余样本以及容易评阅的简单样本,则会影响试评效果。

3.2 试评抽样方法

文本类试题往往给定文字材料及考察专业知识的问题,使得考生作答会被限定在材料以及专业知识背景范围内,存在着较多相似的考生答案。有限抽样约束下传统等概率随机抽样方法存在以下缺陷:(1)试评样本中可能存在较多冗余或简单样本,对评阅模型的训练产生负面影响,造成评阅性能不稳定;(2)若试评样本中存在较多相似考生答案,会降低专家试评的作用。


本文提出基于语义特征分布的有限抽样方法,通过衡量考生答案的差异性和困难性进行有限抽样,提升专家试评的有效性,也可对之后评阅模型的训练产生积极影响,使得评阅性能更加稳定。

下面以某题为例说明基于语义特征分布的有限抽样和随机抽样的差异。实验过程中,在未评卷前,按照基于语义特征分布的有限抽样和随机抽样的方式各抽取100份样本;然后再利用评卷结果进行验证,借助T-SNE算法进行可视化分析。

上图采用浅层语义特征计算而来。图1(a)为基于语义特征分布的有限抽样结果,图1(b)为传统等概率随机抽样结果。传统等概率随机抽样结果存在样本类型遗漏和冗余抽样的情况,本文抽样方法通过衡量文本差异性,相比于传统抽样方法有效减少了冗余样本,且每个“圆形”密集区域均有采样从而维护了多样性。


上图是深层语义特征计算而来,深层语义空间中样本分布反映评阅样本的难易程度。上图中正确与错误样本混杂区域主要位于二维平面的上半部分以及右半部分,因为预训练评阅模型尚不能有效分辨样本类别,故位于该区域的样本具有较高困难性。本文抽样方法相比于传统抽样方法,在正确与错误样本混杂区域的抽样更加精准且多样化,更多的位于混杂区域的训练样本能够帮助评阅模型更好地确定分类边界,提升评阅性能。

在试评阶段,智能评分系统以专家试评样卷为学习样本,预测整体评分分布情况,对评分结果进行统计和分析,为考试机构提供有价值的反馈和建议。在某资格执业考试阅卷中,采用本文提出基于语义特征分布的有限抽样方法抽取定标集供专家进行试评。机器评阅模型在专家试评结果上进行学习,并对所有试卷进行评分,预测整体合格率在61.57%左右,最终实际合格率为61.4%,预估合格率与真实合格率基本相当,说明本文所提的抽样定标方法的有效性。

4、智能质检

人事考试评卷工作中,“人工双评+三评+仲裁”是常用的模式,即两个评卷员背靠背评阅同一份考生答卷,评阅分值超出阈值则由第三个评卷员评阅,第三个评卷员与前两个评卷员分值仍超出阈值,则该考生试卷有评卷专家进行仲裁。

人事考试中《申论》科目主要是以主观题的形式考察,特别是写作题,不同专业背景的考生,作答内容也是各有所长,差异较大。评卷专家大多是当次评卷工作临时组织起来的,并且评卷专家大多数不参与命题工作,对于试题的材料以及考察能力的侧重均有理解上的差异。人工评阅过程中,由于疲劳、主观判断等因素,容易出现评分失误的情况,评卷质量难以保持恒定。

采用人工智能技术开展评卷工作,智能评卷模型通过学习多位专家综合评定的差异化试卷,可以让模型具备专家级评阅水平,能够以恒定的模型参数,对当批次考生数据进行评阅,对于考生作答中大篇幅摘录题干材料、考生间雷同度较高的试卷可以有效检测出来。智能评卷技术的引入,作为第三方评价,对于评卷工作质量提升有良好的促进作用。

4.1 机器评分辅助质检

智能评分是人工智能技术在评卷工作中的重要应用。机器评分辅助质检是指通过机器评分与人工评分进行对比,对超出阈值的试卷进行专家质检,从而提高评卷质量。同时智能评分还被应用到评卷员质量控制中。每位评卷员的所有评分会与机器评分进行对比,如果某位评卷员存在较多的大分差异常卷,则由专家组抽检复审,如果复审发现人工评分存在较多问题,相应的评卷员则需要重新进行培训。

在某执业资格考试阅卷中,进行智能质检规模化应用和参与一评的试点应用。在智能质检应用中,智能质检代替普通抽检工作,相较往年质检工作量减少80%,筛选出约1.3万份大分差异常卷提交专家复核,整体修正率达到21.55%,部分题目修正率达到50%以上,下图是所有题目的修正率。


在参与一评的试点应用中,机器参与两道题目的评分,机器评分无效率仅为1.67%2.38%。下图展示了在第二个题目智能评分与人工评卷员的无效率对比情况,从下图可以看出,该题目有11位人工评卷员,智能评分的无效率处于前列,评卷能力优于普通评卷员水平。

然而,需要注意的是,虽然深度神经网络在智能评分中取得了显著进展,但仍存在一些挑战和限制。例如,模型的可解释性仍然是一个难题,使得人们难以完全理解模型是如何进行评分的。此外,模型的性能还受到训练数据的质量和数量的影响,需要不断进行优化和改进。

4.2 雷同质检

抄袭是考试中最常见的作弊手段之一,如何在评卷过程中检测抄袭是维护考试公正的一项重要手段。对于主观题,自然语言处理技术可以分析并比较考生答案的内容相似度。利用特征提取方法,如TF-IDF(词频-逆文档频率)、Word2VecDoc2Vec等,将文本内容映射到向量空间,在向量空间计算句子级别和篇章级别之间的相似度,快速实现比对。内容相似度质检已经应用到考生间雷同质检、范文套作质检和作文题干引用等质检工作,并取得良好的应用效果。

4.2.1 题干内容雷同质检

在作文评卷过程中,题干材料内容引用句子级别的检测是一项重要的环节。此检测旨在识别作文是否存在对题干内容的大量引用,从而确保评分的公正性和准确性。根据所提供的案例,可以看到,作文中疑似雷同的句子被下划线标出,并在“【】”内注明了被引用的句子。这种明显的标识有助于评卷老师快速定位到可能存在问题的地方,进行下一步的审查和判断。对于高分数段内的作文,如果题干引用率异常高,试卷会被提交到专家组进行复核。目前,作文题干引用检测已成为多项考试作文评卷中的必需环节。在某文职人员招聘考试中,应用了作文题干引用检测质检,共提交160份异常卷,经专家复核后,修正150份,修正率为93.75%


4.2.2 考生间作答雷同质检

考生间雷同检测是防止考生间抄袭的常用质检手段,利用人工智能技术可以自动化地比对大量答案,将同考场、同考点或给定范围的考生逐一完成两两间的雷同筛查,节省大量的时间和人力资源。


两者雷同检测结果,句子级相似度23.52%

人工智能在评卷中的应用已经实现了从试点到规模化的转变,并且随着技术的不断进步,未来其在评卷领域的应用有望进一步拓展和深化。

5、展望与结论

人工智能在人事考试与测评中的应用探索具有重要理论和实践意义。智能命题可以通过分析大量的数据来生成具有针对性和多样性的考题,甚至可以根据学生的学习进度和能力动态调整题目难度,实现个性化考试。智能评卷技术可以帮助评卷员更快更好地批改试卷,减少人为误差,提高评分的一致性和准确性。智能质检可以检测出考生大篇幅摘录、抄袭行为,确保考试评卷的公正性。同时,它还可以分析考试数据,提供关于考试质量的反馈,帮助考试管理机构改进考试设计和实施过程。人工智能技术的引入有助于帮助建立更加标准化和智能化的命题、考试、评卷环境,有助于提高考试管理的水平。

尽管人工智能技术在很多方面已经取得了显著进展,但在实际应用中仍需面对技术的局限性和不断出现的新问题。首先,数据安全和隐私保护是人工智能应用中的重要问题。在考试与测评过程中,涉及大量的个人信息和敏感数据,如何保障数据的安全性和隐私性是一个亟待解决的问题。智能评分可能会引发关于考试公平性的讨论,如何确保智能评分的公正性和透明性是一个重要议题。

人工智能技术在人事考试与测评领域的普及需要时间,考试管理机构、教育工作者和考生对新技术的接受和适应也需要过程。随着人工智能技术的应用越来越广泛,如何制定相应的监管政策和行业标准是一个挑战。

总之,人工智能技术在人事考试与测评领域具有巨大的潜力,但同时也需要克服技术、法律和伦理等方面的挑战,才能实现其在该领域的广泛应用和深入发展。

来源:《中国人事科学》