行业动态

《中国考试》:智能评分技术应用效果的评价研究

 

0 引言

人工智能技术是引领新一轮科技革命和产业变革的重要驱动力。国家高度重视人工智能在教育领域的应用,积极推动人工智能与教育的深度融合。作为人工智能技术的主要研究方向,考试测评智能评分是一项重要课题。近年来,我国在考试评分信息化方面取得了长足进步,人工智能在考试测评领域的应用越来越广泛。然而,社会对智能评分的接受度还比较低,不少人认为机器目前还无法对主观题进行准确评阅,视其为一种不可信的评分方法。智能评分精度测量指标的不完善加剧了这种偏见认知。因此,需要加强对评分模型质量的评价,建立科学的评分结果评价方案。本研究立足于实际考试评分场景,系统研究了智能评分结果的评价指标,提出了一套智能评分准确性评价方案,以期对智能评分的客观性和公平性进行评价。

1 研究综述

综合国内外研究,当前考试场景下智能评分可归纳为如下3 类:作文类智能评分、英语口语智能评分和短文本主观题智能评分。

作文智能评分始于 20 世纪 60 年代,以英文作文自动评分系统(Project Essay Grade,PEG)为开端,逐步从手动浅层文本特征发展到以深度学习为主的深层语义特征评分方法。相较于国外,中文作文智能评分起步较晚。周鹏飞对基于深度学习的汉语作文评分进行了研究与应用,将中文BERT 预训练语言模型引入到汉语自动评分任务中,构建高性能评分模型。李琳等基于 BERT 的汉语水平考试作文自动评分方法,对模型网络结构、池化策略和学习率进行了测试优化。周险兵研究了一种基于异构网络融合的作文自动评分方法,利用语义压缩的形式融合不同结构神经网络所提取的语义信息,使用融合语义对作文进行评分。

英语口语智能评分最早研究可以追溯到 20 世纪90 年代初,通过语音识别和语音分析,对英语学习者的发音进行评估和训练。在国内,吕鸣对智能测评技术在大规模英语口语考试评分应用进行了探索。孙海洋等对英语口语机器评分和人工评分进行了对比研究,发现不同任务中机器评分具有明显的偏差,机器对朗读的评分偏高,对复述的评分偏低,对口头作文评分则较为准确。李心广等提出一种面向语句的汉英口语翻译自动评分方法,选取语义关键词、句子大意和口语流利度作为评分的主要参数,综合 3 种参量加权评分,得到最后翻译质量的评分。金艳对大学英语四级口语考试自动评分效度进行研究,指出人机评分具有较好的相关性和等级一致性,但机评分数的离散度略低于人工评分;机器对语言准确性以及内容的相关性和丰富度特征比较敏感,但对语音、策略等区分能力较差。

相较作文自动评分和英语口语自动评测技术,短文本主观题智能评分技术起步较晚,缘于基于浅层文本特征方法无法准确计算短文本相似度,直至深度学习的出现,短文本主观题的智能评分方法才逐渐发展起来并应用于实践。谭红叶等提出一种基于代表性答案选择与注意力机制的短文本智能评分方法,首先基于聚类与最大相似度方法选择代表性考生答案,构建更完备的参考答案,然后通过注意力机制测量考生答案与参考答案的匹配程度,实现短文本主观题智能评分。王冲研究了基于图神经网络的短文本主观题智能评分方法,该方法利用图卷积神经网络对所有学生答案构成的异质文本图进行编码,聚集所有节点和边的信息,基于图表示方法对学生答案的分数进行预测。肖国亮等提出一种基于领域预训练的孪生网络智能评分方法,该方法首先采用大量领域数据进行模型预训练,提升模型的领域适应性,然后采用孪生网络实现短文本主观题智能评分。

在考试场景智能评分应用方面,何屹松等探索了人工智能评测技术在大规模中文和英文作文阅卷中的应用,研究结果展现出智能评分在准确性和效率方面的优势。朱汝光等对人工智能在大规模英语听说考试中的应用进行研究,在某市中考听说考试评分中进行了实质性应用,取得了良好的效果。符耀章等就人工智能网上评分技术进行探究,对部分科目填空题、作文题、简答题等题型进行了探索性试验,结果表明人工智能评分结果与人工评分结果具有高度一致性,质量检测成效明显。

从以上对智能评分技术现状和应用的概述看,虽然智能评分在技术和应用方面均取得较大进展,但尚未进入规模实用阶段,智能评分更多是作为评分质检工作的辅助手段。探索应用表明,智能评分具有一定的技术优势,能够在一定程度上提高评分质量和维护考试公平公正,减少人工评分的误差。目前,社会对智能评分的接受度相对较低,主要是因为对其参与主观题阅卷的准确性、客观性和公平性心存疑虑,这与智能评分计算过程的不可解释性和智能评分准确度衡量指标不够完善有很大关系,因此,必须加强对评分模型质量的评估,建立科学的评分结果的评价方案。

2 研究框架与评价指标

考试智能评分是一个系统工程,涉及多方面内容。本研究着重研究智能评分准确性评价方案,对智能评分结果评价指标进行定义、归类和规范,并通过实际案例说明如何应用评价指标,对智能评分结果准确性进行评估。本研究对智能评分研究和应用的整体架构见图1。

整体框架包含5 大部分:1)数据层,解决智能评分所需专业领域数据问题,研究多源数据清洗、整合、加工等,为智能评分提供数据支撑;2)算法层,研究专业领域自然语言处理基础算法,找到适合考试测评领域的智能评分算法,为不同领域、不同题型提供人工智能评分模型;3)应用层,研究智能评分系统与平台,设计不同考试项目中智能评分的应用方案;4)标准规范,研究智能评分在实际考试中的实施规范,智能评分系统与既有考试评分系统的协同工作规范等;5)应用评价,研究智能评分应用效果的评价方案,包含准确性评价方案和安全性评价方案,研究如何利用评价结果改善智能评分算法和系统。本研究重点探讨智能评分应用效果的准确性评价方案。

智能评分准确性问题主要检验模型是否能准确评分,常用评价指标是一致率和相关性 。除此之外,人机绝对分差、平均分差、标准差等指标也可用来评判机器评分结果的有效性。但以往研究很少系统化地对这些指标进行明确定义、分类和深度挖掘。在经过考试测评领域多次大规模验证和应用及相关数据分析工作后,本研究将智能评分的准确性评价指标,归纳分为面向机器学习专家的指标和面向领域评分专家的指标。面向机器学习专家的指标侧重于从概率与统计意义上的数值特征和分布方面,以机器学习的角度对机器评分结果进行评价;面向领域评分专家的指标则结合网上评分统计测量的既有指标,从阅卷质量角度对机器评分结果进行评价。两类指标共同为考试管理者和评分专家提供决策支撑。

为准确理解下文各指标的含义,对目前常用的网上评分模式简要介绍。根据《国家教育考试网上评卷统计测量暂行规范》,控制人工评分误差的重要措施是双评模式。在双评模式中,两位评分员独立评分,评分完成后系统对评分结果进行比较判断,双评分数之差称为双评差值,所允许存在的极限差称为双评差值阈限;当双评差值小于等于阈限时,系统以两位评分员评分的平均值作为最终得分;当双评差值大于双评差值阈限时,答卷分发给第三位评分员进行评分;若第三位评分员评分与其中一位评分员的评分在双评差值阈限内,则将这两位评分员所评分值的平均值作为最终分;若第三位评分员评分与前两位评分员的评分均超过双评差值阈限,则将答卷发给学科组长或专家仲裁评分。

2.1面向机器学习专家的指标

面向机器学习专家的指标从机器评分的正确率和人机评分一致性构建评价方案,每个指标的侧重点不同,同时又互相联系和补充,需要根据实际情况做出选择。

1)机器评分正确率

机器评分正确率是指机器评分正确的数量与机器总评分数的比值。在主观题评分中,受评分人员的认知、经验等主观因素的影响,评分结果可能存在误差。在计算机器评分正确率时,应采用专家评分结果或人工双评一致的评分结果作为判断标准,以准确体现机器评分的正确性。面对于主观性特别强的题目,比如作文题目,则不适用此指标。

2)相关系数

机器评分与人工评分相关系数是机器评分是否可信的一个指标,能够反映机器评分和人工评分的近似性,其值介于-1~1,分值越高表明两组评分趋势越高,“1”表示两个评分完全一致。相关系数有多种定义方式,本研究采用皮尔逊相关系数作为机器评分与人工评分相关性的测量指标。由于皮尔逊相关系数具有平移不变性和尺度不变性,相关系数无法反映模型的系统性偏差,因此,仅使用相关系数无法体现机器评分准确性。

显然,相关系数越高说明智能评分的准确性越高,但不同的主观题题目的相关系数可能存在较大的差异,应采用人工评分相关系数作为参考。

3)二次加权Kappa 系数

二次加权Kappa 系数是衡量分类精度的指标,常用于作文自动评分评价中。二次加权 Kappa 系数的值介于 0~1,具体可分为 5 组表示不同级别的一致性,其值越小说明机器评分与人工评分一致性越差;反之,则评分一致性越强。

4)评分分布

评分分布直方图能够直观反映数据分布的形状、中心位置及数据的离散程度等,可直观反映机器评分是否存在偏差,辅以评分数据的峰度和偏态,可比较机器评分与人工评分的一致性。峰度是评分趋中性的一个衡量指标,若评分数据为正态分布,则峰度为 0,峰度越大,说明评分趋中性越强。除此之外,本研究还提出累计评分分布图,先对评分数据进行排序,再进行人数累加,从累计评分分布图可以清楚观察机器评分的偏移,尤其是机器评分在高分段的评分情况。图 2 是评分分布直方图和累计评分分布图,可直观反映机器评分和人工评分的差异。

5)机器评分系统性偏差:评分平均值和评分标准差

评分平均值反映一批试卷中某题评分的平均水平,评分标准差反映一批试卷中某题评分的离散程度或个别差异程度。仅从评分平均值和评分标准差的绝对数值上难以有效评估模型的准确性,须辅以人工评分作为参考。比较评分平均值和评分标准差可使用统计图。以评分平均值为例,说明如何使用评分平均值评判模型的可信度,见图3。在图3 中,圆形散点是每一位评分员的评分平均值,与横轴平行的点线(标记线A)为所有评分员评分平均值的平均值,与横轴平行的实线(标记线 B)为最终评分的平均值;利用所有评分员的评分平均值,可计算出评分员评分平均值的标准差,利用最终评分的平均值和评分员评分平均值的标准差,可计算出评分平均值上限(标记线C)和评分平均值下限(标记线D)。原则上,机器评分平均值与最终评分平均值越接近越好,但当机器评分与人工评分存在偏差时,需要依据偏差量判断模型的可信度。本研究选择一个标准差作为极限阈值,若机器评分平均值(与横轴平行的标记线 E)在评分平均值上限和评分平均值下限以内,表明模型评分无显著性偏差;反之,模型评分不可信。对于机器评分标准差的评价也可采用上述评价方案。

以上指标既有联系又相区别,应用时需要根据实际情况进行选择。如当对智能评分的趋中性进行研究时,仅采用正确率、相关系数是无法体现出趋中性的,此时需要统计机器评分的方差、评分分布直方图、峰度和偏态。

一般情况机器评分正确率越高,机器评分和人工评分的一致性越好,但高正确率和一致率并不一定代表智能评分是准确的。智能评分准确与否取决于智能评分的应用目的。如在选拔类考试中,需要对高分段的人工评分进行质检,但一般情况下高分考生比例比较小,此时即使整体正确率非常高,高分段的正确率也可能比较低,需要按分数进行分段统计。

2.2面向领域评分专家的指标

面向领域评分专家的指标与面向机器学习专家的指标是相互联系的,二者并非独立;面向领域评分专家的指标更倾向于使用网上评卷统计测量相关术语进行阐述。

1)一致率

由于人工评分具有一定的主观性,即便是机器评分与人工评分是相同的,也不能说明机器评分是正确的;因此,大部分研究将机器评分与人工评分的相同比率称为一致率,用以评价机器评分与人工评分的一致性程度。在分值较大的主观题中,人机一致率可能较低,此时,人机一致率并没有参考价值;因此,评分实践中延伸出阈值内一致率,如1 分阈值内一致率,当双评分差不大于 1 分时便认为两个评分是一致的。显然,一致率越高说明智能评分的准确性越高;但不同的主观题,由于评阅难度不同,其一致率可能存在较大差异;因此,需要与人工评分的一致率进行对照,对比分析才能准确评价模型的评分精度。假设某评分模型M 对两个题目进行机器评分,评分一致率如表 1 所示,机器评分与最终评分在题目 A 和题目B 上的1 分阈值内一致率分别为82.23%和48.93%。如果仅从绝对数值上观察,将会得出评分模型M 对题目A 具有更高的评分精度的论断。然而,如果与人工双评一致率进行对比则会发现,机器评分在题目B 上超过人工评分一致率,而在题目A 上则低于人工评分一致率,评分模型 M 实际上对题目B 具有更高的评分精度。如果机器评分与最终评分在规定的阈值内一致率明显低于人工双评,则表明机器评分存在显著性偏差,评分结果不可信,不可采纳。

2)人机三评率

在双评阅卷模式中,两位评分员评分大于双评差值阈限的比率称为三评率。三评率是评价阅卷质量的一个重要指标。拓展三评率的概念,机器评分与人工评分大于双评差值阈限的比率称为人机三评率。在不同的应用场景中,人机三评率的计算方式略有不同。当机器评分用于一评,即人工双评其中一评被替换为机器评分时,人机三评率的计算对象为机器评分和另一位评卷员的评分;当机器评分应用到辅助质检时,人机三评率的计算对象为机器评分和人工最终得分。人机三评率的评价应以人工评分三评率作为参考,原则上人机三评率不应高于人工三评率,若人机三评率显著高于人工三评率,则说明机器评分可信度较低,不可采纳。

3)机器评分有效率

当人工双评中一评被替换为机器评分时,若双评差值未超过差值阈限时,则机器评分是有效的;若出现3 评,由第三个评分员或者专家进行仲裁评分时,如果终评分与机器评分未超过双评差值阈限,则机器评分是有效的。机器评分有效率指有效的机器评分数量与总的评分量之比。机器评分有效率不应低于人工评分有效率的平均值。机器评分有效率是机器评分参与其中一评时的重要评价指标。

4)质检修正率

当利用机器评分进行辅助质检时,需与人工评分进行分差对比,若分差大于规定的阈限,则称为大分差质检卷。大分差质检卷将由专家组进行质检复核,质检后分数发生变化的数量与总质检量之比称为质检修正率。质检修正率体现了利用机器评分进行人工误评试题筛选的准确率,质检修正率越高,说明筛选出的质检卷中人工误评的比率越大。

5)质检机器评分采纳率

由评卷专家完成大分差质检后,修正后评分与机器评分在双评阈限内,则视为机器评分被采纳为最终得分,被采纳的机器评分数量占总质检数量的比值,称为质检机器评分采纳率。质检机器评分采纳率体现了当机器评分与人工评分存在较大差异时,机器评分正确的概率,质检机器评分采纳率越高,说明智能评分模型越准确。辅助质检是目前智能评分在考试评分场景中最为常见的应用形式,质检修正率和质检采纳率是辅助质检任务中进行智能评分模型评价最主要的评价指标。优秀的智能评分模型应具有比较高的质检修正率和质检机器评分采纳率。

面向机器学习专家的指标和面向领域评分专家的指标并非对立或无关的,二者是有相互联系和交叉的,但是其侧重点和相关术语是有区别的。由于不同的考试以及不同的科目对考试评卷有不同的评分规则,同时机器评分过程涉及复杂的数据处理和模型训练,因此找到完全正确且全面的评价指标是非常困难的。上述指标需要根据实际情况进行组合使用,必要时将它们组合成一个综合性的评价指标。不同的评价指标具有不同的优点和缺点,在选择评价指标时,需要权衡不同因素并考虑其实际应用。

采用有限的指标对机器评分进行评价,一方面可以减少人们对智能评分的偏见。过去,一些人认为机器无法进行主观题的评阅,而将智能评分视为一种不可信的评分方法,然而,随着科技的不断进步和发展,越来越多的研究表明机器评分可以与人类评分结果相媲美,甚至超过人类评分。另一方面,希望通过评价指标验证机器评分是否还存在潜在问题,确保其准确性。多种评价指标有助于人们更深入了解和评估智能评分系统的性能和可靠性,从而更好地将智能评分技术应用于各个领域的考试评卷中。

3 应用案例分析

以某年度文职人员招录考试智能评分工作为应用案例,说明如何采用本研究提出的指标对智能评分结果进行评价。本次实验在4 个科目共 8 个主观题上进行了测试,应用题目均为中长文本答案,除了英文题目,其他题目均具有比较强的主观性,评分难度大,题目详情如下。

实验采用的智能评分服务平台包含网评系统、智能评分系统和辅助数据系统。为保障数据安全,智能评分系统与网评系统通过辅助数据平台进行数据交换,辅助数据平台负责数据脱敏、数据权限控制、数据监控和备份。智能评阅系统则包含应用层、服务层和模型层。应用层提供交互界面,负责对接数据辅助平台,获取考试答卷数据和专家评阅数据;服务层负责各类任务管理和资源调度,具体包含模型训练任务管理、预测任务管理和质检任务管理;模型层负责各类智能评分模型管理,具体包括模型参数配置、模型注册、模型验证和模型监控等。

智能评分实施主要包括数据准备、数据定标、模型训练、智能评分和分差质检 5 个主要阶段,具体步骤见表3。

由于不同题型评分规则和文本特点存在差异,单一模型可能无法满足所有题型的要求,因此,本研究针对不同题型采用了不同模型。

1)论述类题型,包含汉语言文学赏析题,新闻分析题、评论题,管理学案例分析题、综合应用题。论述类题型需要较强的专业文本理解能力和逻辑分析能力,采用基于预训练语言模型的评分模型。评分模型首先在专业领域进行领域适应性预训练,再进行评分任务微调训练。

2)作文题型,包含汉语言文学创作题。针对作文题型文本长、评分维度多的特点,采用多维度作文评分模型。

3)翻译题型,包含英语英译汉题、汉译英题。翻译类题型具有较为明确的得分要求和评分规则,采用基于预训练语言模型和互注意力机制的评分模型,通过互注意力机制建立考生答案与参考答案得分点上的匹配。

在模型评估环节,对本研究提出的指标进行了统计。表 4 是三评率和一致率统计结果,从表可以看出机器评分与最终评分的一致率高于人工双评一致率,所有题目平均人机三评率为 2.13%,平均人工三评率为 4.00%,人机三评率低人工三评率 1.87 个百分点;1 分阈值内平均人机一致率为 77.74%,高于人工三评率 7.17 个百分点,2 分阈值内平均人机一致率为95.59%,高于人工三评率3.65 个百分点。表5 是相关系数和二次加权Kappa 系数统计结果,机器评分和最终评分的相关均高于人工双评。从三评率、一致率和相关系数上可以看到,机器评分的一个重要优势是其评分一致性和稳定性较高。

表6 是机器评分和人工评分的平均值和标准差的统计结果。仅从统计结果较难评价机器评分的质量,具体需要结合本研究提到的统计对比图,才能分析出机器评分的质量。图 4 展示了新闻评论题的评分平均值和评分标准差对比图,从图中可以看到,该题目机器评分的标准差低于下限,说明机器评分较人工评分过于集中,出现了趋中性问题。从图5 评分分布直方图中更体现出此问题,评分过于集中在 10 分值附近,此时人工评分的峰度为2.03,而机器评分峰度为3.34,峰度越高说明趋中性问题越严重。除新闻评论题之外,其余各题机器评分的平均值和标准差都在要求范围之内。

在辅助质检阶段,4 个科目共提交1 610 份人工评分大分差质检卷,统计结果见表7,其中质检修正 647 份,修正率总体达到40.19%,大分差质检中机器评分采纳率为30.68%,有效修正了人工评分结果,提高了评分质量。

4 结论及展望

本研究重点对智能评分应用效果的准确性评价展开研究,对智能评分的已有研究成果进行梳理、分类和总结,提出面向机器学习专家和面向领域评分专家的评价指标,对各种指标的适用情形和应用方法做了介绍,形成一套智能评分模型评分结果的综合评价方案。面向机器学习专家的评价指标,可采用正确率、相关系数、二次加权Kappa 系数、评分分布、评分平均值和评分标准差等指标评估模型的评分质量;面向领域评分专家的评价指标,注重了对评分规则的合理性和适用性的考虑,可采用一致率、人机三评率、机器评分有效率、质检修正率和采纳率等指标评估模型的评分质量。在某年度军队文职人员招录考试智能评分工作中,采用本研究所提的评价指标对智能评分结果进行了评价,得出机器评分的一致性和稳定性均高于人工评分的初步结论;同时,通过质检修正率和质检采纳率评价智能评分在辅助质检中的应用效果,将以往对智能评分应用效果的定性评价转向定量评价。

随着智能评分逐步应用于实际阅卷工作,智能评分研究在未来将会获得越来越多的关注。首先,智能评分安全性问题将成为研究重点,一方面要积极探索新的技术和方法,研究更加先进的模型安全防护技术,提高智能评分模型的鲁棒性和抗攻击性;另一方面要建立智能评分模型安全性测试和评价方案,评估和比较不同模型的安全性。其次,需进一步研究智能评分统一的标准和规范,实现数据标准化、系统标准化和工作流程标准化。最后,近期生成式大语言模型在人工智能应用领域产生了较大的影响,以 ChatGPT 为代表的大型语言模型,在人工智能主观题阅卷方面可能会带来一些新的变化。由于ChatGPT 具有强大的语言理解和生成能力,能够处理不同类型和风格的回答,有助于更准确评估学生的知识和思维能力。大语言模型将会为主观题机器评分带来新的评分范式,但还需要仔细考虑数据质量、主观性挑战以及模型改进的机制。

来源:《中国考试》