给1193万高考生阅卷,太费老师了

本文系本站沸点工作室《硬核看板》栏目(公众号:yinghekb)出品。

2022年高考已经全部结束,今年全国共有1193万考生奔赴高考战场,这意味着将产生至少4000万份试卷。

而纵观各地评卷时间,却普遍在半个月以内。

要在如此之短的时间里完成繁重的评卷任务,早就不能靠阅卷老师的“单打独斗”。

如今,有更多“阅卷机器”加入到高考阅卷中来,甚至人工智能也有参与。

高考阅卷机器,是如何进行打分的?它如何做到公平公正?

01 高考阅卷1.0时代

从考试制度出现那天起,它就被人们视为公平竞争、改变人生命运的机会。

不管是科举阅卷时的糊名制度——把考卷上考生的姓名、籍贯、家世等内容密封起来;

还是誊录制度——为了避免根据笔迹或事先商量好的记号辨认考生身份,需要把考生的试卷另行誊录后再交给考官评阅。

为了排除徇私舞弊的可能性,最大程度追求公平公正,人们在阅卷系统上的用心便可见一斑。

而到了1977年,重新恢复的高考对那一年全国570万名仓促报名的考生来说,无异于一场命运的鏖战。

来源:人民网

彼时保密意识和阅卷制度都尚不完善,经过基础信息遮挡、简单装订的试卷被装进密封袋,送到阅卷组。

一张张经过阅卷老师亲自批阅、核分的答卷,最终将27万名新生送进了梦寐以求的大学校园。

据高考恢复首年阅卷人回忆,能否做到公平阅卷,大部分时候全凭自己的责任感和良心。

来源:合肥在线

这样的阅卷模式很快就迎来了挑战。

次年,全国首次实施统一命题,分省录取,这让之后每年百万、千万级别考卷的评分,成了人工阅卷组要打的一场硬仗。

阅卷老师要完成大量试卷的流水批改工作,尽管负担极重,但为了保证公平,谁都不敢马虎。

20世纪90年代之前,我国的高考判卷一直由评卷员手工完成,包括试卷的运输、装订、分发、评阅、复核等。

邓铁如教授在他的《高考阅卷追忆》介绍道,评卷员按流水作业,每个考题组只批改一题。每一题需经两道手, 一批、一核。

阅卷程序上的繁琐,也直接让效率低下成了人工阅卷模式的硬伤。

再加上命题多使用主观性题型,评卷员评分时主观性大,导致有时出现较大的评分误差,难以形成模式的阅卷结果,人们亟待一个更高效和标准化的阅卷制度来服务于高考。

02 神秘的“高考阅卷组”

将阅卷老师从繁重工作中“解救”出来的曙光,出现在1985年。

这一年,出台了一系列高考政策和试验方案,被认为是我国高考改革真正全面展开的开端,推进标准化考试就是其中一项主要政策措施。

标准化考试是一种具有统一标准、按照系统的科学程序组织并对误差做了严格控制的考试,实现了命题标准化、考务标准化和分数标准化。

1985年,广东省开始试行英语、数学两个科目标准化考试。次年,广东、山东、辽宁、广西联合试验高考标准化考试,1987年有7省份参与试验,到1988年,已经扩展到16省份参加试验。

同年,国家教育部门颁发了《普通高等学校招生全国统一考试标准化实施规划》,规定从1991年起所有高考科目实行标准化考试。

对很多人来说,标准化考试并不陌生。试卷被分成了两部分,一部分是选择题,答案写在特制的答题卡上;另一部分是主观题,答案写在试卷上。

标准化考试意味着有标准化答案,而答题卡上的客观题可以直接由计算机扫描阅卷计分,阅卷人只需要负责主观题的阅卷评分即可,最后将两者相加,即是考生该科考试的成绩。

当时,《人民日报》称其为“我国自隋唐以来考试方法和阅卷手段的一个重大改革”。

标准化考试就导致了对高效阅卷设备的需求。

早在1986年,国家教委便拨款委托山东大学研制光标阅读机,1988年底山东大学成功研制了第一台国产光标阅读机(Optical Mark Reader,即OMR)。

来源:李永乐老师

光标阅读机采用光电转换的原理,对答题卡上的涂写信息进行识别,当红外发光管照射到答题卡上的信息点时,根据信息位置的涂写情况产生了光的反射、透射和漫散射等现象。

当信息点有铅笔涂写时,发射光将被碳素吸收,反射光很弱,反之反射光较强。反射的光由光敏管接受,再通过光电变换将光信号转换成电信号输入计算机中,即可识别信息。

相对于人工阅卷,光标阅读机的优势不仅体现在极快的速度上,更重要的是极高的准确率。

它每秒钟可以处理一千多个信息点,对答题卡的阅读速度已达5000张/小时,对涂点的识别误码率小于五百万分之一。如此快速、准确的信息输入、处理功能,已经远远将人工甩在身后。

但是,传统OMR对信息填涂卡的填写方式非常单一,只能填涂矩形框,填写方式也有着严格限制。必须“准”、“深”、“满”、“匀”、“净”。

信息位的位置一定要涂准、色度要涂深、矩形框要涂满、颜色的深浅要基本一致,此外,保持信息卡的洁净也十分重要,折痕、墨点、污物都可能产生误识别现象。而这些bug的存在,也成了不少同学的考试噩梦。

1997年,山东大学在光标阅读机的基础上,又研发了一套阅卷系统,用扫描仪把考生的全部答题内容上传到电脑,使阅卷老师不用再接触试卷,实现网上阅卷。

来源:山大鸥玛

1999年高考,广西率先在英语试卷上进行了网上阅卷的尝试,将考生答卷和试卷分离,把答卷全部扫描到电子计算机上。

主观题评卷由两位教师在计算机上同时进行,在两位教师所打分数之间差距不超过规定标准分的情况下,计算机按两人所打分数的平均值计分。

如误差超过标准分,计算机自动将该试卷传给第三位教师评分,然后采用第三位教师所打分数与前两位教师所打分数中相近的相加,取平均值作为该试卷分值。

2002年,全国相继有13个省市地区在相应的考试中实施了网上阅卷,到2005年达到了17个,无纸化阅卷模式已经开始被全国的考生和教师所熟悉。

到了2012年,全国各省区市首次全部采用网上评卷,传统的阅卷方式已退出历史舞台。网上评卷使用了高速扫描仪,平均一秒钟可以实现3份试卷的双面扫描,同时还能实现对选择题选项的填涂识别和非选择题答题内容的图像切分和存储。

来源:山大鸥玛

网上阅卷比起传统的手工阅卷,能有效控制主观题,特别是像作文和论述题的评分误差。

因为在整个阅卷过程中,阅卷老师在评分时都看不到其他老师对同一份试卷的评分情况,这样就有效地防止了传统阅卷方式中阅卷老师之间的相互影响。

但机器依然作为辅助角色存在于高考阅卷中,由无数真人教师组成的“高考阅卷组”依然是主力。

只不过曾经是每天面对逾千份试卷翻来翻去,现在变成了坐在电脑前点鼠标、敲键盘的动作。

03 AI阅卷能否带来公平

残酷的事实是,现阶段的无论何种程度的“人机配合”阅卷模式,都无法避免对人力的巨大损耗。

因为机器阅卷在主观题上总显得“水土不服”。

比如主观题中最经典的作文,就涉及很复杂的自然语言问题,其中涵盖的语法、语义、词汇、句法等,只能由真人上阵判定。

而“如何让机器理解主观题”也就成了人们探索的方向。

天眼查专业版数据显示,我国已申请的680余件阅卷相关专利中,有超200件阅卷相关专利与电子阅卷或智能阅卷有关。

比如广西师范大学为了提高主观题自动阅卷的准确性,申请了“一种基于领域本体的高准确率主观题计算机自动阅卷方法”专利作为一种尝试。

来源:天眼查

2017年,阿里在全球范围内首次将AI应用到试卷批改上。

在浙江外国语学院的一次考试中,阿里AI精确地圈出外国留学生们的多词、缺词、错词和词序错误等错误位置,完成了对作文的批改,据称在准确率和细致程度都是接近甚至超乎人类的水平。

同年6月的安徽高考阅卷中,讯飞人工智能阅卷系统对考生的语文作文和英语作文进行后台离线智能评分。85万份试卷的识别转写、智能评分到提交结果,仅用5天时间完成。

2018年讯飞与安徽教育考试院再度合作,系统直接发现了语文作文237份高相似度异常作答情况,英语作文2557份高相似度异常作答情况等,阅卷组随后快速反应做出判定。

如此一来,人工智能阅卷系统的应用,便把人的优势和机器的优势都发挥到了最大。

尽管智能阅卷被认为是解决当前大规模阅卷最有效的方式,但距离“机智”代替“人智”独立阅卷,还有很长的路要走。

无法避免的算法误差、多课目多题型的精准评分尚未成型,以及复杂综合性情景的处理模式存在争议等,都是AI无法逾越人脑的天然缺陷。

但人工阅卷一直以来主观性上的缺陷,却也因为机器的介入,实实在在得到了改善。

或许“绝对公平”根本不存在,但努力实现公平依旧是教育工作者们的坚持。

如今人工阅卷的主观能动性和机器阅卷的客观独立性之间的互相拉扯,对于广大考生来说,或许是目前的最优解。

搜索关注硬核看板微信公众号(ID:yinghekb),让硬核的知识先发声。