首页 / 纵览天下 / 正文
开学季美国服务两万所学校的AI阅卷系统遭质疑,智能评分系统问题频发

Time:2025年04月02日 Read:4 评论:0 作者:haiwenboyue

开学季,美国有一款 AI 阅卷系统。这款系统号称能服务两万所学校,却遭到了质疑。学生们只要能够借助系统的漏洞,输入相应的关键词,即便这些关键词之间没有关联,也能够轻易地获得高分。

随着人工智能不断发展,许多教育 App 都运用了智能评分系统。这个评分系统阅卷速度很快,能够及时给出分数,因此受到了不少师生的喜爱。然而,与此同时,也有很多家长对智能评分系统进行吐槽。比如英语跟读 App 的评分系统,有时候即便让拥有英语专业八级水平的人来测试,其得分也只有 80 分。

人工智能除了应用于英语口语的智能评分系统之外,还被应用于判卷。然而,这种智能阅卷系统偶尔会出现“翻车”的情况。据报道,在开学季,有一款宣称服务于美国两万所学校的 AI 阅卷系统遭到了质疑,学生们利用它的漏洞,即便“裸考”也能轻易及格。该系统只是通过关键词进行评分,所以被学生们钻了空子。只要学生们输入相应关键词,即便几个关键词之间没有关系,他们也能顺利过关,甚至还能获得高分。

阅卷前需先设定评判标准

天津大学智能与计算学部教授、博士生导师熊德意介绍,自动测评打分系统通常需先设定评测的标准,接着依据设定的标准来设计合适的评测算法与模型。例如在口语测评打分方面,需要机器评判人的发音是否标准,所读句子的重音是否正确,读出的语句是否连贯流畅以及连读部分是否准确等。

AI 阅卷系统涉及对语言文字的评判,它涵盖诸多方面,像语法方面、语义方面等,并且会大量运用自然语言处理技术。

自然语言处理技术是人工智能的重要分支之一。它致力于利用计算机对自然语言进行智能化处理。基础的自然语言处理技术主要是围绕语言的不同层级来展开的。这些层级包括音位,也就是语言的发音模式。还包括形态,即字、字母构成单词以及单词的形态变化。还有词汇,涉及单词之间的关系。以及句法,关乎单词如何形成句子。还有语义,指的是语言表述所对应的意思。还有语用,是不同语境中的语义解释。最后还有篇章,即句子如何组合成段落。熊德意强调,这些基本的自然语言处理技术常被应用于下游的多种自然语言处理任务,像机器翻译、对话、问答、文档摘要等。自动阅卷中的语言文字评测通常会涉及这 7 个层级中的若干层。

设计自动评测指标的方法有好几种。一般会依据不同的评判类型来挑选合适的方法。例如,阅卷系统要是要对翻译题进行自动评判的话,就可以让老师提前写好多个参考译文答案,接着把学生的答案与参考答案进行对比,算出它们的相似度,以此作为学生答案好坏的评测指标。熊德意举例表明,机器翻译通常会用到一种评测指标,即 BLEU,这个指标是依据参考译文与机器译文之间的 N -(N 元)匹配度来计算相似度的。

学单词的_学英语单词怎么写的_学习的单词怎么写

一个单词为一元,两个相连的单词构成二元,此外还有三元、四元。若答案中的一个单词与参考答案中的单词相同,就会得到一元评分。同理,可计算二元、三元、四元的评分。研究人员给不同元设定不同权重,接着将得分进行统筹,使其变为一个客观值,得分越高,表明两者之间的相似性越高。

不同AI评分系统结果相差甚远

此次 AI 阅卷系统“翻车”的原因是一位美国历史系教授的儿子参加历史考试,成绩仅为 50%。她对儿子的答案进行评测后,认为孩子的回答基本没问题。

同样的答案,人工评价和机器评价为何有如此大的出入?

这是基于 AI 算法的自动评测所面临的最大挑战,即如何与人工评价达成一致。要应对这个挑战,需要解决诸多问题。如何制定恰当的评测标准呢?主观题进行自动评测必须具备合适的评测标准和规范。如何应对语言的变幻莫测呢?语言的多样性是自然语言处理技术的主要挑战之一,语言的自动测评和自动处理都需面对多样性的挑战。如何设计一个全面的评测指标呢?尽管目前有各式各样的指标,但很少有指标能综合考量语言文字的各个方面,像作文自动阅卷,可能要考量用词是否恰当(词汇)、句子是否通顺(句法)、段落组织是否有序(篇章)、内容是否紧扣主题(语义、语用)等。熊德意表示,上述提到的 BLEU 仅仅将关注点放在了单词形式的严格匹配上,而并未对单词的形态变化、语义相似性以及译文的句法合理性等因素予以考虑。

评测规则不同,评判出发点也不同,相应的算法模型就不一样,所以最后的结果会相差甚远,熊德意说。

因此仅用一种评测方法肯定是不全面的。这能解释为何孩子的母亲在答案里加入“财富、商队、中国、印度”等题目中的关键词时,即便这些关键词毫无串联,她仍得了满分。熊德意解释说:“或许这个 AI 阅卷系统仅使用了简单的关键词匹配,所以会出现‘关键词沙拉’也能蒙混过关的情形。”

此外,口语的人工测评与机器测评有较大差别。近年来,语音识别性能在深度学习技术的推动下有了显著提升,然而在开放环境和噪音环境下,这种识别率会下降很多。熊德意解释,若机器“听”错了一个单词,接着进行测评,就会出现错误传播的情况。即上游系统的错误会引发下一系统的错误,错误会不断累积,越来越离谱,测评结果也会有很大差别。

学单词的_学英语单词怎么写的_学习的单词怎么写

目前存在多种设计评测指标的方式,也有诸多改进的办法,比如在计算准确率的同时还会计算召回率等。此外,还有对评测指标进行评测的情况,也就是评测的评测,要去查看哪个评测指标更为完善,以及与人类的评价更为一致。熊德意感叹,很多时候,从技术层面来看,自动评测的难度和对应的自然语言处理任务的难度是相同的。例如,用机器评价一个译文的好坏,其难度与用机器生成一个译文的难度相近;用机器评判一个文档摘要的好坏,其难度与用机器生成一个摘要的难度也大致相当。

可结合人工评测让系统更智能

传统的自动评测指标一般是依据符号来进行计算的。如今,深度学习这类 AI 技术在测评工具中的应用也越来越多。熊德意介绍道,运用深度学习,能够将语言符号映射至实数稠密向量的语义空间里,借助语义向量来计算相似度。即便所说的词语与计算机原先学习的不同,只要语义是相同的,机器就能够进行精确的评价。因此,某种程度上基于深度学习的自动评测能够应对语言的多样性挑战。然而,深度学习存在一个问题,即需要大量的数据来让机器进行学习。

自监督学习的预训练语言模型近几年在语言表示学习方面取得了突破性进展。GPT-3 是一种预训练语言模型,它在 5000 亿单词的海量语料上训练了一个带有 1750 亿个参数的神经网络。通过大量学习网络上各种语言的文本,GPT-3 形成了强大的语言表示能力,能够进行多种任务,例如自动翻译、故事生成、常识推理、问答等。它甚至可以进行加减法运算,像其两位数加减法的正确率能达到 100%,五位数加减法的正确率接近 10%。熊德意进行了介绍。然而,这样庞大的神经网络,若使用单精度浮点数来存储的话,需要 700G 的存储空间。并且,模型训练一次就耗费了 460 万美元。所以,即便 GPT-3 具备较好的零样本、小样本学习能力,但其高昂的成本导致它离普遍可用还相差很远。

AI 作为阅卷评测的“老师”,具有人工不可比拟的优势。其一,AI 自动批阅卷系统的批阅速度比人工快。老师难以一次记住所有多项选择题的答案,还需不断检查标准答案,这很耗费时间,而自动批阅系统能帮助老师大幅提高效率。其二,自动批阅系统更加理性,不会受外界条件干扰,也不会因疲劳等原因而误判。在复杂的干扰环境中也能得到正确结果;AI 阅卷系统能在评分后直接进行学情分析,统计出考试数据等教学材料,还能帮助老师减负增效,帮助学生提高学习效率。

熊德意表示,合理地将主观题进行客观化,能够降低自动阅卷的难度。对于无法客观化的主观题,虽然设定全面的评测标准较为困难,但设定某一方面的评测标准是可行的,例如针对单词词法、句子语法的评判,目前其准确率较高,这类技术能够从实验室走向产品应用。

可以引入人工评测,对 AI 阅卷系统的打分进行复核与修正。通过这种反复的修正过程,能够累积大量的评测训练数据,从而使机器评分变得更加智能。

利用自然语言处理等人工智能技术来进一步完善主观智能评分系统,这在未来的教育领域将是一个极为重要的课题。熊德意表示,日后的 AI 自动批阅系统必然会愈发“聪明”,并且人工智能与教育的结合也会愈发紧密。(记者 陈曦)

标签:
关于我们
海文博阅网,打造全方位的文化信息阅读平台,涵盖社会动态、历史人文、生活百科等广泛内容。我们为读者提供高质量的资讯和深度文章,让阅读成为获取知识、拓宽视野的桥梁。在这里,您可以随时随地畅游知识的海洋,感受阅读的魅力。
发文扫码联系站长微信
Copyright ©2021-2025 Comsenz Inc.Powered by©haiwenboyue 文章发布联系站长:dat818