最近美国一家知名教育平台登上 Reddit 热搜,原因是有家长爆料,旗下 AI 阅卷系统有重大漏洞,学生只要在答题区写上零散的“关键词”就能轻松拿高分。
事后采访匿名学生称:
如果不是阅卷系统的的漏洞,我不会通过代数 2 考试,我只是把与问题相关的关键词填上去,我相信老师都发现了,但他们没有做任何处理。
据了解,这款 AI 阅卷系统安装在虚拟学习平台 Edgenuity,目前服务 2 万所美国院校。爆料者名为 Dana Simmons,是加州大学河滨分校的历史系副教授。之所以发现 AI 评分系统漏洞,是因为她的学霸儿子 Lazare 在历史测评只拿到 50% 成绩。
随便写就能拿高分
Lazare 是高中生,他在 Edgenuity 平台完成历史考试测评,满分 100 他只拿到 50 分,这显然与平时成绩差很多,他很伤心。
一开始 Simmons 试图安慰儿子,也许这次阅卷老师比较严格。不过 Lazare 称,老师并没有看他的答案,提交试卷不到 1 分钟成绩就出来了。
Simmons 知道这应该是系统算法自动评分,随后看了儿子的试卷,似乎并没有什么大问题。于是她决定用一道历史题测试一下 Edgenuity 的评分规则,结果让她跌破眼镜。
题目是这样的:君士坦丁堡的地理位置,如何帮助拜占庭帝国变富有繁荣?
它位于爱琴海和黑海之间,是商船和乘客的集散地。它也处于欧洲和小亚细亚之间,这使它成为巨大的贸易中心,且当时许多贸易路线。利润、多样化、西班牙、中国、印度、非洲。
Simmons 称,她只写了两个相关长句,然后又往上堆叠一些不连贯的关键词,如财富、印度、中国、中东,但这种拼凑的“单字沙拉”(Word Salad)形式,系统却给她满分。
根据 Edgenuity 官网显示,系统的评分规则是,如果某些问题的答案不包括关键词,系统会判定为 0 分,如果至少包含一个关键词,则为 100 分。其他问题根据包含的关键词数量获得一定百分比。
按关键词评分不失为一种好方式,但只按照关键词,显然会出现明显失误。
Simmons 在 Twitter 公开指责 Edgenuity,称 AI 算法漏洞不利于教育公平,引起很多网友关注支持。
Teachers, for your students’ sake: I get it, teaching online is overwhelming and you can’t do it all. _Please_, use the algorithm to track their learning. But don’t post to them as if it’s a measure of their performance. It’s more destructive than you know.
— Dana Simmons (@DanaJSimmons) September 1, 2020
I should add that I told him how to game the @EdgenuityInc algorithm: write long answers, include lots of proper names, read the “right" answers and replicate them. This evening he got 80/100, a 30-point spread. What is he learning here?
— Dana Simmons (@DanaJSimmons) September 1, 2020
Edgenuity 公司回应,AI 系统评分只是参考,老师有权修改。
Edgenuity does not use algorithms to supplant teacher scoring, only to provide scoring guidance to teachers. Teachers have the ability to accept or overrule suggested scores. Tests are never scored by AI and a student’s course grade is never determined by AI #algorithm #elearning
— Edgenuity (@EdgenuityInc) September 3, 2020
Edgenuity 不会使用算法代替老师评分,只为老师提供评分指导。老师有能力接受或否决建议的分数,AI 不会决定学生的课程成绩。
不过,这回应也被打脸。
事后采访 Lazare 某位同学表示,老师确实可重新查看学生的试卷,并打最终得分。但他认识的大多数同学都表示,从未见过教师更改 Edgenuity 成绩,尽管听说有同学使用“单词沙拉”的方法获取高分。
如果老师在看答案,他们根本不在乎。
“我整个学期都靠它”
重要的是,Simmons 并不是最早发现 Edgenuity 评分漏洞的的人。
一位毕业的高中生 Austin Paradiso 表示,他在高中期间曾多次使用 Edgenuity 平台考试,虽然不喜欢“单字沙拉”,但这种方式确实有助于得高分,且 100% 有效。
据了解,Edgenuity 是美国知名线上虚拟教育机构,已成立 20 多年,提供 K12 教育服务广泛用于 2 万多所院校,这服务就包括 Edgenuity 平台内建的 AI 评分系统。
另外,由于今年受疫情影响,大多数美国学校都转向线上授课模式,教学和评分服务业也选择外包给虚拟教育平台,Edgenuity 是收到合约最多的。
据统计,Edgenuity 为国中生和高中生提供 300 多堂线上课程,从数学到社会研究各领域。些课程由教学影片、虚拟作业及线上考试组成,Edgenuity 负责提供课程和评分作业。
经过多次考试,很多学生都摸透了系统评分方法。一位学生说,当他不会的时候,会尝试提交与问题相关的成批关键词,这种方法通常都会奏效。
还有另外一位同学表示,他们会截取原文的关键词贴到答题区,整个上学期都使用这技巧。且每次都能获得不低分数。
另外 4 个月前,还有学生公然在 Reddit 询问如何利用 Edgenuity 作弊。
在老师不知情的情况下,如何成功欺骗 Edgenuity?
我发现你们可以轻松找到所有答案,我想知道是如何做到的,是否会花时间回答每个问题?
How do I successfully cheat on edgenuity without teacher knowing? from r/edgenuity
发文下方聚集了很多同学评论,分享线上作弊技巧。其中一位学生表示,几乎每次 Edgenuity 平台考试都会作弊。
此次 Simmons 揭发对 Edgenuity 造成不小影响,有家长公开反对学校使用此虚拟平台,并表示不希望技术影响孩子成绩。
AI 阅卷,你怎么看?
AI 技术参与考试测评系统似乎是必然趋势,中国有很多相关研究,且一些技术开始逐步落实。阿里巴巴近日发起的百万奖金数学挑战赛,便声称由自主研发的 AI 担任辅助阅卷教师。
不过,关于 AI 阅卷的标准性和公平性一直备受争议。对有标准答案的客观题来说,AI 的评分能力毋庸置疑,且对一些基础辨识错字能力,AI 也有不错表现,如 2017 年阿里举办的 AI 作文评分测试,AI 仅用十几秒,就在一篇 200 字作文找到 8 个错别字。
显然,AI 在提高阅卷效率、减少教师压力发挥不少作用。但对一些开放式试题,如作文,AI 阅卷则产生不同争议。
有人认为,AI 阅卷可避免主观偏见,文本结构、语言表达等形成统一标准,且大量文章累积,也会高于人类教师的评分程度。但也有人表示,AI 评分过于刻板,如 Edgenuity 平台,开放式题目表达是考生的核心思想,人类的情感表达 AI 无法按照对错来评判。
- These students figured out their tests were graded by AI — and the easy way to cheat
- How do I successfully cheat on edgenuity without teacher knowing?
(本文由 雷锋网 授权转载;首图来源:pixabay)
延伸阅读:
- 用 AI 改试卷?狗屁不通的论文也能得高分