OC

Knowledge OS
鹦鹉螺口语
人工智能将在新泽西州新的州考试中对孩子们的论文进行评分。有老师说这样有风险。
2026-03-09 11:01:00 · 英文原文

人工智能将在新泽西州新的州考试中对孩子们的论文进行评分。有老师说这样有风险。

作者:Updated: Mar. 09, 2026, 10:55 a.m.|Published: Mar. 09, 2026, 7:01 a.m.

人工智能将用于对新泽西州学生在网上所做的大部分写作进行评分新的全州标准化考试州教育官员表示,该项目将于今年春天推出。

根据州批准的测试提案,人工智能系统将用于对全州考试英语语言艺术部分的学生论文和简答题进行评分。“人工智能”将使用人类评分员在 10 月和 11 月向学生进行的模拟测试中生成的分数进行训练。

新泽西州将于今年春天推出一种新型州测试,称为“新泽西州学生自适应学习评估”。它将提供给 3 至 10 年级的学生,以测试他们的英语、数学和科学知识。

还将推出新版本的针对高中三年级学生的州高中毕业考试,现在称为新泽西州毕业能力评估-自适应。

与之前的 NJSLA 测试版本一样,考试将通过计算机进行。但新版本将是“自适应的”,这意味着学生将根据他们之前的考试答案得到不同的问题,这种做法应该使测试评分更加精确。

州教育部发言人迈克尔·亚普尔(Michael Yaple)表示,人工智能系统将用于对论文和书面问题进行评分,但仍然会有一些人类评分员。

亚普尔说,如果学生的书面回答被认定为“不寻常”或“边缘”,它将被“标记为人工审核”。

“该系统定期进行质量保证检查,通过严格的质量控制确保自动评分引擎分配的分数与人工分数相匹配,”他补充道。

Yaple 表示,负责监督新测试的公司 Cambium 并未使用生成式人工智能,即 ChatGPT 类型平台中使用的人工智能版本,该平台可以创造新的东西,并且有时会产生虚假或不准确的信息。

相反,自动评分系统将具有严格的参数,并具有经过验证的一致性,而人工评分仍然是该过程的基础,在整个评分工作流程中的多个检查点验证准确性,”州教育官员在一份声明中表示。

新泽西州考试的计算机评分并不是什么新鲜事。Yaple 说,去年,大约 90% 的 NJSLA 学生论文和州立高中毕业考试仅由自动评分系统评分。

但一些教育工作者对广泛使用人工智能来对新版考试进行评分表示担忧,新版考试最终将由新泽西州几乎所有 130 万公立学校学生参加。

该州最大的教师工会新泽西州教育协会主席史蒂夫·比蒂表示,使用人工智能版本对学生写作进行评分是有风险的。

他说,他不愿意看到“一些学生在计算机评分测试中失败,后来才发现其中存在某种错误。”

Beatty 表示,NJEA 总体上反对高风险测试。但如果测试要继续下去——那么我们需要训练有素的教育工作者——人类——来进行“评分”。

他说,如果学生未通过人工智能评分部分的考试,应该制定计划让人类重新评估其写作内容。

“他们应该回去找一个人进行核实,”比蒂说。

新的测试合同

新泽西州的学生将在 4 月 27 日至 5 月 29 日之间为期一个月的测试窗口内开始参加新的 NJSLA-Adaptive 考试。测试通常在连续几天内进行。

针对高中生的新 NJGPA-Adaptive 高中毕业考试的测试窗口将于 3 月 16 日至 4 月 1 日,根据州教育部的测试时间表

新的全州 NJSLA 和 NJGPA 测试由 Cambium Assessment 公司开发,该公司赢得了该州价值 5,870 万美元的两年期合同。

根据 Cambium 的提案,位于北卡罗来纳州达勒姆的Measurement Incorporated 公司将负责提供和培训人员,当人工智能生成的论文和书面回答分数被标记为需要审查时,这些人员将进行人工“手动评分”。

Cambium 在向州政府提交的提案中表示,该公司假设“总体回复的 25% 将用于经过训练的手动评分。”

新泽西州官员表示,人工智能不会用于在新版本的测试中创建测试项目,人工智能也不会用于确定学生在适应性评估中看到哪些问题。

2010 年至 2018 年担任州教育部评估主任的杰弗里·豪格 (Jeffrey Hauger) 表示,新泽西州在使用计算机帮助州考试笔试部分进行评分方面有着悠久的历史。后来,他担任 Pearson 公司的顾问,该公司之前曾签订过提供 NJSLA 测试的合同。

豪格表示,2016 年左右,该州开始实施一套系统,使用一名人工评分员和一名自动评分员来评估学生的每一篇写作。

他说,如果发现两个分数之间存在很大差异,那么这篇文章将由第二个人阅读。

“它是一种提高效率的工具,但当时人类总是参与整个过程,”豪格说。

他说,人工智能评分现在更加复杂。

– 技术已经进步。因此,现在的飞跃并不像人们想象的那么大,”豪格说。

他说,在州长菲尔·墨菲 (Phil Murphy) 任职期间,该部门开始更多地依赖自动评分,不再由机器和人类同时评估每篇文章。

标记问题

人工智能评分在其他州一直存在争议。

在马萨诸塞州,1,400 个错误分数归咎于 AI 评分错误去年,该州对马萨诸塞州综合评估系统(MCAS)进行了评估。

在德克萨斯州,多个地区质疑人工智能评分是否公平近年来在全州范围内进行的测试。

过去两年,达拉斯独立学区在德克萨斯州全州 STAAR 标准化考试中对数千份人工智能生成的作文成绩提出了质疑。

参与新泽西州考试的 Cambium 和 Pearson 公司都为德克萨斯州的标准化考试系统做出了贡献。

2024 年,达拉斯学区要求该州重新评分 4,600 项测试,并将它们发送到该州由人工重新评分。

达拉斯市负责评价和评估的助理主管雅各布·科尔特斯 (Jacob Cortez) 表示,大约 44% 的重新评分测试在人工阅读后得到了更高的分数。

该学区表示,去年该学区还发送了数千份人工智能评分测试进行重新评分,近 40% 的测试返回的人类分数更高。

由人工智能评分的三年级测试的准确率是最令人不安的,在发回的测试中,85% 的人在人类阅读学生作业时显示出更高的分数。

“这不行,”科尔特斯说。

当地官员表示,达拉斯学区为大约 139,000 名学生提供服务,该学区限制了发回重新评分的考试数量,因为每项未获得提高分数的考试必须支付 50 美元。

Cambium 官员没有回应有关达拉斯准确性问题或该公司人工智能评分实践的置评请求。

新泽西州官员拒绝就其他州人工智能评分准确性的问题发表评论。

“新泽西州不能对其他州的评估和评分过程发表评论,”亚普尔说。

新泽西州新任教育专员莉莉·劳克斯也没有回应置评请求。据她说,在她之前担任德克萨斯州学校项目副专员期间,她帮助设计了该州的标准化考试系统领英个人资料

非营利、无党派咨询公司评估中心的首席学习助理斯科特·马里恩 (Scott Marion) 表示,达拉斯人工智能评分的问题引发了对该系统的质疑。

——是不是训练得不好?难道它没有针对足够多样化的人群进行培训吗?”马里昂问道。

他说,人工智能评分具有经济意义,但各州也需要小心不要过度依赖它。他对大约 80% 的人工智能评分写作感到满意,因为系统仍然需要人工备份。

“我们这样做已经很久了,”他指的是使用人工智能对学生写作进行评分。

教育倡导者表示,许多学生、教师和家长可能会惊讶地发现学校里有多少写作已经由人工智能评分。

许多家长都不知道这是一件事,全州倡导组织“拯救我们的新泽西学校”的社区组织执行主任朱莉·博斯特说。

她担心具有独特写作风格的学生最终可能会在测试中得分较低,因为人工智能正在寻找特定的单词和短语或标准数量的句子以获得最高分。

Borst,其组织有长期反对的高风险标准化测试最后说,还是要由教师来了解学生哪些地方做得好,哪些地方做得不好。

– 老师会知道这些弱点在哪里。他们将知道这些优势在哪里,”她说。“在学生层面上,你无法从标准化测试中看出这一点。”

关于《人工智能将在新泽西州新的州考试中对孩子们的论文进行评分。有老师说这样有风险。》的评论

暂无评论

发表评论

摘要

新泽西州将使用人工智能对定于春季推出的新的全州标准化考试的大部分写作部分进行评分。该人工智能系统根据练习测试的分数进行训练,将用于英语语言艺术部分的论文和简答题。虽然系统会标记“异常”或“边缘”反应以供人工审查,但一些教育工作者对人工智能的可靠性感到担忧。新泽西州教育协会主席 Steve Beatty 担心人工智能评分中可能出现的错误,并主张对失败的人工智能评分测试进行人工验证。马萨诸塞州和德克萨斯州等其他州的人工智能评分问题引发了对其准确性和公平性的质疑。新泽西州官员强调严格的质量控制和人工监督,但批评者认为在依赖人工智能进行高风险测试时应更加谨慎。