OC

Knowledge OS
鹦鹉螺口语
纽约大学教授用人工智能口语考试测试学生,接下来发生了什么
2026-01-05 07:16:00 · 英文原文

纽约大学教授用人工智能口语考试测试学生,接下来发生了什么

作者:Lee Chong Ming

关注作者,不错过任何一个故事!

关注李宗明

每次李崇明发表故事时,您的收件箱都会收到一条提醒!

单击“注册”即表示您同意接收来自 Business Insider 的电子邮件。此外,您还接受 Insider 的服务条款隐私政策

AI oral exam

纽约大学商学院的一位教授利用人工智能驱动的口语考试来测试学生的理解程度。 Whitebalance.space/盖蒂图片社
  • 在学生作业开始类似于麦肯锡备忘录后,一位纽约大学教授转向人工智能口试。
  • 他使用人工智能代理来扩展口语考试,这种形式长期以来被认为过于耗时。
  • 这项实验正值大学重新评估如何在人工智能时代公平地测试学生之际进行。

作业看起来很精彩。理解没有。

就在那时,纽约大学商学院的一位教授决定抗争AI辅助课程作业通过人工智能驱动的口语考试。

纽约大学斯特恩商学院教授数据科学的教授帕诺斯·伊佩罗蒂斯 (Panos Ipeirotis) 在上周发表的一篇博客文章中写道,他开始担心学生作业读起来像“麦肯锡备忘录”,但缺乏真正的理解。

当他在课堂上召集学生并要求他们为自己的意见辩护时,许多人都难以做到。

伊佩罗蒂斯写道:“如果你不能现场捍卫自己的作品,那么书面作品就不是在衡量你认为它在衡量的东西。”

“以毒攻毒”

为了解决这个问题,他恢复了口试,并聘请人工智能代理大规模进行口试,试图“以牙还牙”。

“我们需要将评估发展为奖励理解、决策和实时推理的形式,”伊佩罗蒂斯说。

“口语考试曾经是标准的,直到无法扩展为止,”他补充道。“现在,人工智能正在使它们再次具有可扩展性。”

在详细介绍该实验的博客文章中,Ipeirotis 表示,他和他的同事使用 ElevenLabs 的对话语音技术构建了人工智能检查器。

“只要写一个提示,描述代理应该问学生什么,然后你就完成了,”他说,并补充说,设置需要几分钟。

口语考试有两个部分。首先,人工智能代理向学生询问他们的顶点项目,探究他们的决定和推理。然后,它选择了课堂上讨论的一个案例,并促使学生现场思考。

在 9 天的时间里,系统对 36 名学生进行了评估。每节课持续约 25 分钟,所有 36 名学生的总计算成本约为 15 美元。伊佩罗蒂斯写道,按照助教费率计算,人工口试可能要花费数百美元。

Ipeirotis 还使用人工智能对考试进行评分。三个 AI 模型(Claude、Gemini 和 ChatGPT)独立评估每个转录本。然后,他们审查了彼此的评估,修改了分数,并得出了最终成绩,克劳德担任“主席”来综合决定。

伊佩罗蒂斯表示,“法学硕士理事会”的评分比人类的评分更一致,而且“更严格,但也更公平”。

他写道:“反馈比任何人类产生的反馈都要好。”他补充说,人工智能分析还暴露了材料教学方式方面的差距。

然而,学生们分裂了。只有一小部分人更喜欢人工智能口试,许多人发现它们比笔试压力更大——尽管他们承认这是衡量真实理解程度的更好方法。

尽管如此,伊佩罗蒂斯表示,口语考试展示了“学习应该如何进行”。

“你练习得越多,你就会越好,”伊佩罗蒂斯写道。

在考试中使用人工智能

Ipeirotis 发表博文之际,各大学正在努力解决如何测试问题AI时代的学生

9月发表在学术期刊《高等教育评估与评估》上的一篇论文称,人工智能已经转向学生评估陷入“棘手的问题”。

该研究的作者于 2024 年底采访了澳大利亚一所大型大学的 20 位单元主席。通过长达一小时的 Zoom 采访,他们发现教师们对以下问题感到不知所措:工作量较重、围绕人工智能使用的混乱,以及对人工智能验证评估应该是什么样子缺乏共识。

一些教师告诉研究人员,人工智能应该被视为学生掌握的工具。其他人则认为这是侵蚀学习的学术不诚实行为。许多人承认他们不确定如何继续。

五月,LinkedIn联合创始人里德·霍夫曼在他的播客“可能”的一集中,人工智能可以让学生更轻松地利用传统的评估格式,例如论文。他说,大学应该重新考虑如何评估学习,并补充说学生很快就会期待一位“人工智能考官”。

霍夫曼表示,口语考试没有走捷径的余地,要求学生表现出真正的理解。

阅读下一篇

关于《纽约大学教授用人工智能口语考试测试学生,接下来发生了什么》的评论

暂无评论

发表评论

摘要

纽约大学商学院教授帕诺斯·伊佩罗蒂斯 (Panos Ipeirotis) 实施了人工智能驱动的口试,以评估学生对书面作业的理解能力,而书面作业看似表面上很胜任,但缺乏深度。利用 ElevenLabs 的对话式语音技术,人工智能代理进行了大规模口语考试,询问学生的项目和课堂案例。人工智能对考试的评分也比人类评分者更加一致和公平。虽然一些学生觉得这些考试压力很大,但 Ipeirotis 认为它​​们可以更好地衡量真正的理解程度。这项实验反映了大学对人工智能时代公平评估更广泛的担忧。