纽约大学教授用人工智能口语考试测试学生，接下来发生了什么

作者：Lee Chong Ming

由

新关注作者，不错过任何一个故事！

作业看起来很精彩。理解没有。

就在那时，纽约大学商学院的一位教授决定抗争AI辅助课程作业通过人工智能驱动的口语考试。

纽约大学斯特恩商学院教授数据科学的教授帕诺斯·伊佩罗蒂斯 (Panos Ipeirotis) 在上周发表的一篇博客文章中写道，他开始担心学生作业读起来像“麦肯锡备忘录”，但缺乏真正的理解。

当他在课堂上召集学生并要求他们为自己的意见辩护时，许多人都难以做到。

伊佩罗蒂斯写道：“如果你不能现场捍卫自己的作品，那么书面作品就不是在衡量你认为它在衡量的东西。”

“以毒攻毒”

为了解决这个问题，他恢复了口试，并聘请人工智能代理大规模进行口试，试图“以牙还牙”。

“我们需要将评估发展为奖励理解、决策和实时推理的形式，”伊佩罗蒂斯说。

“口语考试曾经是标准的，直到无法扩展为止，”他补充道。“现在，人工智能正在使它们再次具有可扩展性。”

在详细介绍该实验的博客文章中，Ipeirotis 表示，他和他的同事使用 ElevenLabs 的对话语音技术构建了人工智能检查器。

“只要写一个提示，描述代理应该问学生什么，然后你就完成了，”他说，并补充说，设置需要几分钟。

口语考试有两个部分。首先，人工智能代理向学生询问他们的顶点项目，探究他们的决定和推理。然后，它选择了课堂上讨论的一个案例，并促使学生现场思考。

在 9 天的时间里，系统对 36 名学生进行了评估。每节课持续约 25 分钟，所有 36 名学生的总计算成本约为 15 美元。伊佩罗蒂斯写道，按照助教费率计算，人工口试可能要花费数百美元。

Ipeirotis 还使用人工智能对考试进行评分。三个 AI 模型（Claude、Gemini 和 ChatGPT）独立评估每个转录本。然后，他们审查了彼此的评估，修改了分数，并得出了最终成绩，克劳德担任“主席”来综合决定。

伊佩罗蒂斯表示，“法学硕士理事会”的评分比人类的评分更一致，而且“更严格，但也更公平”。

他写道：“反馈比任何人类产生的反馈都要好。”他补充说，人工智能分析还暴露了材料教学方式方面的差距。

然而，学生们分裂了。只有一小部分人更喜欢人工智能口试，许多人发现它们比笔试压力更大——尽管他们承认这是衡量真实理解程度的更好方法。

尽管如此，伊佩罗蒂斯表示，口语考试展示了“学习应该如何进行”。

“你练习得越多，你就会越好，”伊佩罗蒂斯写道。

Ipeirotis 发表博文之际，各大学正在努力解决如何测试问题AI时代的学生。

9月发表在学术期刊《高等教育评估与评估》上的一篇论文称，人工智能已经转向学生评估陷入“棘手的问题”。

该研究的作者于 2024 年底采访了澳大利亚一所大型大学的 20 位单元主席。通过长达一小时的 Zoom 采访，他们发现教师们对以下问题感到不知所措：工作量较重、围绕人工智能使用的混乱，以及对人工智能验证评估应该是什么样子缺乏共识。

一些教师告诉研究人员，人工智能应该被视为学生掌握的工具。其他人则认为这是侵蚀学习的学术不诚实行为。许多人承认他们不确定如何继续。

五月，LinkedIn联合创始人里德·霍夫曼在他的播客“可能”的一集中，人工智能可以让学生更轻松地利用传统的评估格式，例如论文。他说，大学应该重新考虑如何评估学习，并补充说学生很快就会期待一位“人工智能考官”。

霍夫曼表示，口语考试没有走捷径的余地，要求学生表现出真正的理解。