研究发现,人工智能生成的大学招生论文往往听起来男性和特权阶层 - Phys.org

2024-10-02 20:02:11 英文原文

本文已根据 Science X 的编辑流程和政策进行审阅。编辑在确保内容可信度的同时强调了以下属性:

经过事实检查

可信来源

校对

人工智能生成的大学研究发现,招生论文往往听起来男性和特权阶层

在对数千篇人类撰写的大学招生论文和人工智能生成的论文进行检查后,研究人员发现人工智能生成的论文与作者撰写的论文最相似由具有较高社会经济地位和较高社会特权的男性学生组成。人工智能生成的写作也比人类撰写的内容变化更少。

“我们想了解我们在人类撰写的文章中看到的这些模式在 ChatGPT 世界中是什么样子,”AJ Alvero 说康奈尔大学安·S·鲍尔斯计算与信息科学学院信息科学系助理研究教授。“如果与人类写作和身份有很强的联系,那么与人工智能撰写的论文相比如何?”

康奈尔鲍尔斯 CIS 信息科学副教授 Rene Kizilcec 是《大语言模型、社会人口统计学和霸权:比较人类文本和合成文本的作者身份”,9 月 27 日发表在《大数据杂志》上。

这项研究源于阿尔韦罗在斯坦福大学的论文工作。他的部分研究涉及对 201517 年加州大学系统的未来学生撰写的约 800,000 篇大学入学论文进行分析。

“我们一致发现,申请者的个人资料与其测试之间存在密切联系。分数,他们的人口统计信息,甚至他们申请的高中和他们的招生论文,”阿尔维罗说。“这种关系是如此紧密,以至于我们始终能够预测申请人的 SAT 分数,误差在 120 分左右。”

“我们说话的方式可以编码并包含有关我们的过去和我们是谁的信息,”他说,“而且在写作方面非常相似,至少在个人陈述方面是这样。”

在这项工作中,阿尔韦罗和团队比较了超过 150,000 篇大学招生论文的写作风格,这些论文提交给了两个大学加州大学系统和东海岸一所精英私立大学的工程项目,使用 GPT-3.5 和 GPT-4 生成了一组超过 25,000 篇论文,提示回答与人类申请者相同的论文问题。

为了进行分析,研究人员使用了语言查询和字数统计,这是德克萨斯大学社会心理学家 James W. Pennebaker 在 20 世纪 90 年代中期开发的一个程序,用于统计书写特征的频率,例如标点符号和代词的使用,并与外部词典交叉引用这些计数。

“大约十年前,彭尼贝克完成了对大学招生论文的第一个大数据分析,”阿尔维罗说,“我们想尝试一下跨机构、跨时间建立对这些模式的深入理解,我们通过使用他们使用的相同方法来做到这一点。”

Alvero、Kizilcec 和团队发现,虽然大语言模型的写作风格不'在社会比较分析中,他们不代表任何特定群体,他们在词语选择和使用方面确实“健全”,最像来自更优越的地区和背景的男学生。

例如,人工智能被发现平均而言,他们比人类作家使用更长的单词(六个或更多字母)。此外,人工智能生成的写作往往比人类撰写的论文种类更少,尽管它比公立学校学生的论文更接近私立学校申请者的论文。

此外,人类和人工智能倾向于尽管人工智能实际上没有任何关系,但以相似的速度写下关系(与团体、个人、组织和朋友)。随着像 ChatGPT 这样的大语言模型变得越来越流行和更加精致,它们将被用于各种环境,包括大学招生。

“学生很可能会使用人工智能来帮助他们撰写这些论文,而他们可能不会要求这样做只是写下整个内容,而是寻求帮助和反馈,”Kizilcec 说。“但即便如此,这些模型提出的建议可能与这些学生的真实表达的价值观、语言风格不太相符。

”重要的是要记住这一点如果你使用人工智能来帮助你写一篇文章,它可能听起来不太像你,而更像是一些非常通用的东西,”他说。“学生们需要知道,对于阅读这些文章的人来说,它不会是他们很难弄清楚谁广泛使用了人工智能。关键是用它来帮助学生讲述自己的故事并增强他们想要传达的内容,而不是取代他们自己的声音。”

Alvero 和 Anthony Lising Antonio,该校教育学副教授斯坦福大学教育研究生院是共同通讯作者。

更多信息:A. J. Alvero 等人,大型语言模型、社会人口统计学和霸权:比较人类文本和合成文本的作者身份,大数据杂志(2024)。DOI:10.1186/s40537-024-00986-7

由康奈尔大学提供

关于《研究发现,人工智能生成的大学招生论文往往听起来男性和特权阶层 - Phys.org》的评论


暂无评论

发表评论

摘要

本文已根据 Science X 的编辑流程和政策进行审阅。康奈尔大学 Ann S. Bowers 计算与信息学院信息科学系助理研究教授 AJ Alvero 表示:“我们希望了解在 ChatGPT 世界中我们在人类撰写的论文中看到的这些模式是什么样的。”科学。“如果与人类写作和身份有很强的联系,那么与人工智能撰写的论文相比如何?”康奈尔鲍尔斯 CIS 信息科学副教授 Rene Kizilcec 是《大语言模型、社会人口学、和霸权:比较人类文本和合成文本的作者身份”,9 月 27 日发表在《大数据杂志》上。“我们说话的方式可以编码并包含有关我们的过去和我们是谁的信息,”他说,“这在书面上非常相似,至少在个人陈述方面是这样。此外,人工智能生成的写作往往比人类撰写的论文种类更少,尽管它比公立学校学生的论文更接近私立学校申请者的论文。