作者:by Claire Zulkey, Stanford University
当学者和其他研究人员需要招募人员进行大规模调查时,他们通常依赖 Prolific 或 Amazon Mechanical Turk 等众包网站。参与者注册提供人口统计信息和意见,以换取金钱或礼品卡。Prolific 目前拥有约 20 万活跃用户,它承诺这些用户已经过审查,“以证明他们就是他们所说的那样。”
然而,即使用户是真人,有迹象表明他们中的许多人都使用人工智能来回答民意调查问题。
斯坦福大学商学院组织行为学助理教授珍妮特·徐 (Janet Xu) 表示,她第一次从一位同事那里听说了这一点,这位同事注意到开放式调查问题的一些答案似乎是非人类的。回复中的错别字较少。它们更长。(即使是最固执己见的人最多也会写四到五句话。)而且他们非常友善。“当你做一项调查并且人们回信时,通常会有一些讽刺,”徐说。
在一个新纸发布到预印本服务器SocArXiv、徐、纽约大学的 Simone 张和康奈尔大学的 AJ Alvero 研究了学术研究参与者如何、何时以及为何转向人工智能。参与该研究的 Prolific 用户中有近三分之一表示在他们的一些调查工作中使用了 ChatGPT 等大型语言模型 (LLM)。
作者在 Prolific 上对大约 800 名参与者进行了调查,以了解他们如何与法学硕士打交道。所有人都至少在 Prolific 上做过一次调查;40% 的受访者在过去 24 小时内进行了 7 次或更多调查。他们被承诺承认使用法学硕士学位不会影响他们参加未来学习的资格。
大约三分之二的人表示,他们从未使用法学硕士来帮助他们回答开放式调查问题。大约四分之一的人表示,他们有时会使用人工智能助手或聊天机器人来帮助写作,不到 10% 的人表示非常频繁地使用法学硕士,这表明人工智能工具(迄今为止)尚未被广泛采用。使用人工智能最常见的原因是需要帮助表达自己的想法。
那些表示从未在调查中使用法学硕士的受访者往往会表达对真实性和有效性的担忧。“他们的许多答案都带有这种道德倾向,似乎[使用人工智能]会对研究造成损害;这将是作弊。人工智能的使用可能导致学者、研究人员和编辑对他们的研究质量进行更严格的审查。数据,”徐说。
一些参与者群体,例如那些刚接触 Prolific 或被认为是男性、黑人、共和党人或受过大学教育的参与者,更有可能表示他们使用了人工智能写作辅助。徐强调,这只是一个快照;随着技术的扩散或用户在平台上的流失,这些模式可能会发生变化。但她表示,这些问题值得注意,因为人工智能使用的差异可能会导致舆论数据出现偏差。
为了了解人工制作的答案与人工智能生成的答案有何不同,作者查看了 2022 年 11 月 ChatGPT 公开发布之前对黄金标准样本进行的三项研究的数据。这些研究中的人类反应往往包含更具体的、充满情感的语言。
作者还指出,这些回应在描述美国黑人、民主党人和共和党人时使用了更多“非人化”的语言。相比之下,法学硕士一贯使用更中立、抽象的语言,这表明他们可能会以更超然的态度处理种族、政治和其他敏感话题。
探索科学、技术和太空领域的最新动态100,000 名订阅者他们依赖 Phys.org 获取日常见解。注册我们的免费时事通讯并获取有关突破的最新信息,重要的创新和研究 –每日或每周。
Xu 表示,虽然收到人工智能生成的回复的研究可能已经发表,但她认为 LLM 的使用还没有广泛到需要研究人员发布更正或撤回的程度。相反,她说:“我想说,这可能导致学者、研究人员和编辑更加严格地审查他们的数据质量。”
她说:“我们不想单方面证明人工智能的使用是坏的或错误的。”她补充说,这取决于它的使用方式。有人可能会利用法学硕士来帮助他们表达对社会问题的看法,或者他们可能会借用法学硕士对其他人对某个主题的想法的描述。
徐说,在第一种情况下,人工智能正在帮助人们完善现有的想法。第二种情况更令人担忧,“因为它基本上要求产生一种共同趋势,而不是反映已经知道自己想法的人的具体观点。”
如果太多人以这种方式使用人工智能,可能会导致人类反应的扁平化或稀释。“这对多样性意味着什么,对信仰、想法、身份的表达意味着什么——这是一个警告标志关于同质化的潜力,”徐说。
这不仅影响学术界。例如,如果人们使用人工智能填写有关多样性的工作场所调查,可能会产生错误的接受感。“人们可能会得出这样的结论,‘哦,歧视根本不是问题,因为人们只会对我们历来认为受到歧视威胁的群体说好话’,或者‘每个人都和睦相处,彼此相爱。其他。'”
作者指出,直接要求调查参与者不要使用人工智能可以减少其使用。还有一些高科技方法可以阻止 LLM 的使用,例如阻止复制和粘贴文本的代码。“一种流行的调查软件具有此功能,您可以要求上传录音而不是书面文本,”徐说。
该论文的结果对调查创建者具有指导意义,呼吁他们提出简洁、清晰的问题。“我们的研究中,许多报告使用人工智能的受试者表示,他们是在认为指令不明确的情况下才这么做的,”徐说。“当参与者感到困惑或沮丧,或者只是需要接受大量信息时,他们就会开始不集中注意力。”
以人为本来设计研究可能是防止无聊或倦怠的最佳方法,因为无聊或倦怠可能会诱使人们启动 ChatGPT。“良好调查设计的许多相同的一般原则仍然适用,”徐说,“如果说有什么不同的话,那就是它们比以往任何时候都更加重要。”
更多信息:Simone Zhang 等人,生成式人工智能与开放式调查响应:参与者对人工智能的使用和同质化,SocArXiv(2024)。DOI:10.31235/osf.io/4esdp
引文:调查参与者转向人工智能,学术研究成果受到质疑(2024 年,11 月 25 日)检索日期:2024 年 11 月 26 日来自 https://phys.org/news/2024-11-survey-ai-academic-results.html
本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外,不得未经书面许可,不得复制部分内容。所提供的内容仅供参考。