人工智能科学家发现,当你对人工智能聊天机器人粗鲁无礼时,他们可能会给你更准确的答案,尽管他们警告不要使用侮辱性语言的潜在危害。
10 月 6 日发表在《arXiv在预印本数据库中,科学家们想要测试礼貌或粗鲁是否会对人工智能系统的表现产生影响。这项研究尚未经过同行评审。
每个问题都有四个选项,其中一个是正确的。他们将 250 个结果问题输入 ChatGPT-4o 10 次,ChatGPT-4o 是 OpenAI 开发的最先进的大型语言模型 (LLM) 之一。
研究人员在论文中写道:“我们的实验是初步的,表明语气可以显着影响以回答 50 个问题的得分来衡量的表现。”“有些令人惊讶的是,我们的研究结果表明,粗鲁的语气比礼貌的语气带来更好的结果。
他们补充说:“虽然这一发现具有科学意义,但我们并不主张在现实应用中部署敌对或有毒的界面。”“在人类与人工智能的交互中使用侮辱性或贬低性的语言可能会对用户体验、可访问性和包容性产生负面影响,并可能导致有害的沟通规范。相反,我们将我们的结果作为证据,证明法学硕士仍然对肤浅的提示线索敏感,这可能会在性能和用户福祉之间造成意想不到的权衡。”
猛然惊醒
在给出每次提示之前,研究人员要求聊天机器人完全无视之前的交流,以防止它受到之前语气的影响。聊天机器人还被要求在四个选项中选择一个,但没有任何解释。
回答的准确率从非常礼貌的提示的 80.8% 到非常粗鲁的提示的 84.8% 不等。很明显,距离最礼貌的语气每一步,准确性都会提高。礼貌回答的准确率为81.4%,其次是中性回答的正确率为82.2%,粗鲁回答的正确率为82.8%。
该团队在前缀中使用了多种语言来修改语气,但中性除外,中性不使用前缀,而是自行提出问题。
例如,对于非常礼貌的提示,他们会以“我可以请求你帮助解决这个问题吗?”或“您能解答以下问题吗?”在非常粗鲁的一端,该团队使用了诸如“嘿,gofer;弄清楚这个”或“我知道你不聪明,但试试这个”之类的语言。
这项研究是一个名为“提示工程”的新兴领域的一部分,该领域旨在研究提示的结构、风格和语言如何影响法学硕士的输出。研究还引用先前的研究研究人员对礼貌与粗鲁进行了研究,发现他们的结果通常与这些发现相反。
在之前的研究中,研究人员发现“不礼貌的提示往往会导致表现不佳,但过于礼貌的语言并不能保证更好的结果。”然而,之前的研究是使用不同的 AI 模型(ChatGPT 3.5 和 Llama 2-70B)进行的,并使用了八种音调。也就是说,存在一些重叠。研究还发现,最粗鲁的提示设置比最礼貌的设置(75.82%)产生更准确的结果(76.47%)。
研究人员承认他们研究的局限性。例如,一组 250 个问题是一个相当有限的数据集,并且使用单个 LLM 进行实验意味着结果无法推广到其他 AI 模型。
考虑到这些限制,该团队计划将研究扩展到其他模型,包括 Anthropic 的 Claude LLM 和 OpenAI 的 ChatGPT o3。他们还认识到,仅提出多项选择题将测量限制于模型性能的一个维度,并且无法捕获其他属性,例如流畅性、推理性和连贯性。