作者:Eric W. Dolan
研究发现,某些先进的人工智能聊天机器人比人类更擅长在具有挑战性的社交情境中做出判断。研究人员使用一种成熟的心理工具“情境判断测试”发现,三个聊天机器人——克劳德、微软副驾驶和 you.com 的智能助手——在选择最有效的行为反应方面优于人类参与者。人工智能协助社交互动的能力变得越来越重要,其应用范围从客户服务到心理健康支持。
大型语言模型(例如本研究中测试的聊天机器人)旨在处理语言、理解上下文并提供有用的响应。虽然之前的研究已经证明了它们在学术推理和语言任务方面的能力,但它们在驾驭复杂的社会动态方面的有效性仍未得到充分探索。
大型语言模型是先进的人工智能系统,旨在理解和生成类似人类的文本。这些模型接受了大量数据(书籍、文章、网站和其他文本来源)的训练,使它们能够学习语言、上下文和含义的模式。
这种训练使这些模型能够执行各种任务,从回答问题和翻译语言到撰写论文和进行详细的对话。与早期的人工智能模型不同,大型语言模型依赖于处理上下文和生成响应的能力,这些响应通常感觉是对话性的并且与用户的输入相关。
“作为研究人员,我们对社交能力和人际交往能力的诊断感兴趣,”该研究的作者、航空航天医学研究所的 Justin M. Mittelstädt 说。
– 在德国航空航天中心,我们应用诊断这些技能的方法,例如寻找合适的飞行员和宇航员。当我们正在探索未来人机交互的新技术时,我们很想知道新兴的大型语言模型在这些被认为具有深刻人类意义的领域中的表现如何。
为了评估人工智能的表现,研究人员使用了情境判断测试,这是一种广泛用于心理学和人员评估的工具,用于衡量社交能力。该测试提出了 12 个场景,要求参与者评估四种可能的行动方案。对于每种场景,参与者的任务是确定最佳和最差的反应,并由 109 名人类专家组成的小组进行评分。
该研究将五种人工智能聊天机器人(Claude、Microsoft Copilot、ChatGPT、Google Gemini 和 you.com 的智能助手)的性能与 276 名人类参与者的样本进行了比较。这些人类参与者是因其高学历和积极性而被选中的试点申请人。它们的性能为人工智能系统提供了严格的基准。
每个聊天机器人都完成了十次情景判断测试,并采用随机的演示顺序以确保结果一致。然后根据这些答案与专家确定的最佳和最差选项的一致性程度对这些答案进行评分。除了选择响应之外,聊天机器人还被要求对场景中每个操作的有效性进行评级,提供进一步的数据以与专家评估进行比较。
研究人员发现,所有经过测试的人工智能聊天机器人的表现至少与人类参与者一样好,有些甚至超过了人类参与者。在聊天机器人中,Claude 获得了最高的平均分,其次是 Microsoft Copilot 和 you.com 的智能助手。这三个系统始终在情境判断测试场景中选择最有效的响应,与专家评估紧密结合。
有趣的是,当聊天机器人未能选择最佳响应时,它们通常会选择第二有效的选项,反映了人类参与者的决策模式。这表明人工智能系统虽然并不完美,但能够进行与人类思维过程非常相似的细致判断和概率推理。
“我们已经看到这些模型擅长回答知识问题、编写代码、解决逻辑问题等,”Mittelstädt 告诉我们心理邮报。但我们惊讶地发现,平均而言,一些模型在判断社交情境的细微差别方面也比人类更好,尽管它们没有接受过在社交环境中使用的明确训练。这向我们表明,社会习俗和我们作为人类互动的方式在训练这些模型的文本源中被编码为可读模式。
该研究还强调了人工智能系统之间可靠性的差异。Claude 在多次测试迭代中表现出最高的一致性,而 Google Gemini 则偶尔表现出矛盾,例如在不同的运行中将某个操作评为最佳和最差。尽管存在这些不一致之处,但所有测试的人工智能系统的整体性能都超出了预期,展示了它们提供社交建议的潜力。
“许多人已经使用聊天机器人来完成各种日常任务,”Mittelstädt 解释道。– 我们的研究结果表明,聊天机器人可能非常擅长就如何在棘手的社交场合中表现提出建议,而人们,尤其是那些在社交互动中缺乏安全感的人,可能会从中受益。然而,我们不建议盲目信任聊天机器人,因为我们也看到了幻觉和矛盾陈述的证据,正如在大型语言模型的背景下经常报告的那样。
值得注意的是,该研究侧重于模拟场景而不是现实世界的交互,这留下了关于人工智能系统如何在动态、高风险的社会环境中表现的问题。
“为了促进大型语言模型和人类之间的量化比较,我们选择了一项多项选择测试,以证明人类对现实世界行为的预测有效性,”Mittelstädt 指出。– 然而,此类测试的表现尚不能保证大型语言模型能够在真实且更复杂的场景中以社交能力的方式做出响应。 –
尽管如此,研究结果表明人工智能系统越来越能够模仿人类的社会判断。这些进步为实际应用打开了大门,包括社会和专业环境中的个性化指导,以及心理健康支持的潜在用途。
鉴于大型语言模型在心理测试中已证明能够有效判断社会情境,我们的目标是评估它们在现实世界中与人互动的社交能力,以及人们从大型语言模型提供的社会建议中受益的条件。语言模型,——Mittelstädt 告诉心理邮报。
– 此外,情境判断测试中的反应行为高度依赖于文化。在特定情况下,响应的有效性可能因一种文化而异于另一种文化。我们的研究中大型语言模型的良好表现表明它们与西方文化中普遍存在的判断紧密一致。看看大型语言模型在其他文化背景的测试中表现如何,以及如果使用更多来自不同文化的数据进行训练,它们的评估是否会发生变化,这将是很有趣的。
“尽管大型语言模型可能在社交任务中产生令人印象深刻的表现,但它们并不拥有情感,而情感是真正社交行为的先决条件,”米特尔斯特补充道。– 我们应该记住,大型语言模型仅模仿从训练数据集中的模式中提取的社会反应。尽管如此,还是有一些有前途的应用,例如帮助个人发展社交技能。”
这项研究,——大型语言模型在社会情境判断方面可以超越人类, — 由 Justin M. Mittelstädt、Julia Maier、Panja Goerke、Frank Zinn 和 Michael Hermes 撰写。