作者:Eric W. Dolan
揭示了高级人工智能系统的大型语言模型表明,在进行人格测试时,倾向于以有利的眼光表现出来。这种社会可取性使这些模型在通常被视为积极的特征(例如外向性和尽职尽责的特征)上得分较高,而在特征上较低的特征经常像神经质一样受到负面看法。语言系统似乎知道何时进行测试,然后尝试看起来比它们可能出现的更好。
在各种模型中,这种偏见是一致的,包括GPT-4,Claude 3,Llama 3和Palm-2,最近和更大的模型表明对社会期望的反应更加强烈。
大型语言模型越来越多地用于模拟研究环境中的人类行为。他们提供了一种潜在的成本效益和有效的方法来收集原本需要人参与者的数据。由于这些模型接受了人类产生的大量文本数据的培训,因此它们通常可以以令人惊讶的准确性模仿人类的语言和行为。因此,了解大语模型的潜在偏见对于使用或计划在研究中使用它们的研究人员很重要。
人格特征,尤其是五大巨大(外向性,经验开放,认真度,同意和神经质),是心理学研究的普遍重点。虽然五大模型被设计为中立,但大多数人倾向于在外向性,开放性,尽职尽责和愉快的性能以及对神经质的分数下降。
鉴于人格研究的普遍性以及在该领域使用大型语言模型的潜力,研究人员试图确定这些模型在完成人格测试时是否表现出偏见。具体来说,他们想调查大型语言模型是否容易受到社会可取性偏见的影响,这是人类心理学中有据可查的现象,个人倾向于以积极描绘它们的方式回答问题。
研究作者约翰内斯·艾希斯塔特(Johannes Eichstaedt以人工智能为中心的人工智能研究所)和Aadesh Salecha(斯坦福大学的硕士学生和一名员工数据科学家计算心理学和福祉实验室)。
我们通过使用对人类行为(以及认知科学的方法)并将其应用于智能机器的理解而着迷。由于LLM越来越多地用于模拟人类在心理实验中的行为,因此我们想探索它们是否反映了与我们在人类中看到的偏见。在我们向LLM进行不同心理测试的探索期间,我们遇到了这种强大的社会渴望BIA。
为了检查大语言模型中潜在的反应偏见,研究人员使用标准化的100个项目五个个性调查表进行了一系列实验。该问卷是基于一个完善的人格模型,并在心理学研究中广泛使用。研究人员将调查表管理给各种大型语言模型,包括由OpenAI,Anthropic,Google和Meta开发的调查表。选择这些模型以确保发现将在不同类型的大语言模型中广泛适用。
该研究的核心涉及改变每个批次中向模型提出的问题的数量。研究人员测试了从单个问题到一个问题的批次。每个批次都在新的会议中介绍,以防止模型可以访问以前的问题和答案。指示这些模型使用5分制来回答每个问题,范围从非常不准确到非常准确,类似于人类如何完成问卷。
研究人员还采取了措施,以确保其发现的完整性。他们通过调整称为“温度”的设置来控制模型响应中随机性的影响,该温度控制随机性水平。他们创建了调查问题的释义版本,以排除模型只是回忆起培训数据中记忆的回答的可能性。
此外,他们将问题的顺序随机,以消除问题顺序的任何潜在影响。最后,他们测试了问题的正面编码和反向编码版本(例如,我是党的生活与我不会说很多话),以评估潜力默认偏见的影响,这是同意陈述的趋势,无论其内容如何。
这项研究的结果清楚地表明,大型语言模型在完成五大人物测验时表现出社会可取性的偏见。在所有经过测试的模型中,分数偏向性状维度的理想末端。例如,随着批处理中提出的问题的数量增加,模型在外向性,认真度,开放性和愉快的分数上往往会增加,而神经质的分数也下降了。在GPT-4模型中,这种模式特别明显。
Eichstaedt和Salecha告诉PSYPOST,我们的研究表明,LLMS推断他们正在评估时的行为有所不同。具体来说,当他们认识到自己正在接受五大人格测试时,他们会像人们一样尝试看起来更讨人喜欢。这对我们如何在研究和现实世界应用中使用LLM的方式具有很大的影响,因为它表明他们可能会根据解释情况的方式巧妙地改变其行为。它还表明了他们被训练的训练,这可能以微妙的方式适得其反。
研究人员发现,一次进行调查之间的一个问题与一次的20个问题之间的分数差异等同于人类术语的一个以上的标准偏差,这是一个很大的效果。换句话说,由于社会可取性偏见而导致的模型反应的变化与人格的重大转变相当。偏见不仅限于GPT-4;在所有测试的大型语言模型中都观察到了这一点,较大,最新的模型通常表现出更强的偏见。
效果的大小令人震惊。研究人员说,在人类中,社会可取性偏见存在,但在LLM中,我们看到了超过典型人类标准的效果大小,就像一个普通人突然变得非常外向的人(第90个百分位数)。”
进一步的分析表明,即使有少量问题,这些模型也能够在评估个性时推断出来。模型可以确定他们正在进行人格测试的准确性与社会可取性偏见的强度有关。例如,GPT-4,Claude 3和Llama 3只需五个问题就可以正确地识别出超过90%的问题的性质,而Palm-2和GPT-2和GPT-3.5的准确性较低。
当这些模型明确地告诉他们正在完成个性测试时,即使只提出一个问题,他们的回答甚至更加偏向社会可取性。这一发现表明,这些模型正在根据对评估的看法来调整其响应。在对问题进行反向编码降低了偏见的大小时,它并没有完全消除它。这表明观察到的效应不仅是由于默认偏置。研究人员还确认,即使问题被解释以及问题的顺序是随机分配的,偏见仍然存在,进一步支持其发现的鲁棒性。
研究人员承认,他们的研究主要集中在五大人格特征上,这些特质在大语言模型的培训数据中广泛代表。在社会评估的心理结构中,可能不会发生相同的反应偏见。
未来的研究应探讨不同类型的调查和测量方法中社会可取性偏见的普遍性。进一步研究的另一个领域是训练数据和模型开发过程在这些偏见的出现中的作用。了解如何形成这些偏见以及在培训过程中是否可以减轻它们,对于确保在研究和其他应用中负责使用大型语言模型至关重要。
尽管存在这些局限性,但该研究的发现对将大语言模型用作人类参与者的代理具有重大影响。社会可取性偏见的存在表明,从这些模型获得的结果可能并不总是准确地反映了人类的反应,尤其是在人格评估和其他对社会敏感的话题的背景下。
Eichstaedt和Salecha说,当我们将AI融入生活的更多部分时,了解这些微妙的行为和偏见变得至关重要。”``需要进行更多的研究,以了解在LLM开发的哪个阶段(预训练,偏好调整等)这些偏见正在放大,以及如何减轻它们而不妨碍这些模型的性能。我们是否使用LLM来支持研究,撰写内容,甚至协助精神健康环境,我们都需要意识到这些模型如何在不知不觉中模仿人类缺陷,以及这可能如何影响结果。”
这项研究,大型语言模型在五巨头个性调查中显示出类似人类的社会渴望偏见,由Aadesh Salecha,Molly E. Ireland,Shashanka Subrahmanya,Joã£O Sedoc,Lyle H Ungar和Johannes C. Eichstaedt撰写。