作者:Neuroscience News
概括:一项新的研究发现,在做出主观决策时,Chatgpt虽然擅长于逻辑和数学,但在逻辑和数学方面出色,表现出与人类相同的认知偏见。在对常见判断错误的测试中,AI表现出过度自信,风险规避,甚至是经典的赌徒的谬论,尽管它避免了其他典型的人类错误,例如基本利率忽视。
有趣的是,在某些情况下,AI的新版本在分析上更准确,但在某些情况下也表现出更强的基于判断的偏见。这些发现引起了人们对依靠AI进行高风险决策的担忧,因为它可能不会消除人为错误,而是自动化它。
关键事实:
来源:告知
我们真的可以相信AI比人类做出更好的决定吗?一项新的研究说 - 并非总是如此。
研究人员发现,在某些情况下,Openai的Chatgpt是最先进和流行的AI模型之一,与人类犯了与人类一样的决策错误。 - 表现出偏见,例如热手(赌徒)谬论的过度自信 ``尚未在其他人中表现不人道(例如,没有遭受基本利率忽视或沉没的成本谬论)。
发表在 通知期刊制造和服务运营管理,该研究表明,Chatgpt不仅仅是Crunch数字 - 它以类似于人类的方式思考,包括精神捷径和盲点。
这些偏见在不同的业务情况下仍然相当稳定,但随着AI从一个版本发展到另一个版本,可能会改变。
AI:具有类似人类缺陷的智能助手
这项研究, 经理和AI走进酒吧:Chatgpt是否像我们一样做出有偏见的决定?一个 通过18种不同的偏置测试将CHATGPT放置。结果?
为什么这很重要
从雇用工作到贷款批准,AI已经在塑造商业和政府的重大决定。但是,如果AI模仿人类的偏见,它是否可以加强错误的决定而不是修复它们?
当AI从人类数据中学习,它也可能像人类一样思考 - 西方大学的首席作家兼助理教授杨陈(All)说。
我们的研究表明,何时使用AI进行判断,有时会采用与人们相同的心理捷径。
研究发现,Chatgpt倾向于:
``当一个决定有明确的答案时,AI钉了 - 找到合适的公式比大多数人更好。”一个 皇后大学的Anton Ovchinnikov。但是,当审判涉及时,人工智能可能与人们陷入相同的认知陷阱。
那么,我们可以相信AI做出重大决定吗?
随着政府在全球遵守AI法规的工作,这项研究提出了一个紧迫的问题:当它像人类一样偏见时,我们是否应该依靠AI进行重要的呼吁?
UNSW商学院的塞缪尔·柯什纳(Samuel Kirshner)说。<如果没有选中,它可能无法解决决策问题。” - 它实际上可能会使它们变得更糟。
研究人员说,这就是为什么企业和政策制定者需要像人类决策者一样密切地监视AI的决定。
AI应该像做出重要决定的员工一样对待 - 麦克马斯特大学的Meena Andiappan说,它需要监督和道德准则。否则,我们有可能自动化有缺陷的思维而不是改善思考。
接下来是什么?
该研究的作者建议定期审核AI驱动的决策并完善AI系统以减少偏见。随着AI的影响力的增长,确保它可以改善决策 - 而不是仅复制人类缺陷 - 将是关键。
Queen University的Tracy Jenkin说,从GPT-3.5到4.0的演变表明,最新模型在某些领域变得越来越人性化。”
管理人员必须评估不同模型在其决策用例中的执行方式,并定期重新评估以避免惊喜。某些用例需要进行重要的模型改进。
作者:阿什利·史密斯(Ashley Smith)
来源:告知
接触:阿什利·史密斯(Ashley Smith)告知
图像:图像被认为是神经科学新闻
原始研究:开放访问。
经理和AI走进酒吧:Chatgpt是否像我们一样做出有偏见的决定?Tracy Jenkin等人。制造业和服务运营管理
抽象的
经理和AI走进酒吧:Chatgpt是否像我们一样做出有偏见的决定?
问题定义:大型语言模型(LLMS)越来越多地用于业务和消费者决策过程。
因为LLM从可能会偏见的人类数据和反馈中学习,因此确定LLM是否表现出人类样的行为决策偏见(例如,基本利率的忽视,风险规避,确认偏见等)在将LLM实施到决策和工作库中是至关重要的。
为了理解这一点,我们检查了18种在运营管理(OM)使用主导LLM Chatgpt的常见人类偏见。
方法/结果:我们执行实验,其中GPT-3.5和GPT-4充当参与者,使用改编自文献(标准环境)和变体中改装在库存和一般OM上下文中的变体来测试这些偏差。
在几乎一半的实验中,生成的预训练的变压器(GPT)反映了人类的偏见,与其余实验中的原型人类反应不同。我们还观察到,GPT模型在标准和特异性实验之间以及GPT-3.5模型的时间版本之间具有显着的一致性。
我们在GPT-3.5和GPT-4之间进行的比较分析揭示了GPT决策的双重进展,其中GPT-4的决策准确性提高了定义明确的数学解决方案的问题,同时表现出基于偏好问题的行为偏见的增加。
管理含义:首先,我们的结果强调,经理将从部署GPT到利用已建立公式的工作流程获得最大的好处。
其次,GPT在整个标准,库存和非企业操作环境中表现出很高的响应一致性,即使在决策和问题上下文的详细信息变化时,LLMS也可以提供可靠的支持。
第三,尽管在诸如GPT-3.5和GPT-4之类的模型之间进行选择代表了成本和绩效的权衡,但我们的结果表明,管理人员应该投资于表现较高的模型,尤其是用于解决目标解决方案的问题。
资金:这项工作得到了加拿大社会科学与人文研究委员会的支持[Grant SSHRC 430-2019-00505]。作者还感谢皇后大学的史密斯商学院提供资金来支持Y. Chen的博士后任命。