AI像我们一样思考：缺陷，偏见和所有研究发现 - 神经科学新闻

2025-04-01 21:38:56 英文原文

作者：Neuroscience News

概括：一项新的研究发现，在做出主观决策时，Chatgpt虽然擅长于逻辑和数学，但在逻辑和数学方面出色，表现出与人类相同的认知偏见。在对常见判断错误的测试中，AI表现出过度自信，风险规避，甚至是经典的赌徒的谬论，尽管它避免了其他典型的人类错误，例如基本利率忽视。

有趣的是，在某些情况下，AI的新版本在分析上更准确，但在某些情况下也表现出更强的基于判断的偏见。这些发现引起了人们对依靠AI进行高风险决策的担忧，因为它可能不会消除人为错误，而是自动化它。

关键事实：

容易发生的AI：在经过测试的场景中，Chatgpt显示出类似人类的认知偏见。
判断与逻辑：AI擅长客观任务，但在主观决策方面挣扎。
需要监督：专家警告说，应像人类决策者一样对AI进行监控。

来源：告知

我们真的可以相信AI比人类做出更好的决定吗？一项新的研究说 - 并非总是如此。

研究人员发现，在某些情况下，Openai的Chatgpt是最先进和流行的AI模型之一，与人类犯了与人类一样的决策错误。 - 表现出偏见，例如热手（赌徒）谬论的过度自信 ``尚未在其他人中表现不人道（例如，没有遭受基本利率忽视或沉没的成本谬论）。

发表在 通知期刊制造和服务运营管理，该研究表明，Chatgpt不仅仅是Crunch数字 - 它以类似于人类的方式思考，包括精神捷径和盲点。

这些偏见在不同的业务情况下仍然相当稳定，但随着AI从一个版本发展到另一个版本，可能会改变。

AI：具有类似人类缺陷的智能助手

这项研究， 经理和AI走进酒吧：Chatgpt是否像我们一样做出有偏见的决定？一个通过18种不同的偏置测试将CHATGPT放置。结果？

人工智能陷入了人类的决策陷阱在近一半的测试中，Chatgpt表现出诸如过度自信或歧义性厌恶和歧义性谬误（又名linda问题）之类的偏见。
AI擅长数学，但在判断电话中挣扎它在基于逻辑和概率的问题上表现出色，但在决策需要主观推理时会偶然发现。
偏见没有消失尽管较新的GPT-4模型在分析上比其前身更为准确，但有时会显示更强基于判断的任务偏见。

为什么这很重要

从雇用工作到贷款批准，AI已经在塑造商业和政府的重大决定。但是，如果AI模仿人类的偏见，它是否可以加强错误的决定而不是修复它们？

当AI从人类数据中学习，它也可能像人类一样思考 - 西方大学的首席作家兼助理教授杨陈（All）说。

我们的研究表明，何时使用AI进行判断，有时会采用与人们相同的心理捷径。

研究发现，Chatgpt倾向于：

安全地玩AI避免了风险，即使更风险的选择可能会产生更好的结果。
高估自己ChatGpt假设它比实际的准确。
寻求确认AI有利于支持现有假设而不是挑战它们的信息。
避免歧义 AI更喜欢替代方案具有更多的某些信息和更少的歧义。

``当一个决定有明确的答案时，AI钉了 - 找到合适的公式比大多数人更好。”一个皇后大学的Anton Ovchinnikov。但是，当审判涉及时，人工智能可能与人们陷入相同的认知陷阱。

那么，我们可以相信AI做出重大决定吗？

随着政府在全球遵守AI法规的工作，这项研究提出了一个紧迫的问题：当它像人类一样偏见时，我们是否应该依靠AI进行重要的呼吁？

UNSW商学院的塞缪尔·柯什纳（Samuel Kirshner）说。<如果没有选中，它可能无法解决决策问题。” - 它实际上可能会使它们变得更糟。

研究人员说，这就是为什么企业和政策制定者需要像人类决策者一样密切地监视AI的决定。

AI应该像做出重要决定的员工一样对待 - 麦克马斯特大学的Meena Andiappan说，它需要监督和道德准则。否则，我们有可能自动化有缺陷的思维而不是改善思考。

接下来是什么？

该研究的作者建议定期审核AI驱动的决策并完善AI系统以减少偏见。随着AI的影响力的增长，确保它可以改善决策 - 而不是仅复制人类缺陷 - 将是关键。

Queen University的Tracy Jenkin说，从GPT-3.5到4.0的演变表明，最新模型在某些领域变得越来越人性化。”

管理人员必须评估不同模型在其决策用例中的执行方式，并定期重新评估以避免惊喜。某些用例需要进行重要的模型改进。

关于这个AI和认知研究新闻

作者：阿什利·史密斯（Ashley Smith）
来源：告知
接触：阿什利·史密斯（Ashley Smith）告知
图像：图像被认为是神经科学新闻

原始研究：开放访问。
经理和AI走进酒吧：Chatgpt是否像我们一样做出有偏见的决定？Tracy Jenkin等人。制造业和服务运营管理

抽象的

经理和AI走进酒吧：Chatgpt是否像我们一样做出有偏见的决定？

问题定义：大型语言模型（LLMS）越来越多地用于业务和消费者决策过程。

因为LLM从可能会偏见的人类数据和反馈中学习，因此确定LLM是否表现出人类样的行为决策偏见（例如，基本利率的忽视，风险规避，确认偏见等）在将LLM实施到决策和工作库中是至关重要的。

为了理解这一点，我们检查了18种在运营管理（OM）使用主导LLM Chatgpt的常见人类偏见。

方法/结果：我们执行实验，其中GPT-3.5和GPT-4充当参与者，使用改编自文献（标准环境）和变体中改装在库存和一般OM上下文中的变体来测试这些偏差。

在几乎一半的实验中，生成的预训练的变压器（GPT）反映了人类的偏见，与其余实验中的原型人类反应不同。我们还观察到，GPT模型在标准和特异性实验之间以及GPT-3.5模型的时间版本之间具有显着的一致性。

我们在GPT-3.5和GPT-4之间进行的比较分析揭示了GPT决策的双重进展，其中GPT-4的决策准确性提高了定义明确的数学解决方案的问题，同时表现出基于偏好问题的行为偏见的增加。

管理含义：首先，我们的结果强调，经理将从部署GPT到利用已建立公式的工作流程获得最大的好处。

其次，GPT在整个标准，库存和非企业操作环境中表现出很高的响应一致性，即使在决策和问题上下文的详细信息变化时，LLMS也可以提供可靠的支持。

第三，尽管在诸如GPT-3.5和GPT-4之类的模型之间进行选择代表了成本和绩效的权衡，但我们的结果表明，管理人员应该投资于表现较高的模型，尤其是用于解决目标解决方案的问题。

资金：这项工作得到了加拿大社会科学与人文研究委员会的支持[Grant SSHRC 430-2019-00505]。作者还感谢皇后大学的史密斯商学院提供资金来支持Y. Chen的博士后任命。

关于《AI像我们一样思考：缺陷，偏见和所有研究发现 - 神经科学新闻》的评论

暂无评论

发表评论

摘要

一项发表在Informs Journal制造和服务运营管理上的新研究表明，尽管在做出主观决策时，Chatp在逻辑和数学任务方面表现出色，但表现出类似人类的认知偏见，例如过度自信和风险规避。AI在近一半的测试场景中表现出偏见，尽管诸如GPT-4之类的新版本在分析上更准确，但它们表现出更强的基于判断的偏见。这引起了人们对AI对高风险决策的可靠性的担忧，这表明监督对于防止有缺陷的人类思维自动化是必要的。研究人员建议定期审核和对AI系统的改进，以减少偏见，因为AI的影响力在商业和政府环境中增长。

AI像我们一样思考：缺陷，偏见和所有研究发现 - 神经科学新闻

关于这个AI和认知研究新闻

关于《AI像我们一样思考：缺陷，偏见和所有研究发现 - 神经科学新闻》的评论

发表评论

摘要

相关新闻

相关讨论