OC

Knowledge OS
鹦鹉螺口语
人工智能在商业中仍然表现不佳,很快就会出现
2026-03-17 00:38:00 · 英文原文

人工智能在商业中仍然表现不佳,很快就会出现

采访企业组织仍在努力弄清楚人工智能如何融入其业务,这可能是最好的,因为需要时间来理解人工智能生成的代码和内容引起的任何问题。

人工智能咨询服务联合创始人兼首席技术官 Dorian Smiley 表示:“目前没有人知道适合其机构的正确参考架构或用例是什么。”代码带,在接受采访时登记册。“很多人假装他们知道。但没有可借鉴的剧本。”

斯迈利和他的联合创始人兼首席执行官康纳·迪克斯 (Connor Deeks) 曾在全球咨询公司普华永道 (PwC) 工作过一段时间,并建立了自己的工作室来帮助引导组织实施人工智能战略。

他们认为,追逐人工智能的公司已经有些超前了。

“从大语言模型的角度来看,人们并没有真正解决底层文本的错误性,”迪克斯说。

迪克斯认为,如果你根据第一原理构建人工智能系统,它看起来将与今天提供的系统截然不同。他说,所有关于软件工程和办公室工作消失的讨论,“我们都不同意这些。”

他还声称公司也不想相信这一点。他说:“在大多数情况下,他们不想相信每个人都会被解雇,而且他们下面不会有任何人,特别是在这些机构内部的技术或信息组织中。”

缺少指标

斯迈利认为,组织考虑人工智能的第一步是在反馈循环中进行实验和迭代。他说,原因是人工智能仍然不能很好地发挥作用。

“即使在编码范围内,它也不能很好地工作,”斯迈利说。“我举个例子。代码可能看起来正确并通过了单元测试,但仍然是错误的。通常在基准测试中衡量的方式。因此,很多公司没有参与适当的反馈循环来了解人工智能编码对他们关心的结果的影响。代码行数、[拉取请求]数量,这些都是负债。这些不是工程卓越性的衡量标准。”

Smiley 表示,衡量工程卓越性的指标包括部署频率、生产周期、变更故障率、平均恢复时间和事件严重程度等指标。他坚持认为,我们需要一套新的指标来衡量人工智能如何影响工程绩效。

“我们还不知道那些是什么,”他说。

代码行数增加了 3.7 倍,性能却差了 2,000 倍

他说,一个可能有用的指标是衡量为获得批准的拉取请求(正式接受的软件更改)而燃烧的代币。这就是需要评估的事情,以确定人工智能是否有助于组织的工程实践。

为了强调没有此类数据的后果,史迈利指出了最近的一项尝试:使用 AI 在 Rust 中重写 SQLite

“它通过了所有单元测试,代码的形状看起来正确,”他说。它的代码行数增加了 3.7 倍,执行性能比实际 SQLite 差 2,000 倍。对于数据库来说,不可行的产品更糟糕。这是一场垃圾箱火灾。把它扔掉。你花在上面的所有钱都毫无价值。”

斯迈利认为,所有关于使用人工智能进行编码的乐观情绪都来自于错误的衡量。

“如果你测量代码行数和拉取请求,那么编码就有效,”他说。“如果你衡量质量和团队绩效,那么编码就不起作用。没有证据表明这正在朝着积极的方向发展。”

没有免费的午餐

Deeks 指出了最近 Amazon 和 AWS 发生的中断事件亚马逊坚称与人工智能无关– 作为未来的指标。

“从另一个角度来看,这就像天下没有免费的午餐,”史迈利说。“我们知道该模型的局限性。很难教他们新的事实。可靠地检索事实很困难。通过神经网络的前向传递是不确定的,特别是当您拥有利用内部独白来提高下一个标记预测效率的推理模型时,这意味着您每次都会得到不同的答案,对吧?那个独白将会有所不同。

“而且它们没有归纳推理能力。模型无法检查自己的工作。它不知道它给你的答案是否正确。这些都是 LLM 技术中没有人解决的基础问题。你想告诉我这不会在代码质量问题中体现出来吗?当然它会体现出来。”

斯迈利认为,新的指标至关重要,因为我们已经拥有数百万行人工智能生成的代码,而人类永远不会审查这些代码。

在商业应用的背景下,Deeks 指出退款由于一份包含人工智能生成错误的报告,德勤咨询公司不得不向澳大利亚政府提交报告。

“我们知道大型咨询公司现在正在大规模采用这种方法来编写他们的 PowerPoint 演示文稿,”Deeks 说。“这将导致巨大的诉讼和金钱损失,因为质量实际上没有被跟踪。每个人都相信这个童话故事,它已经很完美了。”

Smiley预计,人工智能应用于办公室工作时,会遇到与人工智能应用于编码时类似的问题。但由于缺乏针对幻觉商业建议的基准测试,发现人工智能错误将变得更加困难。

“这里的另一个挑战是激励措施不一致,”斯迈利说。他说,在普华永道等四大公司,合作伙伴希望获得更多收入和更高的利润。

“你给他们人工智能——他们会做什么?”他问道。“更多的工作,更少的人工工作。因此你会获得更多的收入,更高的利润。这并不适合说团队中的所有人员都将使用人工智能,但会审查人工智能的每一个输出。这些激励措施不一致。对主管的激励是停止与员工交谈,因为员工什么都不知道。[主管将]使用人工智能来做员工的工作。对员工来说,激励是更快地完成工作并去海滩。所有这些激励措施都不一致。以某种方式使人工智能与业务互补并交付成果。”

当公司知道服务公司正在使用人工智能时,他们会要求折扣

斯迈利预测,“对于人工智能的大量用户来说,与代码质量相关的问题将在八到九个月内出现。”

迪克斯预计诉讼数量将会不断增加,因为当错误的建议导致问题时就会发生这种情况。

“人们将继续感受到‘我必须采用这些东西,我必须做出人工智能决策’的压力。”他们将把这些东西投入生产,无论是在业务工作流程中还是在工程团队中。这种加速崩溃将使很多人失去工作。”

斯迈利表示,另一个可能的结果是定价压力——当公司知道服务公司正在使用人工智能工具时,他们会要求折扣。

迪克斯表示,极端的价格压力已经开始显现。“甚至毕马威也向另一家会计师事务所施压,要求其降低价格,因为他们一直说他们使用人工智能,”他说。“客户现在会说,‘哦,你正在用人工智能制作 PowerPoint 幻灯片。好吧,我想少付你钱。’”

另一个迫在眉睫的问题是,大型保险公司对为公司提供人工智能风险保障的承保保单变得谨慎起来。

斯迈利说:“保险承保人现在正在认真尝试取消应用人工智能的保单承保范围,而且没有明确的责任链。”“所以现在让我们想象一下,你是四大巨头,你确实被起诉了,你面临着定价压力,市场的变化超出了你的适应能力,现在你的承销商告诉你,‘哦,顺便说一句,我们不会承保你。’”

迪克斯说:“我们的一位朋友是美国最大的保险公司之一的高级副总裁,他直截了当地告诉我们,这是一个非常现实的问题,他不知道为什么人们不更多地谈论这个问题。”

他说,保险公司已经在游说州级保险监管机构,争取商业保险责任保单的豁免,这样他们就没有义务涵盖人工智能相关的工作流程。“这会杀死整个系统,”迪克斯说。

斯迈利补充道:“这里的问题是,如果一切都这么好,为什么保险承保人会不遗余力地禁止承保这些事情?他们通常非常擅长风险分析。”

迪克斯表示,他希望业内人士能够找到动力认真讨论需要克服的问题,而不是将这些问题视为即将崩溃的迹象。

“我们真的可以谈谈这件事吗?”他问道。“有人会谈论 AGI(通用人工智能)的对立面,以及它将如何在乌托邦式的未来接管一切吗?”

迪克斯认为,我们需要更清楚地了解人工智能对于金融、承保、实际业务和业务系统的实际操作意味着什么。®

关于《人工智能在商业中仍然表现不佳,很快就会出现》的评论

暂无评论

发表评论