英语轻松读发新版了,欢迎下载、更新

一系列深入的研究发现人工智能导致的问题远远超过其解决的问题。为什么?

2025-06-30 09:11:11 英文原文
(来自Pixabay的Ergoneon图片)

另一天,关于人工智能及其企业使用的另一份报告或研究论文。这是本月引起我关注的故事。(自己做好准备:新闻不好。但是它非常有用,所以请继续阅读。)

首先,加特纳(Gartner)的分析师预测,超过40%的代理AI项目将在2027年底取消。鉴于企业中代理解决方案的滚雪球,这是一个令人不安的发现,这使某些用户为每个应用程序或平台提供了代理。

但是,挑战不是提供商中的“我太”市场,尽管这是用户中我们所说的“代理疲劳”的因素。主要原因是成本上升和不清楚的业务价值。

也就是说,提供商方面有一个“我也是”的元素。一些供应商从事“代理洗涤”,重新挑战AI助手或市场领先的聊天机器人,而无需提供特定于行业的代理商提供的自动元素。根据Gartner的估计,只有成千上万的代理AIS中只有130个左右是真实的。卖方市场似乎不是买家的市场。

该公司高级主任分析师Anushree Verma并没有举起任何拳头,他说:

目前,大多数代理AI项目都是早期实验或概念证明,主要由炒作驱动,并且经常被误用。大多数代理AI主张缺乏重大价值或投资回报率,因为当前模型没有自主实现复杂业务目标或随着时间的流逝遵循细微的指示的成熟和代理。

即便如此,这项技术仍将维持一个业务:到2028年,根据Gartner的说法,所有企业软件的三分之一将包括Agesic AI,其中15%可复制的日常决定是由该技术自主做出的,该公司认为该公司40%的项目中有40%的项目将被废除。

因此,代理AI是一个以互联网速度巩固的市场,以不耐烦的资本支持,并且担心可衡量的业务价值变得比CEO在炒作周期的上升能力上越来越重要。那是我的观点。

投资现实无法与炒作相匹配

但是,并非每个人都认为Gartner对可衡量的AI和成本上升的恐惧是真正的企业挑战。API测试专家Apicontext的首席产品官Jamie Beckland注释:

这些项目中的大多数没有失败,因为该技术不起作用,因此它们失败了,因为他们依靠的应用程序编程界面(API)并非构建以支持代理使用。如今,大多数企业API仍针对Web和移动应用程序进行优化,而不是自主代理。

这可能是真的,也是发现销售机会的一轮掌声 - 但这不是Gartner所说的。如果业务案例脆弱,则没有任何优化可以修复“我也是”包装或偿还前期投资。供应商正在制作干草,而阳光明媚 - 当然是 - 但这不是一个迹象表明秋天即将到来吗?

在这一点上,在某些提供商的脑海中,可衡量的业务价值。SS&C Blue Prism的全球企业AI研究对1,650名首席执行官(CEO),首席技术官(CTO)和高级信息技术(IT)领导者进行了调查,这不足为奇,这并不奇怪,发现其中92%的人正在使用AI来转变商业运营,但有55%的商业运作,但有55%的人看不见“受益匪浅”。

同时,资产管理公司Bowmore的四月研究表明,以AI为中心的投资基金每年损失货币,平均收益为2024年的同一时期。正如我们当时指出的那样,“与无与伦比的炒作有关的事情,没有转化为可衡量的ROI和业务价值?”

世界上的财务评论员现在正在闻到麻烦。上周,这位经济学家将AI的估值描述为“在没有促进的”中,其公司的价值(炒作和首席执行官的声明)是“动量”(不是指标)。

看来,这些首席执行官需要社交平台来使泡沫充气,这使其成为基于信念的市场,而不是ROI。实际上,就像90年代后期的Dotcom Boom一样。(我们都知道接下来发生了什么。)

《金融时报》在6月26日进行了不同的策略。西海岸的编辑理查德·沃特斯(Richard Waters)指出,AI回报尚未证明投资狂热是合理的。同时,供应商的资本支出失控了。沃特斯解释说:

但是,值得注意的是,自一年前的警告以来,AI的更广泛的收入前景发生了什么变化。希望(和炒作)一如既往地强大,但是至少在短期内,回报率会从何处证明巨额资本支出是合理的。

美国银行证券预测,对于整个科技行业来说,数据中心的支出将从去年的3330亿美元跃升至2030年的约1万亿美元。到了这一时期,有83%的资金将用于与AI相关的投资。

哎哟。那么,收入将从何处证明这种支出是合理的?从阴影中采用工业化版权盗窃的果实?我预测,当真正的愤怒正在增长时,供应商抓住了世界数据,将其倒在AI搜索中,然后以更昂贵的订阅方式将其租给我们。

《金融时报》指出,微软的AI收入仅占其今年预期总数的5%,而OpenAI的订阅收入逐年翻了一番,达到100亿美元的令人印象深刻,但支撑资本支出(CAPEX)的一小部分。总和不会加起来。

值得称赞的是,微软首席执行官萨蒂亚·纳德拉(Satya Nadella)一直是最近几周对该主题的常识的灯塔,即使他的Openai的Sam Altman错误的病房对人工通用情报(AGI)提出了荒谬的主张,就像一个过度活跃的孩子向拥有真实房子的人解释了Minecraft。

Microsoft在今年早些时候撤回了其数据中心的规定,但最近Nadella已归零了AI的能源使用情况。请记住,云数据中心已经比世界第四大经济体日本使用了更多的能源,后者拥有1.25亿人。到2030年,当供应商的投资达到1万亿美元时,他们将使用多少能源?

在6月17日在旧金山的AI创业学校进行的炉边聊天中,纳德拉解释说,AI必须向公众证明其在医疗保健,教育和生产力等领域的庞大能源消耗和碳成本可产生可衡量的价值。

很正确。但是,AI的问题之一是,作为研究的研究表明,它在很大程度上被用来削减拐角处的个人将其部署为阴影,而不是解决世界上最紧迫的问题。

它是作为治疗癌症,全球变暖或心脏病的治疗方法的出售给公众的,而是作为首席执行官的艺术,音乐,视频和文字的无力发电机,他们隐含地贬低了人类代理和才华。这就是为什么反对技术正在增长的原因,它可能会积极阻止市场实现社会和经济盈余的原因。

(与此同时,人形机器人制造商正在增殖,希望具体的情报能够转移数十亿个单位,并且需要一个支持数据基础设施。但是,许多公司尚未定义,令人信服的是,这样的机器人实际上将以中型家庭汽车的价格实际上做的事情。)

阴影AI的采用揭示了不舒服的真理

但是回到企业中的影子AI。本月的两项研究就它们所识别的广泛趋势而言,呈现出相似的结果。

首先,波士顿咨询集团(BCG)的AI工作报告对11个市场的10,000多名用户进行了调查,包括美国(美国),英国(英国),德国,印度和中东。它发现Shadow AI采用(未经许可的个人用途)仍在上升,有54%的员工乐于在工作中使用未经授权的AIS。年轻的员工(Gen-Z和千禧一代工人)最有可能绕过企业限制(62%)。

其次,尽管从不同的角度来看,人类风险管理和网络安全平台的报告得出了类似的结论。它对美国,英国,德国,南非,荷兰和法国用户的调查发现,在工作场所,AI的采用率为60%。但是,只有17%的员工使用其IT和安全团队知识的应用程序和10%的输入特权客户数据。

后者本身就是一个令人不安的发现。先前的安全报告发现,聊天机器人,生成AIS(Gen AIS)和大型语言模型(LLMS)的用户经常将敏感或专有数据粘贴到其云接口中,而源代码为最大的皇冠珠宝。

无论哪种方式,BCG和Knowbe4的发现在过去三年中与其他报告相呼应,并在炒作下揭示了一个不便的真相。所谓的企业AI的采用依据仍然是个人员工使用CHATGPT未经批准的个人员工,对数据完整性和安全性很少。这几乎不是可衡量的ROI的配方。

反过来,这导致了一些关键问题:那些员工是否会变得更聪明 - 就像Altman估计的工具一样,这种工具是这样的,而博士学位级别的助手是否在口袋里?还是他们只是节省时间?(如果他们节省了时间,那么他们在做什么?)

首先,另一个向BCG点头,发现近一半的员工(49%)每天使用AI节省超过一个小时。好消息!但是有60%的受访者表示,他们根本没有获得有关如何重新投资时间做有用的事情的指导。

因此,再次,这不是可衡量的ROI或企业生产力提高的秘诀。如果每位员工只浪费了一个小时,那么一家企业所取得的一切都是自动化的懒惰。

但是AIS和他们的用户真的变得更聪明吗?在这一点上,las,至少根据LLMS行为和人类行为的许多学术研究,这一消息确实令人震惊。

学术研究揭示了AI的认知局限性

首先,Laban等人的一份研究论文发现,LLMS在与用户的扩展对话中,在多转弯教学设置中挣扎。

作者写道:

我们的实验证实,我们测试的所有顶级开放式LLM和多转交流的性能都明显低于单转弯,而在六代任务中,平均下降了39%。

对200,000多个模拟对话的分析将绩效降解分解为两个组成部分:能力损失较小,不可靠性显着提高。

那么,这对用户意味着什么?作者将其阐明:

我们发现,LLM经常在早期进行假设,并过早地尝试生成过度依赖的最终解决方案。用更简单的话来说,我们发现当LLM在对话中错误转弯时,他们会迷路并且不会恢复。

简而言之,与LLM互动,并尝试更深入地调查一个主题,并且很可能会幻觉并开始说话。(有点像试图询问Sam Altman关于可验证的事实。)

这样的发现并不罕见。直到去年,未来主义的一篇文章才成为标题。 当AI用尽人类材料并开始以AI生成的材料为食时,它会自我腐败并出现干草。当互联网被合成数据和AI生成的内容覆盖时,这并不是一个小问题,这引起了模型崩溃的可能性。

正如我在AI春季以来的几份报告中所指出的那样,当前AI繁荣的挑战之一是,我们轻松地使LLM拟人化LLM:我们将其认识和认知投射到他们身上,因为他们使用了与智能人士相同的语言 - 接受过刮擦的人类光彩。

苹果在2025年6月的论文中,几乎没有在企业的先锋中解决了这个问题,“思考的幻觉:通过问题复杂性的角度了解推理模型的优势和局限性”。该论文引起了争议,并且与许多人相矛盾,但关于大型推理模型(LRMS)的有趣观点:

通过在各种难题之间进行广泛的实验,我们表明Frontier LRMS面临着超出某些复杂性的完全准确性崩溃。此外,他们表现出违反直觉的缩放限制:他们的推理努力随着问题的复杂性而增加,然后尽管有足够的标记预算,但仍会下降。

因此,就其一般主题而言,这与Laban等人的发现类似:接受AI的初始答复(也许),但更深入地探测,您可能会变得胆小。

但这只是冰山一角:学术界本月对AI有更多的坏消息,例如关于Arxiv的研究论文,标题为“ “欧米茄:LLM可以在数学上推销框外推理吗?”

作者,Sun等人解释:

最近的大型语言模型(LLMS)具有长期的经过思考的推理,例如DeepSeek-R1'在奥林匹克级数学基准上取得了令人印象深刻的结果。但是,他们经常依靠一组狭窄的策略,并在需要一种新颖思维方式的问题上挣扎。为了系统地研究这些局限性,我们引入了欧米茄(Omega)的分数数学问题评估,并使用三个概括轴进行了评估。

那么,研究人员的标题结果是什么?

我们评估Frontier(或顶级)LLM,并随着问题的复杂性的增加而观察到急剧的性能降解。

再次是相同的主题。即使是首席执行官提出奢侈主张的领先LLM,当问题变得更加复杂或离他们的培训令牌太远时,也要挣扎。这听起来像Altman,Amodei和其他人声称几乎可以触及的AGI?

因此,尽管AI自行任命的贤哲(其推销员)的话,我们还是应该将其视为有用的工具,而不是触手可及的博士学位天才。换句话说,我们必须停止拟人化AI,只是因为他们使用与出色的人相似的语言。取而代之的是,我们应该了解,大多数LLM都是受到世界人类专家的代币训练的概率模式发生器。

但是不要相信我的话。 “停止拟人化中间令牌作为推理/思维痕迹!”是五月份在Arxiv上发表的Khambhampati等人的论文中的对抗性标题。

首席作者在X上写道:

这些拟人化趋势包括将中间令牌视为LLM的“思维”的可解释痕迹,并使中间令牌的长度混淆为“思维努力”。

纸本身很钝:

我们提供证据表明,这种拟人化不是无害的隐喻,而是非常危险的 - 它使这些模型的性质以及如何有效使用它们的性质混淆并导致可疑的研究。

有想法吗?但是,除此之外,肯定是领先的LLM,聊天机器人和其他AI的企业用户必须变得更聪明,对吗?当然,它们比我们依靠Google,书籍,博客,视频和网站更出色?好吧,根据本月的其他一些发现。

用户变得愚蠢

例如,《华尔街日报》于6月26日发表了研究,表明那些要求LLMS解释主题的人,而不是积极探索它自己的理解较弱。

结论?

调查结果表明,LLM访问的便利性可减少积极的参与和学习深度。

但是,也许最令人震惊的发现来自Kosmyna等人的206页研究,于6月10日提交给Arxiv。

标题为 “您的大脑在chatgpt上:使用AI助手进行论文写作任务时的认知债务积累”,这项研究研究了一群波士顿学生在三种不同的情况下如何制作论文:仅使用chatgpt;仅使用Google搜索;并仅依靠他们多年学习的知识。

在不寻常的举动中,研究人员使用脑电图(EEG)耳机在撰写论文时测量和评估学生的认知负担,然后在受控条件下独立评估论文本身。

那么,标题是什么?

唯一的脑部参与者表现出最强,最分布的[认知]网络。搜索引擎用户表现出适度的参与度;LLM用户显示最弱的连接性。与外部工具使用有关的认知活动缩小。

坦率地说,人们在使用AIS时就停止思考,并开始失去学习能力。的确,当习惯性的ChatGpt用户不得不撰写由AI统一的文章时,他们的大脑连接性和引用能力仍然很低,这表明认知债务持久。

LLM用户还努力准确地引用自己的作品。实际上,只有17%的chatgpt用户可以引用自己的句子,而在“仅大脑”写作组中,有89%的句子。

作者补充说:

尽管LLM可以立即提供便利,但我们的发现突出了潜在的认知成本。在四个月的时间里,LLM用户在神经,语言和行为层面上的表现始终表现不佳。

这些结果引起了人们对LLM Reliance的长期教育意义的关注,并强调了对AI在学习中的作用的更深入探究的需求。

我的看法

这是温和的。我要补充的是,他们也强调了对AI在业务中的作用的深入询问。总而言之,似乎您的员工可能会变得笨拙,更快,并且与他们节省的时间无关。不完全是人类的黄金时代,是吗?

关于《一系列深入的研究发现人工智能导致的问题远远超过其解决的问题。为什么?》的评论


暂无评论

发表评论

摘要

Gartner预测,由于高成本和不明确的业务价值,到2027年,超过40%的代理AI项目将失败。尽管如此,到2028年,有三分之一的企业软件将包括代理AI。担心成千上万可用的代理AIS缺乏真正的代理AIS以及对炒作驱动的此类技术的错误应用,而不是有形的好处。由于员工在没有适当的指导的情况下使用未经授权的AIS,因此采用了Shadow IT的采用,导致效率低下和安全风险。学术研究还表明,先进的AI模型在复杂的任务中挣扎,并且可以随着时间的流逝而降低用户的认知能力,从而质疑其现实世界的实用性和影响力。