作者:By Michael HiltzikBusiness Columnist Nov. 1, 2024 3 AM PT
看看你能否解决这道算术题:
周五,奥利弗采摘了 44 个奇异果。然后他在周六采摘了 58 个猕猴桃。周日,他采摘的猕猴桃数量是周五的两倍,但其中有五个比平均水平要小一些。奥利弗有多少个猕猴桃?
如果您的答案是“190”,那么恭喜您:您的回答与普通小学生一样好,答对了。(星期五 44 加星期六 58 加星期日 44 乘以 2,即 88,等于 190。)
你的表现也比 Apple 人工智能研究团队测试的 20 多个最先进的人工智能模型还要好。他们发现,人工智能机器人总是会出错。
苹果这样做的事实引起了很多关注,但没有人会对结果感到惊讶。
– 人工智能评论家加里·马库斯
当苹果团队试图解析以论文形式编写的简单数学问题时,他们发现这些模型出现了“灾难性的性能下降”。在这个例子中,负责解决这个问题的系统通常不明白奇异果的大小与奥利弗拥有的奇异果数量无关。因此,有些人从总数中减去了 5 个尺寸较小的奇异果,得到的答案是“185”。
研究人员认为,人类学童更善于辨别相关信息和无关紧要的曲线球之间的差异。
从 Michael Hiltzik 获取最新信息
普利策奖获得者对经济学等的评论。
您有时可能会收到来自《洛杉矶时报》的促销内容。
苹果公司的调查结果于本月早些时候发表在技术论文这引起了人工智能实验室和外行媒体的广泛关注,不仅因为结果有据可查,还因为研究人员为美国领先的高科技消费公司工作,而这家公司刚刚为 iPhone 用户推出了一套所谓的人工智能功能。
“苹果公司这样做的事实已经引起了很多关注,但没有人会对结果感到惊讶,”加里·马库斯(Gary Marcus)说道,他对人工智能系统如何在市场上被宣传为“可靠”、“智能”持批评态度。. –
事实上,苹果公司的结论与早期的研究相吻合,这些研究发现大型语言模型(LLM)实际上并不“思考”,而是与作为其一部分的材料中的语言模式相匹配。“训练。”说到抽象推理,用圣达菲研究所认知和智力专家 Melanie Mitchell 的话说,“这是人类智力的一个关键方面”。这些模型还不够。
“即使是很小的孩子也善于从几个例子中学习抽象规则,”米切尔和同事去年写道让 GPT 机器人经历一系列类比难题之后。他们的结论是“人类和最先进的人工智能系统之间在基本抽象推理方面仍然存在巨大差距。”
这一点很重要,因为 GPT 等法学硕士是引起公众关注的人工智能产品的基础。但苹果团队测试的法学硕士一直被他们接受训练的语言模式所误导。
苹果研究人员着手回答这个问题:“这些模型是否真正理解数学概念?”正如主要作者之一 Mehrdad Farajtabar 所说的那样X 上的线程。他们的答案是否定的。他们还思考他们发现的缺点是否可以轻松解决,他们的答案也是不能:“扩展数据、模型或计算可以从根本上解决这个问题吗?”Farajtabar 在他的帖子中问道。——我们不这么认为!——
苹果公司的研究以及有关人工智能机器人认知局限性的其他发现,是对兜售人工智能模型和系统的公司(包括 OpenAI 和谷歌 DeepMind 实验室)的推销宣传的急需纠正。
促销员通常将他们的产品描述为可靠的,他们的产品值得信赖。事实上,它们的输出始终令人怀疑,当它们用于绝对需要严格准确性的环境(例如医疗保健应用)时,会带来明显的危险。
但情况并非总是如此。“有些问题即使没有完美的解决方案,也可以赚大钱,”马库斯告诉我。例如,由人工智能驱动的推荐引擎可以引导亚马逊上的买家找到他们可能也喜欢的产品。如果这些系统的推荐有误,也没什么大不了的;顾客可能会花几美元买一本他或她不喜欢的书。
“但只有 85% 正确率的计算器就是垃圾,”Marcus 说。“你不会使用它。”
人工智能机器人的自然语言能力加剧了产生具有破坏性的不准确输出的可能性,它们以令人信服的自信精神提供甚至荒谬的不准确答案。当受到挑战时,他们常常会加倍强调自己的错误。
这些错误通常被人工智能研究人员描述为“幻觉”。这个术语可能会让这些错误看起来几乎无害,但在某些应用中,即使是极小的错误率也可能产生严重的后果。
这就是学术研究人员得出的结论最近发表的 Whisper 分析是 OpenAI 开发的一款人工智能驱动的语音转文本工具,可用于转录由惩戒官员监控的医疗讨论或监狱对话。
研究人员发现,样本中大约 1.4% 的 Whisper 转录音频片段包含幻觉,包括在转录的对话中添加完全捏造的陈述,包括“身体暴力或死亡……[或]性暗示”的描述。和人口刻板印象。
这听起来可能是一个小缺陷,但研究人员观察到,这些错误可能会被纳入官方记录中,例如法庭证词抄录或监狱电话记录,这可能会导致官方决定基于“某项事实的短语或主张”。被告从未说过。 –
研究人员表示,2023 年末的 Whisper 更新提高了其性能,但更新后的 Whisper 仍然会定期且可重复地产生幻觉。
但这并没有阻止人工智能推广者无端吹嘘他们的产品。在10 月 29 日的推文,埃隆·马斯克邀请追随者将“X 射线、PET、MRI 或其他医学图像提交给 Grok(他的 X 社交媒体平台的人工智能应用程序)进行分析。”他写道,Grok“已经非常准确,并且会变得非常好。 –
不言而喻,即使马斯克说的是实话(不是绝对肯定的结论),医疗保健提供者用来分析医学图像的任何系统都需要比“非常好”要好得多,但是一个可能会定义该标准。
这让我们想到了苹果公司的研究。值得注意的是,研究人员并不是人工智能本身的批评者,而是相信人工智能的局限性需要被理解。Farajtabar 曾是 DeepMind 的高级研究科学家,另一位作者在他手下实习;其他合著者拥有计算机科学和机器学习方面的高级学位和专业经验。
该团队将他们的主题 AI 模型与从 8,000 多个小学算术问题中抽取的问题结合起来,测试学生对加法、减法、乘法和除法的理解。当问题中包含看似相关但实际上并不相关的条款时,模型的性能就会直线下降。
所有模型都是如此,包括 OpenAI、Meta’s Llama 开发的 GPT 机器人版本,Microsoft 的 Phi-3,Google 的 Gemma以及该公司开发的多种型号法国 Mistral AI 实验室。
有些人做得比其他人好,但随着问题变得更加复杂,所有的人都表现出性能下降。其中一个问题涉及一篮子学习用品,包括橡皮、笔记本和信纸。这需要求解器将每件商品的数量乘以其价格,然后将它们加在一起以确定整个篮子的成本。
当机器人还被告知“由于通货膨胀,去年价格便宜了 10%”时,机器人将成本降低了 10%。这会产生一个错误的答案,因为问题是问这个篮子现在的价格,而不是去年的价格。
为什么会发生这种情况?答案是,法学硕士是通过向他们提供从出版作品或互联网上抄下来的大量书面材料来培养或培训的,而不是试图教他们数学原理。法学硕士通过收集数据中的模式并尝试将模式与手头的问题相匹配来发挥作用。
但他们变得“过度适应他们的训练数据”,Farajtabar 通过 X 解释道。“他们记住了网络上的内容,并根据他们看到的例子进行模式匹配和回答。它仍然是一种[弱]推理类型,但根据其他定义,它不是真正的推理能力。”(括号是他的。)
这可能会限制人工智能的用途。正如人工智能开发人员所说,在关键任务应用中,人类几乎总是必须“处于循环之中”,审查明显或危险的不准确答案,或提供指导以防止机器人误解其数据、错误陈述什么他们知道,或者用捏造的东西来填补他们知识的空白。
在某种程度上,这令人欣慰,因为这意味着如果没有人类合作伙伴,人工智能系统就无法完成很多任务。但这也意味着我们人类需要意识到人工智能推广者夸大其产品功能并掩盖其局限性的倾向。问题不在于人工智能能做什么,而在于如何诱使用户思考它可以做什么。
“这些系统总是会犯错误,因为幻觉是固有的,”马库斯说。– 他们进行推理的方式是近似的,而不是真实的。在我们拥有新技术之前,这一切都不会消失。”