人工智能代理的数学不成立
作者:Steven Levy
大人工智能公司答应我们2025 年将是“人工智能代理之年”。事实证明,2025 年是谈论人工智能代理,并将这一变革时刻推迟到 2026 年或更晚。但是,如果“我们的生活何时会被生成型人工智能机器人完全自动化,为我们执行任务并基本上管理世界?”这个问题的答案是这样的呢?纽约客卡通, “永远不怎么样?”
这基本上是几个月前发表的一篇论文的信息,这篇论文没有大张旗鼓地发表,恰逢“代理人工智能”被过度炒作的一年中。幻觉站:基于 Transformer 的语言模型的一些基本限制,–它旨在从数学上表明“法学硕士无法执行超出一定复杂性的计算和代理任务。”虽然我无法理解这门科学,但作者——一位前 SAP 首席技术官,在该领域的奠基人之一约翰·麦卡锡 (John McCarthy) 和他十几岁的神童儿子的指导下研究人工智能,用数学的确定性刺穿了代理天堂的愿景。他们说,即使推理模型超越了法学硕士的纯粹单词预测过程,也无法解决问题。
“他们不可能可靠,”父亲维沙尔·西卡 (Vishal Sikka) 告诉我。除了 SAP 之外,他还担任过印孚瑟斯 (Infosys) 首席执行官和甲骨文 (Oracle) 董事会成员,目前他领导着一家名为维亚奈。“那么我们应该忘记运行核电站的人工智能代理吗?”我问道。“完全正确,”他说。也许你可以让它归档一些文件或其他东西来节省时间,但你可能不得不承认一些错误。
人工智能行业的看法却不尽相同。一方面,人工智能代理的巨大成功是编码,它于去年开始兴起。就在本周的达沃斯论坛上,谷歌的诺贝尔奖获得者人工智能负责人杰米斯·哈萨比斯 (Demis Hassabis) 表示:报告的突破为了最大限度地减少幻觉,超大规模企业和初创公司都在推动代理叙事。现在他们有了一些备份。一家名为谐波正在报告人工智能编码方面的突破,该突破也取决于数学,并且在以下方面达到了最高基准可靠性。
Harmonic 由 Robinhood 首席执行官 Vlad Tenev 和斯坦福大学数学家 Tudor Achim 共同创立,该公司声称最近对其名为 Aristotle 的产品进行的改进(没有傲慢!)表明有办法保证人工智能系统的可信度。– 我们是否注定要生活在一个人工智能只会产生污水而人类无法真正检查的世界?那将是一个疯狂的世界,”阿希姆说。Harmonic 的解决方案是使用数学推理的形式方法来验证 LLM 的输出。具体来说,它用精益编程语言对输出进行编码,该语言以其验证编码的能力而闻名。可以肯定的是,Harmonic 迄今为止的关注点一直很狭窄——它的关键使命是追求“数学超级智能”,而编码在某种程度上是一种有机的延伸。像历史论文这样无法用数学验证的东西超出了它的范围。目前。
尽管如此,阿希姆似乎并不认为可靠的代理行为像一些批评家认为的那样是一个问题。“我想说,目前大多数模型都具有通过预订旅行行程进行推理所需的纯智能水平,”他说。
双方都是对的——或者甚至可能是同一边的。一方面,每个人都同意幻觉将继续成为令人烦恼的现实。在去年9月发表的一篇论文,OpenAI 科学家写道,“尽管取得了重大进展,但幻觉继续困扰着该领域,并且仍然存在于最新的模型中。”他们通过要求包括 ChatGPT 在内的三个模型提供主要作者论文的标题来证明这一令人不满意的说法。这三篇文章都编造了假标题,并且都误报了出版年份。在一篇关于该论文的博客中,OpenAI 闷闷不乐地表示,在人工智能模型中,“准确性永远不会达到 100%。”