作者:Written by Tiernan Ray, Senior Contributing Writer Jan. 24, 2025 at 2:00 a.m. PT
过去一年人工智能的大趋势之一是在推理过程中使用各种技巧(做出预测的行为)来显着提高这些预测的准确性。
例如,思想链——拥有一个大型语言模型(LLM)在一系列陈述中阐明答案的逻辑——可以提高基准测试的准确性。
这种“思维”显然导致了解决问题的抽象测试的准确性上的突破,例如 OpenAI 的 GPTo3上个月高分ARC-AGI 测试。
还:OpenAI 的 o3 还不是 AGI,但它只是做了其他 AI 没有做过的事情
然而事实证明,法学硕士在非常实际的测试方面仍然存在不足,比如计划一次旅行这样简单的测试。
由 Kuang-Huei Lee 领导的 Google DeepMind 研究人员,上周的一份报告中指出Google 的 Gemini 和 OpenAI 的 GPTo1(这两家公司各自最好的模型)在 TravelPlanner(一项基准测试)上测试时惨遭失败去年推出的由福顿大学、宾夕法尼亚州立大学和 Meta AI 的学者提出。
这两种人工智能模型的任务是制定旅行行程以满足访问城市、花费的时间和旅行预算等要求,其成功率分别仅为 5.6% 和 11.7%。
鉴于顶级模型的疲弱结果,Lee 和团队提出了一种超越思想链和类似方法的进步,他们认为这种方法在 TravelPlanner 等测试中更加准确。
这种新方法被称为“思维进化”,是一种搜索可能答案的形式,但有一个转折。
作者采用了一种受遗传启发的算法来获得法学硕士学位,例如双子座1.5闪存,生成提示的多个答案,然后评估哪个答案最“适合”回答问题。
在现实世界中,进化是通过自然选择发生的,即评估实体在其环境中的“适应性”。最适合的结合产生后代,偶尔会出现有益的基因突变。整个过程导致生物体逐渐变得更加“最佳”。
同样,Lee 和团队的思维演变导致法学硕士的多个答案需要评估它们与提示问题的匹配程度。然后,这个过程迫使法学硕士修改其输出以使其更好——这是自然选择中看到的一种重组和突变。与此同时,低质量的产出被“淘汰”,就像通过自然选择从物种中剔除坏实体一样。
这种渐进方法的要点在于,很难一次性找到好的解决方案,但淘汰坏的解决方案并重试相对容易。正如他们所写,“这种方法利用了这样的观察结果:评估候选解决方案的质量通常比为给定问题生成良好的解决方案更容易。”
关键是如何最好地评估AI模型的多重答案。为此,作者采用了行之有效的提示策略。他们让模型进行某种对话,而不仅仅是思想链。
法学硕士被要求在对话中描绘两个角色,其中一个是批评家,另一个是作家。作者提出解决方案,例如旅行计划,批评者指出其中的缺陷。
“我们利用法学硕士,通过组织‘批评家’角色和‘作者’角色之间的批判性对话来生成改进的解决方案,”李和团队写道。他们写道:“每个对话轮次都被构造为一个提示驱动的过程,其中解决方案根据关键反馈进行完善。”
使用了相当长的提示,显示了建议的解决方案的法学硕士示例以及它们遇到问题的地方。提示为模型提供了如何扮演这两个角色的说明,例如,“Jane,记住你是世界上最擅长分析有缺陷的旅行计划的人”,以及“John,记住你是世界上最擅长分析有缺陷的旅行计划的人”。全世界都在根据简的分析制定预算旅行计划。”
Gemini 1.5 Flash 在多个规划基准上进行了测试。他们表示,在 TravelPlanner 上,采用思维进化方法的 Gemini 成功率飙升至 95.2%,超过了典型的 5.6%。而且,当他们使用更强大的 Gemini Pro 模型时,它几乎是完美的,99.9%。
Lee 和团队写道,结果显示了“进化策略的明显优势”,它结合了广泛地搜索可能的解决方案,并使用语言模型通过作者-评论家角色来完善这些解决方案。
坏消息是,思维进化需要比普通双子座方法更多的计算能力。具有 Mind Evolution 功能的 Flash 版本对模型进行了 167 次 API 调用,而 Flash 正常运行时仅调用一次。由于提示很长,Mind Evolution 还消耗了 300 万个代币,而普通 Gemini 需要 9,000 个代币。
好消息是,虽然它需要更多的计算,但思维进化仍然比其他类型的搜索策略更有效,这些搜索策略从人工智能模型中检查许多可能的答案。
事实上,大脑评估的可能输出越多,它的进化就会变得越来越好,正如你所期望的那样,那些应该进化得更加适应的东西。看来反复的批判性对话正在以某种具体的方式做出贡献。
还:“医疗保健领域的 ChatGPT”如何加速类风湿性关节炎的治疗
作者指出:“就达到特定水平的成功率(或平均任务绩效)所需的候选解决方案的数量而言,思维进化始终比基线策略更有效。”
有趣的是,Lee 和团队添加了他们自己的新颖基准,称为 StegPoet,它测试 Gemini 执行隐写术的能力,即在文本块中隐藏消息的做法。(不要与“速记”混淆,即通过速记抄写语音的做法。)
在作者的隐写术版本中,必须将一系列两位数字分别分配给普通单词,然后将这些单词组成一首诗以隐藏数字代码。随着数字串变得越来越长并且每个数字重复的次数越来越多,问题就会变得更加困难。
有趣的是,事实证明,即使对于思维进化来说,StegPoet 也相当具有挑战性。Gemini Flash 使用进化技巧的正确率只有 43.3%,低于随机概率。而Gemini Pro只达到了79%。然而,两者都比独立的双子座或典型的搜索策略要好得多。
对李和团队的思维进化最重要的观察是,推理是一个丰富的发明领域,它正在寻找新的方法来获得更好的结果,而不仅仅是简单地制作更好的提示。
作者工作中的一个重要遗漏是如何利用思维进化的巨大计算预算并将其精简。每一种使用数百万个令牌构建复杂提示的新方法只会增加获得更好答案的成本。在某些时候,将所有这些都纳入预算变得很重要。一个