作者:Will Knight
现代大语模型(LLM)可能会写漂亮的十四行诗和优雅的代码,但甚至缺乏从经验中学习的基本能力。
马萨诸塞州理工学院(MIT)的研究人员现在已经为LLMS设计了一种方法,可以通过调整自己的参数来响应有用的新信息来不断改进。
这项工作是迈向建造的一步人工智能如果机器更忠实地模仿人类的智慧,那么不断学习该领域的长期目标以及至关重要的模型。同时,它可以为我们提供聊天机器人和其他AI工具,这些工具能够更好地整合新信息,包括用户的兴趣和偏好。
MIT方案称为自我调整语言模型(SEAL),涉及让LLM学会根据其收到的输入来生成自己的合成训练数据和更新过程。
``最初的想法是探索令牌(喂给LLMS并由其生成的文本单位)是否可能对模型产生强大的更新。” MIT的博士生Jyothish Pari说,与开发密封有关。帕里(Pari)说,这个想法是要查看是否可以使用模型的输出来训练它。
与建筑密封有关的麻省理工学院本科研究人员亚当·兹韦格(Adam Zweiger)补充说,尽管较新的模型可以通过执行更复杂的推断来改善解决方案,但该模型本身在长期的推理中并没有受益。
相比之下,密封会生成新的见解,然后将其折叠成自己的权重或参数。给出了有关阿波罗太空计划所面临的挑战的陈述,例如,该模型生成了新段落,这些段落试图描述该陈述的含义。研究人员将其与人类学生撰写和审查笔记的方式进行了比较,以帮助他们学习。
然后,系统使用此数据更新了模型,并测试了新模型能够回答一组问题的能力。最后,这提供了强化学习有助于指导模型的信号,以提高其整体能力并帮助其进行学习的更新。
研究人员在两个开源模型的中小型版本上测试了他们的方法骆驼和阿里巴巴QWEN。他们说,这种方法也应该为更大的边界模型工作。
研究人员测试了文本上的密封方法以及称为ARC的基准测试,该基准测量了AI模型解决抽象推理问题的能力。在这两种情况下,他们都认为密封使模型能够继续学习超出初始培训。
麻省理工学院监督工作的教授普尔基特·阿格拉瓦尔(Pulkit Agrawal)说,海豹突击队项目涉及AI中的重要主题,包括如何让AI自行弄清楚它应该尝试学习的内容。他说,很可能可以用来帮助使AI模型更个性化。LLM强大,但我们不希望他们的知识停止,”他说。
密封尚不是无限期改进的一种方法。一方面,正如Agrawal指出的那样,LLMS测试的LLM遭受了所谓的“灾难性遗忘”的困扰,“摄入新信息会导致较旧的知识简单地消失时看到的令人不安的效果。这可能表明人工神经网络与生物学网络之间存在根本差异。Pari和Zweigler还指出,SEAL在计算上是密集的,而且还不清楚如何最好地最好地安排新的学习时期。Zweigler提到的一个有趣的想法是,与人类一样,LLM也许可以在整合新信息的地方体验“睡眠”期间。
尽管如此,SEAL仍然是进一步的AI研究的令人兴奋的新途径,而且很可能是进入未来Frontier AI模型的方式。
您如何看待能够继续学习的AI?发送电子邮件至hello@wired.com让我知道。