作者:Katie Paul
纽约——Facebook的所有者Meta公司于周五表示,将发布其研究部门开发的一批新的AI模型,其中包括一个“自学习评估器”,这可能会为减少人类在AI开发过程中的参与提供一条途径。
该发布紧随Meta公司在八月份的一篇论文中介绍的工具,详细介绍了它如何依赖于与OpenAI最近发布的o1模型所使用相同的“思维链”技术,以确保对模型响应做出可靠判断。
该技术涉及将复杂问题分解为更小的逻辑步骤,并且似乎可以提高在科学、编程和数学等学科中解决难题的回答准确性。
Meta的研究人员使用完全由AI生成的数据来训练评估模型,在这一阶段也消除了人为输入。
使用AI来可靠地评估AI的能力为构建能够从自身错误中学习的自主AI代理提供了一种可能的道路,该项目背后的两位Meta研究人员告诉路透社。
许多人工智能领域的专家设想这样的智能代理能够聪明到足以在没有人类干预的情况下完成各种任务。
自改进的模型可以消除当今常用的一种往往昂贵且低效的过程,即人类反馈强化学习(Reinforcement Learning from Human Feedback),该过程需要具有专门知识的人类标注员来准确地标记数据,并验证对复杂数学和写作查询的回答是否正确。
贾森·韦斯顿(一位研究员)说:“我们希望,随着人工智能变得越来越超乎人类,它在检查工作方面会越来越好,以至于实际上会比普通人更好。”
“自学和自我评估的能力基本上是达到这种超人类水平的人工智能的关键。”他说。
其他公司包括谷歌和Anthropic也发布了关于从AI反馈中进行强化学习的概念的研究。然而,与Meta不同的是,这些公司通常不会发布他们的模型供公众使用。
Meta公司在周五发布的其他AI工具包括对公司图像识别Segment Anything模型的更新、一个能够加快大型语言模型响应生成时间的工具以及可用于帮助发现新无机材料的数据集。