英语轻松读发新版了,欢迎下载、更新

聊天机器人可能不准确。他们只需要更多时间来思考吗?

2025-01-23 14:00:00 英文原文

作者:Lauren Leffer

技术趋势几乎总是优先考虑速度,但是人工智能的最新时尚涉及放缓聊天机器人下降。机器学习的研究人员和包括OpenAI和Google在内的主要科技公司正在将重点从较大的模型尺寸和培训数据集转移,而是强调了所谓的“测试时间计算”。

这种策略通常被描述为给人工智能思考或理性的时间更多,尽管这些模型比人的大脑更加严格。似乎并没有赋予AI模型来解决问题的新自由。而是测试时间计算引入结构构建计算机系统以通过中间计算或应用于其最终响应的额外算法来检查其工作的干预措施。它比简单地延长时间限制的比较类似于进行考试开放式课程。

新受欢迎的AI-Improvement策略(实际上已经存在了几年)的另一个名称是推理缩放。推断是一个以前训练的AI通过新数据仰卧起来以执行新提示的任务的过程,无论是生成文本还是标记垃圾邮件。通过允许其他秒或几分钟的时间在用户的提示和程序的响应之间进行,并且通过在程序的关键推理中提供额外的计算能力,一些AI开发人员在该程序中看到了急剧的跳跃聊天机器人答案的准确性。


支持科学新闻

如果您喜欢这篇文章,请考虑支持我们屡获殊荣的新闻业订阅。通过购买订阅,您可以帮助确保有关当今世界的发现和想法有影响力的故事的未来。


测试时间计算对定量问题特别有用。我们看到的地方最令人兴奋的改进是代码和数学之类的东西。”阿曼达·伯茨(Amanda Bertsch),四年级的计算机科学博士卡内基·梅隆大学(Carnegie Mellon University)的学生,在那里学习自然语言处理。Bertsch解释说,当有客观正确的响应或确定更好或更糟糕的方法时,测试时间计算提供了最大的好处。

该公司声称,Openai最近发布了O1的最新公开模型,为ChatGpt风格的机器人提供动力,在编写计算机代码和正确回答数学和科学查询方面要比其前任更好地回答数学和科学查询。最近的博客文章将O1描述为响应编程竞赛中使用的提示,在回答博士学位的物理学,生物学和化学问题方面的准确性高达八倍。Openai将这些改进归因于测试时间计算和相关策略。OpenAi的通讯官Lindsay McCallumRémyMy My My My My My My My My My My My My My My My My My My My My My My My My My My My My My My My My My My My My My My and My My My My My My My My My My My My My My My and My My My My My My My My My My My My My My My My My My My My My My My My My My My My My My My My My My My仍是O3仍在进行安全测试的后续模型,几乎是O1的三倍。。

其他尚未经过同行评审的预印本研究发行的大多数学术分析也报告了同样令人印象深刻的结果。测试时间计算可以提高AI准确性和解决复杂推理问题的能力。Aviral Kumar,卡内基梅隆大学的计算机科学和机器学习助理教授。他对自己的领域转向这一策略感到兴奋,因为当人们额外的节奏来解决棘手的问题时,我们会给我们提供同样的恩典。他认为这可以使我们更接近具有人类智力的模型。

似乎他们都使模型变得更好。而且我们真的不明白它们之间的关系。

即使没有,测试时间计算也为改进大型语言模型或LLM的主要方法提供了一种实用的替代方法。构建更大模型并培训它们的昂贵,蛮力的方法越来越大的数据集现在提供回报减少。伯特施(Bertsch)表示,测试时间计算已证明其值得在不夸大已经无所不能的模型或强迫开发人员从一个稳定的绩效提高方面的价值供应量减少。然而,增加测试时间可以解决一切;它具有自己的权衡和限制。

大伞

AI开发人员有多种调整测试时间计算过程的方法,从而改善模型输出。伯茨说,这是一套非常广泛的事物。

最基本的方法是任何有计算机可以在家中做的人:要求聊天机器人对单个问题产生许多回答。生成更多答案需要更多的时间,这意味着推理过程需要更长的时间。思考它的一种方法:用户成为人类脚手架的一层,将模型引导到最准确或最适合的答案中。

另一种基本方法涉及提示聊天机器人报告解决问题所需的中间步骤。该策略被称为“思考链”提示,在2022预印纸由Google研究人员。同样,用户也可以简单地要求LLM在生成后进行仔细检查或改进输出。

一些评估表明,经过思考链的提示和相关的自我纠正方法改善了模型输出,尽管其他研究表明这一点表明这些策略 是不可靠的容易产生相同的各种幻觉如其他聊天机器人输出。为了降低不可靠性,许多测试时间策略都使用外部验证者 - 根据预设标准训练了成绩模型输出的算法,并选择为朝着特定目标提供最佳步骤的输出。

在模型生成了可能的响应列表后,可以应用验证器。例如,当LLM生成计算机代码时,验证程序可能与运行代码以确保其工作的程序一样简单。其他验证者可能会通过多步问题的每个关头引导模型。测试时间计算的某些版本通过使用以这两种方式评估模型输出的验证程序来结合这些方法的逻辑:作为逐步过程,具有许多可能的分支路径,并作为最终响应。其他系统使用验证者在聊天机器人的初始输出或思想链中查找错误,然后给出LLM反馈以纠正这些问题。

Bertsch说,对于定量问题,测试时间计算非常成功,因为所有验证者都取决于存在可知的,正确的答案(或至少是比较两个选项的客观基础)。该策略对于改善诗歌或翻译等产量的有效性较小,其中排名是主观的。

在与上述所有方面略有不同之中,机器学习的开发人员还可以使用相同的算法在开发和培训过程中磨练模型,然后在期间应用它们测试时间

``现在我们拥有所有这些不同的技术,所有这些都有共同点,您只是在测试时进行额外的计算,并且基本上没有其他技术功能。”雅各布·安德烈亚斯(Jacob Andreas),马萨诸塞州理工学院的计算机科学副教授。似乎他们都使模型变得更好。而且我们真的不明白它们之间的关系。

尽管方法有所不同,但它们具有相同的固有局限性:生成速度较慢以及对更多计算资源,水和能源的潜在需求。环境可持续性已经一个日益严重的问题对于领域。

LLM可能需要大约五秒钟的时间来回答一个查询,而无需任何添加测试时间计算。EkinAkyã¼rek,计算机科学博士Andreas建议的M.I.T.的候选人。但开发的方法Andreas及其同事通过Akyã¼Rek将回应时间提高到五分钟。对于某些应用程序和提示,增加推理需要多长时间才有意义,这是没有意义的。Dilek Hakkani-Tur,伊利诺伊大学Urbana-Champaign大学计算机科学教授。Hakkani-Tur曾广泛致力于开发AI对话代理,并与Amazon的Alexa等用户交谈。她说,在那里,速度至关重要。对于复杂的互动,用户可能不介意几秒钟的暂停Bot的响应。但是,对于一个基本的来回,一个人可能必须等待不自然的时间。

更多的时间也意味着更多的计算工作和金钱。让O3执行一个任务可以花费Openai $ 17或超过$ 1,000根据流行的AI基准测试的创建者的估计,根据所使用的软件的版本,该测试被授予早期访问AI的访问。如果大型用户群将模型询问数百万次,将计算投资从培训转移到推理将使所有这些提示迅速加起来,加起来是重大的财务负担和巨大的能源。查询诸如chatgpt之类的LLM已经使用估计有10次Google搜索的功能。Akyã¼Rek说,从五秒钟到五分钟,增加了数量的能量需求。

但这在每种情况下都不是一定的弊端。如果增加测试时间计算允许较小减少Hakkani-tur说,在某些情况下,生成的AI能源消耗。最终平衡取决于诸如预期用途,查询模型的频率以及模型是否足够小以在本地设备而不是远处服务器堆栈上运行的问题。她补充说,需要仔细计算优点。``我会研究如何使用模型的更大了解。也就是说,AI开发人员应该在鼓励他们的作品做同样的事情之前进行漫长而艰苦的思考。

关于《聊天机器人可能不准确。他们只需要更多时间来思考吗?》的评论


暂无评论

发表评论

摘要

人工智能的最新趋势涉及通过“测试时间计算”来降低聊天机器人,以提高准确性,这可以在推理过程中提供更多的计算能力,而不是训练。此方法使用验证者检查模型输出,并可以提高定量任务的性能,但对于诗歌或翻译等主观内容的有效性较小。尽管测试时间计算增加了能源消耗和计算资源,但它也可能使较小的模型能够通过更少的培训来表现更好,从而有可能在某些情况下降低整体环境影响。该策略的有效性根据应用程序需求和用户对响应时间的期望而有所不同。