大型语言模型无法超越上世纪七十年代的一项技术,但它们仍然值得使用——这是为什么

2024-10-13 19:15:00 英文原文

作者:Kalyan Veeramachaneni, MIT Data to AI Lab, Sarah Alnegheimish, MIT Data to AI Lab

VentureBeat/Ideogram

VentureBeat/ideogram(注意:"Ideogram"在特定上下文中可能是指某种图标或象形文字,在没有更多具体语境的情况下,保留原词或者根据实际情况译为“象形文字”)原文中"Ideogram"如果特指某个公司名或者专有名词,则不翻译。此处按照惯例处理为保持不变。

订阅我们的每日和每周通讯,获取最新的行业领先人工智能报道更新和专属内容。了解更多


今年,我们团队在麻省理工学院数据与AI实验室决定试用一下大型语言模型将大型语言模型(LLMs)用于通常由不同的机器学习工具处理的任务——即检测时间序列数据中的异常。这是一项几十年来常用的机器学习(ML)任务,在工业中经常用来预测和发现重型机械的问题。我们开发了一个在这一背景下使用LLMs的框架,然后将其性能与包括最先进的深度学习工具以及一种20世纪70年代的方法——自回归综合移动平均法(ARIMA)在内的其他10种方法进行了比较。ARIMA模型最终,在大多数情况下,大语言模型输给了其他模型——甚至传统的ARIMA模型也在总共11个数据集中的7个上表现优于它。

对于那些将大语言模型视为全能问题解决技术的人而言,这可能听起来像是一个挫折。而对于许多在人工智能社区中——正在发现这些工具当前局限性的人来说,这可能并不令人惊讶。但是,我们的研究结果中有两个要素确实让我们感到意外。首先,大语言模型能够超越一些其他模型的性能,包括一些基于变压器的模型的能力,深度学习方法,让我们措手不及。第二个也许更为重要的惊喜是,与其他模型不同,这些大规模语言模型(LLM)在没有任何微调的情况下完成了所有任务。我们直接使用了GPT-3.5和Mistral LLM模型,完全没有进行任何调整。

大规模语言模型突破了多个基础障碍

对于非LLM的方法,我们会使用深度学习模型或前述的1970年代模型进行训练,以检测我们想要识别异常信号。本质上,我们将使用该信号的历史数据来训练模型,使其了解“正常”的样子。然后部署该模型,让它实时处理新值,并检测任何偏离正常的偏差并将其标记为异常。

大型语言模型无需任何先前的例子

但是,当我们使用大规模语言模型时,并没有进行这个两步过程——这些大规模语言模型并没有机会从信号中学习“正常”的情况,然后在实时检测异常之前就具备了这种能力。我们称之为零样本学习。通过这种方式来看,这是一个令人难以置信的成就。事实是,大规模语言模型能够做到这一点零样本学习——没有之前的例子或微调就直接面对这个问题——意味着我们现在有一种方式可以检测异常,而无需为每个信号或特定条件从头开始训练专门的模型。这是一个巨大的效率提升,因为某些类型的重型机械设备(如卫星)可能有数千个信号,而其他设备则需要针对特定条件进行训练。使用LLM,这些耗时的步骤完全可以省略。

大型语言模型可以直接在部署中集成

当前异常检测方法的另一个或许更具挑战性的部分是用于训练和部署机器学习模型的两步过程。虽然部署听起来很简单,但实际上却非常具有挑战性。部署一个经过训练的模型需要我们将所有代码进行转换,以便能够在特定环境中运行。生产环境更重要的是,我们必须说服最终用户(在这种情况下是运营商)允许我们部署模型。运营商自己并不总是有机器学习的经验,因此他们通常认为这是一个添加到他们已经超负荷的工作流程中的额外且令人困惑的项目。他们可能会问一些问题,例如“你们多久重新训练一次”,“我们如何将数据输入模型”,“我们如何使用它来处理各种信号,并关闭当前不关注的其他信号”,等等。

这种交接通常会引发摩擦,并最终导致无法部署经过训练的模型。对于大语言模型(LLM),由于不需要进行训练或更新,操作人员可以掌控一切。他们可以通过API查询,添加需要检测异常信号的内容,移除不需要异常检测的部分,并在无需依赖其他团队的情况下开启或关闭服务。这种让操作人员直接控制异常检测的能力将改变部署过程中的复杂动态,并有助于使这些工具更加普及。

在提升大语言模型性能的同时,我们不能剥夺它们的基础优势

尽管它们促使我们从根本上重新思考异常检测,基于大语言模型的技术尚未表现出优于当前最佳水平的性能。深度学习模型,或者(对于7个数据集)使用了20世纪70年代的ARIMA模型。这可能是因为我所在的麻省理工学院团队没有以任何方式微调或修改大语言模型,也没有创建一个专门用于时间序列分析的基础大语言模型。

虽然所有这些行动可能推动进展,但我们需要注意这种微调的方式,以免损害LLM在这一领域提供的两大主要好处。(毕竟,尽管上述问题确实存在,但它们是可解决的。)考虑到这一点,以下是我们在提高LLM异常检测准确性时不能做的事情:

  • 微调现有的大规模语言模型以适应特定信号,因为这将违背它们的“零样本”特性。
  • 构建一个基础的大语言模型来处理时间序列数据,并为每种新型机器添加一层微调层。

这两步将违背使用大规模语言模型的初衷,把我们带回原点:需要为每一个信号训练一个模型,并且在部署时会遇到困难。

对于大语言模型(LLM)来说,要想与现有的异常检测或其他机器学习任务相竞争,它们要么必须实现执行任务的新方法,要么开辟全新的可能性。为了证明添加任何层的LLM仍然构成改进,人工智能社区需要开发方法、程序和实践,以确保在某些领域的改进不会消除LLM的其他优势。

对于经典机器学习,建立我们今天依赖的训练、测试和验证实践几乎花了近20年的时间。即使有了这个过程,我们也无法总是确保模型在测试环境中的表现与其实际部署后的表现相匹配。我们会遇到标签泄漏问题、训练数据偏差以及其他太多的问题,这里甚至都无法一一列举。

如果我们没有这些具体的护栏就过度推进这条充满希望的新途径,我们可能会再次陷入重复发明轮子的境地——也许是一个更加复杂的版本。

Kalyan Veeramachaneni 是麻省理工学院数据至人工智能实验室的主任。他还是的联合创始人之一。数据投喂试验(或.DataCebo可以视为专有名词,保持不变)

萨拉·阿尔尼赫迈什是麻省理工学院数据至人工智能实验室的研究员。

数据决策者

欢迎加入VentureBeat社区!

DataDecisionMakers 是一个专家(包括从事数据工作的技术人员)可以分享数据相关洞察和创新的平台。

如果你想了解前沿理念和最新资讯、最佳实践以及数据和技术的未来趋势,欢迎加入DataDecisionMakers社区。

你甚至可能考虑投稿一篇文章你自己来!

阅读来自DataDecisionMakers的更多内容

关于《大型语言模型无法超越上世纪七十年代的一项技术,但它们仍然值得使用——这是为什么》
暂无评论

摘要

2024年10月13日 12:15 PM VentureBeat/Ideogram 加入我们的每日和每周通讯,获取行业领先的AI报道的最新更新和独家内容。最终,在大多数情况下,LLM输给了其他模型——甚至在总共11个数据集中,旧式的ARIMA也比它表现更好,胜过了7个数据集。LLMs打破了多个基础壁垒 对于非LLM的方法,我们会使用我们想要检测异常信号的深度学习模型或上述20世纪70年代的模型进行训练。尽管所有这些行动可能会推动进展,但我们需要注意如何进行微调,以免损害在这个领域中LLMs所能提供的两大主要好处。(DataDecisionMakers 欢迎来到VentureBeat社区!