英语轻松读发新版了,欢迎下载、更新

任何人都可以使用的异常检测框架

2025-05-28 20:00:00 英文原文

作者:Barbra Gilley Williams | Center for Complex Engineering Systems

Sarah Alnegheimish的研究兴趣居住在机器学习与系统工程的交汇处。她的目标是:使机器学习系统更容易访问,透明和值得信赖。

Alnegheimish是MIT信息和决策系统(LIDS)的首席研究科学家Kalyan Veeramachaneni的博士生。在这里,她将自己的大部分精力投入开发Orion,这是一个开源,用户友好的机器学习框架和时间序列库,该库能够在大型工业和运营环境中检测无主管的异常。

早期影响力 

她是一位大学教授和教师教育者的女儿,从很小的时候就了解到知识是可以自由分享的。``我认为在一个高度重视教育的家庭中长大是我想让机器学习工具访问的部分原因。我学会了将可访问性视为采用的关键。为了追求影响,需要由需要它的人访问和评估新技术。这是进行开源开发的全部目的。

Alnegheimish在国王沙特大学(KSU)获得了学士学位。我是计算机科学专业的第一个队列。在创建该程序之前,唯一的其他可用专业是IT [信息技术]。成为第一个队列的一部分令人兴奋,但它带来了自己独特的挑战。所有教师都在教授新材料。成功需要独立学习经验。那是我第一次遇到麻省理工学院的opencourseware:作为自学的资源。

毕业后不久,阿尔内格米什(Alnegheimish)成为沙特阿拉伯国家实验室的阿卜杜勒齐斯国王科学技术(KACST)的研究员。通过KACST和MIT的复杂工程系统(CCE)中心,她开始与Veeramachaneni进行研究。当她向麻省理工学院申请研究生院时,他的研究小组是她的最佳选择。

创建猎户座

Alnegheimish的硕士论文重点介绍了时间序列异常检测 - 数据中意外行为或模式的识别,这些行为或模式可以为用户提供关键信息。例如,网络流量数据中的异常模式可能是网络安全威胁的迹象,重型机械中的异常传感器读数可以预测潜在的未来故障,监测患者的生命体征可以帮助减少健康并发症。通过她的硕士研究,阿尔内格米什(Alnegheimish)首先开始设计猎户座。

猎户座使用统计和基于机器学习的模型,这些模型被连续记录和维护。用户无需成为机器学习专家即可使用代码。他们可以分析信号,比较异常检测方法并研究端到端程序中的异常情况。框架,代码和数据集都是开源的。

使用开源,可访问性和透明度直接实现。您无限制地访问了代码,可以在其中研究模型如何通过理解代码的工作方式。我们对Orion的透明度提高了:我们将模型中的每个步骤都标记并将其呈现给用户。Alnegheimish说,这种透明度有助于使用户在最终看到自己的可靠性之前开始信任该模型。

她说,我们试图将所有这些机器学习算法放在一个地方,以便任何人都可以在现场使用我们的模型。”这不仅是我们在麻省理工学院合作的赞助商。许多公共用户都使用它。他们来到图书馆,安装它,然后将其运行。它证明自己是人们找到一些最新的异常方法的好来源。

重新利用用于异常检测的模型

在她的博士学位上,阿尔内格米什(Alnegheimish)正在进一步探索使用Orion进行异常检测的创新方法。``当我刚开始研究时,所有机器学习模型都需要从头开始培训您的数据。她说,现在我们可以使用预训练的模型。”使用预训练的模型可以节省时间和计算成本。不过,挑战是时间序列异常检测对他们来说是一项全新的任务。Alnegheimish说,从最初的意义上讲,这些模型已经接受了预测,但找不到异常。”``我们通过及时的工程促进了他们的界限,而没有任何其他培训。

由于这些模型已经捕获了时间序列数据的模式,因此Alnegheimish认为它们已经拥有使它们能够检测异常所需的一切。到目前为止,她目前的结果支持这一理论。他们没有超过对特定数据进行独立培训的模型的成功率,但她认为他们有一天会。

可访问的设计

Alnegheimish详细谈论了她为使Orion更容易获得的努力。``在来到麻省理工学院之前,我曾经认为研究的关键部分是开发机器学习模型本身或改善其当前状态。随着时间的流逝,我意识到,您可以使您的研究易于访问和适应其他人的唯一方法是开发使其可访问的系统。在研究生学习期间,我采取了同时开发模型和系统的方法。

她的系统开发的关键要素是找到正确的抽象来与她的模型合作。这些抽象为所有具有简化组件的模型提供了通用表示。任何模型都将有一系列步骤从原始输入到所需的输出。我们将输入和输出标准化,这允许中间是灵活的和流体的。到目前为止,我们正在运行的所有模型都能够将其翻新到我们的抽象中。在过去的六年中,她使用的抽象一直稳定且可靠。

同时建造系统和模型的价值可以在Alnegheimish作为导师的工作中看到。她有机会与两位硕士的学生一起工作。我向他们展示的只是系统本身和如何使用它的文档。两个学生都能够通过我们符合的抽象来开发自己的模型。它重申了我们走正确的道路。

Alnegheimish还研究了大型语言模型(LLM)是否可以用作用户和系统之间的调解人。她实施的LLM代理可以连接到Orion,而无需用户了解Orion如何工作的小细节。想想chatgpt。您不知道它的背后是什么模型,但是每个人都很容易访问。对于她的软件,用户只知道两个命令:适合和检测。FIT允许用户训练自己的模型,同时检测使他们能够检测异常。

她说,我试图做的最终目标是使所有人更容易获得AI。”到目前为止,Orion已达到120,000多次下载,一千多名用户将存储库标记为Github上的最爱之一。传统上,您用来通过引用和纸质出版物来衡量研究的影响。现在您可以通过开源进行实时采用。

关于《任何人都可以使用的异常检测框架》的评论


暂无评论

发表评论

摘要

MIT的信息和决策系统实验室的博士生Sarah Alnegheimish旨在通过开发Orion来使机器学习系统更容易访问和值得信赖,Orion是时间序列数据中用于异常检测的开源框架。她的研究重点是使用预先训练的模型和创新方法来检测异常情况,而无需用户成为机器学习的专家。阿尔尼格(Alnegheimish)重视教育和开源资源,这激发了她的工作使更广泛的受众访问高级技术。猎户座(Orion)的下载超过120,000,被视为异常检测的重要工具。