作者:Asif Razzaq
云计算日益复杂,既带来了机遇,也带来了挑战。企业现在严重依赖复杂的基于云的基础设施来确保其运营顺利运行。站点可靠性工程师 (SRE) 和 DevOps 团队的任务是管理故障检测、诊断和缓解,随着微服务和无服务器架构的兴起,这些任务的要求变得越来越高。虽然这些模型增强了可扩展性,但它们也引入了许多潜在的故障点。例如,亚马逊 AWS 等平台的一个小时的停机可能会导致重大的财务损失。尽管利用 AIOps 代理实现 IT 运营自动化的努力已经取得了进展,但由于缺乏标准化、可重复性和现实的评估工具,这些努力往往会失败。现有方法倾向于解决操作的特定方面,在实际条件下测试和改进 AIOps 代理的综合框架中留下了空白。
为了应对这些挑战,微软研究人员与来自加州大学伯克利分校、伊利诺伊大学厄巴纳-香槟分校、印度科学研究所和艾格尼丝斯科特学院的研究人员团队一起开发了 AIOpsLab,这是一个评估框架,旨在实现 AIOps 代理的系统设计、开发和增强。AIOpsLab 旨在满足对可重复、标准化和可扩展基准的需求。AIOpsLab 的核心集成了现实世界的工作负载、故障注入功能以及代理和云环境之间的接口,以模拟类似生产的场景。这个开源框架涵盖了云运营的整个生命周期,从检测故障到解决故障。通过提供模块化且适应性强的平台,AIOpsLab 支持研究人员和从业人员提高云系统的可靠性并减少对手动干预的依赖。
AIOpsLab 框架具有几个关键组件。协调器是一个中央模块,通过提供任务描述、操作 API 和反馈来协调代理和云环境之间的交互。故障和工作负载生成器复制现实世界的条件来挑战正在测试的代理。可观测性是该框架的另一个基石,它提供全面的遥测数据,例如日志、指标和跟踪,以帮助故障诊断。这种灵活的设计允许与不同的架构集成,包括 Kubernetes 和微服务。通过标准化 AIOps 工具的评估,AIOpsLab 确保了一致且可重复的测试环境。它还为研究人员提供了有关代理性能的宝贵见解,从而不断改进故障定位和解决能力。
在一项案例研究中,AIOpsLab 的功能使用 DeathStarBench 的社交网络应用程序进行了评估。研究人员引入了一个现实的故障——微服务配置错误——并使用由 GPT-4 提供支持的 ReAct 框架测试了基于 LLM 的代理。该代理在 36 秒内识别并解决了问题,证明了该框架在模拟现实条件方面的有效性。事实证明,详细的遥测数据对于诊断根本原因至关重要,而编排器的 API 设计则有助于代理在探索性操作和目标操作之间实现平衡。这些发现强调了 AIOpsLab 作为评估和改进 AIOps 代理的强大基准的潜力。
AIOpsLab 提供了一种深思熟虑的方法来推进自主云运营。通过解决现有工具的差距并提供可重复且现实的评估框架,它支持可靠且高效的 AIOps 代理的持续开发。凭借其开源性质,AIOpsLab 鼓励研究人员和从业者之间的协作和创新。随着云系统规模和复杂性的增长,像 AIOpsLab 这样的框架对于确保操作可靠性和提升 AI 在 IT 操作中的作用将变得至关重要。
查看这纸,GitHub 页面, 和微软详情。这项研究的所有功劳都归功于该项目的研究人员。另外,不要忘记关注我们 叽叽喳喳并加入我们的 电报频道和 领英 集团奥普。不要忘记加入我们的 60k+ ML SubReddit。
ðě 趋势:LG AI Research 发布 EXAONE 3.5:三个开源双语前沿 AI 级模型,提供无与伦比的指令跟踪和长上下文理解,以实现卓越生成 AI 的全球领导地位……。