加入我们的每日和每周时事通讯,了解有关行业领先人工智能报道的最新更新和独家内容。了解更多
微软推出了突破性的人工智能模型 GRIN-MoE(梯度知情混合专家),旨在增强编码和数学等复杂任务的可扩展性和性能。该模型有望通过一次选择性地激活一小部分参数来重塑企业应用程序,使其既高效又强大。
GRIN-MoE,详细信息请参阅研究论文 GRIN:GRadient-INformed MoE,使用一种新颖的专家混合 (MoE) 架构方法。通过将任务分配给模型内的专业专家,GRIN 实现了稀疏计算,使其能够在提供高端性能的同时利用更少的资源。该模型的关键创新在于使用 SparseMixer-v2 来估计专家路由的梯度,这种方法显着改进了传统实践。
该模型回避了 MoE 架构的主要挑战之一:传统路由的难度研究人员解释说,由于专家路由的离散性质,基于梯度的优化。GRIN MoE 架构拥有 1638 亿个参数,在推理过程中仅激活 66 亿个参数,实现了计算效率和任务性能之间的平衡。
基准测试中,微软的 GRIN MoE 表现出了卓越的性能,超越了类似或更大尺寸的模型。它在 MMLU(大规模多任务语言理解)基准测试中得分为 79.4,在数学问题解决能力测试 GSM-8K 中得分为 90.4。值得注意的是,该模型在编码任务基准 HumanEval 上获得了 74.4 分,超过了 GPT-3.5-turbo 等流行模型。
GRIN MoE 优于 Mixtral (8x7B) 和 Phi-3.5 等同类模型-MoE (163.8B),MMLU 得分分别为 70.5 和 78.9。论文指出,GRIN MoE 的性能优于 7B 密集模型,并且与在相同数据上训练的 14B 密集模型的性能相匹配。
这种性能水平对于寻求平衡 AI 效率与能力的企业尤为重要应用程序。GRIN 能够在无需专家并行性或令牌丢弃的情况下进行扩展,这两种用于管理大型模型的常用技术使其成为可能没有基础设施来支持 OpenAI GPT-4o 或 Metas LLaMA 3.1 等更大模型的组织的更易于访问的选择。
GRIN MoE 的多功能性使其非常适合需要强大推理能力的行业,例如金融服务、医疗保健和制造。其架构旨在处理内存和计算限制,解决企业面临的关键挑战。
该模型能够在不使用专家并行性或令牌丢弃的情况下扩展 MoE 训练,从而可以在数据受限的环境中更有效地使用资源中心容量。此外,它在编码任务上的表现也是一大亮点。GRIN MoE 在 HumanEval 编码基准上获得 74.4 分,展示了其在企业工作流程中自动编码、代码审查和调试等任务中加速人工智能采用的潜力。
尽管 GRIN MoE 的性能令人印象深刻,但它也有局限性。该模型主要针对英语任务进行优化,这意味着当应用于训练数据中代表性不足的其他语言或方言时,其有效性可能会降低。研究承认,GRIN MoE 主要接受英语文本训练,这可能会给在多语言环境中运营的组织带来挑战。
此外,虽然 GRIN MoE 在推理繁重的任务中表现出色,但在对话上下文或自然语言处理任务。研究人员承认,我们观察到该模型在自然语言任务上表现不佳,这归因于模型训练侧重于推理和编码能力。
微软的 GRIN-MoE 代表了人工智能技术的重大进步,特别是对于企业应用程序而言。它能够有效扩展,同时在编码和数学任务中保持卓越的性能,这使其成为希望集成人工智能而不压垮其计算资源的企业的宝贵工具。
该模型旨在加速语言和多模式研究研究团队解释说,模型可以用作生成人工智能功能的构建块。随着人工智能在业务创新中继续发挥越来越重要的作用,像 GRIN MoE 这样的模型可能会在塑造企业人工智能应用的未来方面发挥重要作用。
随着微软不断突破人工智能研究的界限,GRIN-MoE证明了公司致力于提供尖端解决方案,满足各行业技术决策者不断变化的需求。