Arcee AI 发布 SuperNova-Medius:一个基于 Qwen2.5-14B-Instruct 架构的 14B 小型语言模型

2024-10-13 02:30:01 英文原文

作者:Asif Razzaq

在不断发展的人工智能(AI)世界中,大型语言模型已被证明在解决各种挑战方面发挥了重要作用,从自动化复杂任务到增强决策过程。然而,扩展这些模型也引入了相当大的复杂性,例如高昂的计算成本、减少的可访问性和对大量资源需求的环境影响。传统的像GPTs或LLaMA-70B这样的大型语言模型的巨大规模使其对于许多受限于计算基础设施的机构来说难以采用。Arcee AI 已经承认这些挑战,并通过引入 SuperNova-Medius——一个小型语言模型,旨在在不受到限制的情况下保持较大模型的高质量输出来弥合模型能力和可访问性之间的差距。

SuperNova-Medius:一个140亿的小型语言模型,旨在颠覆传统的规模与性能之间的关系。在Arcee AI发布70B SuperNova之后,紧接着推出了8B的SuperNova-Lite,随后是此次的14B SuperNova-Medius。SuperNova-Medius的设计目的是匹配甚至超越多达700亿参数的大模型的能力。它通过保持相对较小的140亿参数规模,使其在各种应用场景中都非常适用,并且不会带来巨大的计算负担。通过对开创性的优化技术和创新架构设计进行整合,SuperNova-Medius为如何打造高效、适用于实际应用的语言模型提供了一个新的视角,并确保小型组织能够利用这一潜力。

SuperNova-Medius 基于优化的变压器架构构建,并结合了先进的量化方法,使其能够保持令人印象深刻的准确性和效率。SuperNova-Medius 的开发涉及一个复杂的多教师、跨架构蒸馏过程,其中包括以下关键步骤:

  • Llama 3.1 405B 对数项蒸馏Llama 3.1 405B 的 logits 是通过离线方法蒸馏得到的。为了在捕获大部分概率质量的同时管理存储需求,每个令牌的前 K 个 logits 被保存下来。
  • 跨架构适应性使用mergekit-tokensurgeon创建了一个基于Qwen2.5-14B的版本,该版本采用了Llama 3.1 405B的词汇表。这使得在训练基于Qwen的模型时可以使用Llama 3.1 405B的logits。
  • Qwen架构蒸馏适应的Qwen2.5-14B模型是使用存储的405B logits作为目标进行训练的。
  • 并行Qwen蒸馏在单独的过程中,Qwen2-72B被精炼成了一个14B的模型。
  • 最终融合与精调:Llama-distilled Qwen模型的词汇表恢复为Qwen模型的原始词汇表。在重新对齐词汇表后,使用EvolKit的一个专门数据集进行了最终的融合和微调步骤,以确保SuperNova-Medius在广泛的任务范围内保持一致性、流畅性和上下文理解能力。

尽管与最大的模型相比规模较小,SuperNova-Medius 使用多样且庞大的数据集进行了广泛的微调,涵盖了多个领域和语言。这种广泛的训练使得 SuperNova-Medius 能够展现出对上下文的深刻理解、生成连贯的回答并有效完成复杂的推理任务。此外,通过采用参数共享和稀疏性策略方面的创新,该模型能够提供与参数数量大幅更高的模型相当的结果。SuperNova-Medius 的关键优势在于其平衡的能力——它在提供高质量的语言生成的同时部署成本低廉,使其成为需要可靠但资源高效的解决方案的应用的理想选择。

SuperNova-Medius 在指令跟随(IFEval)和复杂推理任务(BBH)上表现出色,优于 Qwen2.5-14B 和 SuperNova-Lite,在多个基准测试中均取得领先。这使得它成为高质量生成式人工智能应用的强大而高效的解决方案。

总之,SuperNova-Medius 是 Arcee AI 坚定不移地推动语言模型可能性边界以及使高级人工智能更加包容和可持续的承诺的一个见证。通过成功减小模型规模而不影响性能,Arcee AI 提供了一种解决方案,满足从初创企业和小型企业到教育机构等各个领域的需要。随着人工智能继续塑造我们的未来,像 SuperNova-Medius 这样的创新对于确保先进的机器学习技术的利益能够为所有人所用至关重要,从而在全球范围内推动更加公平和有影响力的 AI 应用程序的发展。


查看一下Hugging Face模型此研究的所有信用均归该项目的研究人员所有。另外,请记得关注我们于推特并加入我们 Telegram 频道以及领英 Group. 如果你喜欢我们的工作,你会爱上我们的Newsletter..不要忘记加入我们的5万+ 机器学习子论坛

即将举行的活动 - 2022年10月17日 RetrieveX – 生成式AI数据检索大会(推广)

Asif Razzaq 是 Marktechpost Media Inc. 的首席执行官。作为一名有远见的企业家和工程师,Asif 致力于利用人工智能为社会带来益处。他最近的举措是推出了一个专注于机器学习和深度学习新闻的人工智能媒体平台 Marktechpost,该平台因其技术准确且易于大众理解的内容而脱颖而出。该平台每月浏览量超过 200 万次,彰显了其在受众中的受欢迎程度。

关于《Arcee AI 发布 SuperNova-Medius:一个基于 Qwen2.5-14B-Instruct 架构的 14B 小型语言模型》
暂无评论

摘要

在不断发展的人工智能(AI)世界中,大型语言模型已被证明是解决一系列挑战的关键工具,从自动化复杂任务到增强决策过程。Arcee AI 已认识到这些挑战,并通过引入 SuperNova-Medius——一个旨在保持大型模型高质量输出的同时不受到限制的小型语言模型来弥合模型能力与可访问性之间的差距。SuperNova-Medius 的开发涉及一种复杂的多教师、跨架构蒸馏过程,其中包括以下关键步骤: 从 Llama 3.1 405B 中的 Logit 蒸馏:使用离线方法对 Llama 3.1 405B 的 logit 进行了蒸馏。如果你喜欢我们的工作,请订阅我们的新闻通讯。别忘了加入我们拥有 50,000 多名成员的机器学习子论坛。 [即将举行的活动 - 202 年 10 月 17 日] RetrieveX – 生成式 AI 数据检索大会(推广) Asif Razzaq 是 Marktechpost Media Inc. 的首席执行官。作为一名具有远见的企业家和工程师,Asif 致力于利用人工智能为社会带来好处。该平台每月访问量超过 200 万次,表明它在受众中的受欢迎程度。