AMD 发布 AMD-135M:AMD 第一个小型语言模型系列,使用 670B 令牌在 AMD Instinct MI250 加速器上从头开始训练 - MarkTechPost

2024-09-28 18:00:07 英文原文

AMD 最近推出了新的语言模型 AMD-135M 或 AMD-Llama-135M,这是对 AI 模型领域的重要补充。该语言模型基于 LLaMA2 模型架构,拥有强大的结构,拥有 1.35 亿个参数,并针对 AMD 最新 GPU(特别是 MI250)上的性能进行了优化。此次发布标志着 AMD 在竞争激烈的人工智能行业中站稳脚跟的一个重要里程碑。

背景和技术规格

AMD-135M 基于 LLaMA2 模型构建架构并集成了高级功能以支持各种应用程序,特别是在文本生成和语言理解方面。该模型旨在与 Hugging Face Transformers 库无缝协作,方便开发人员和研究人员使用。该模型可以处理隐藏尺寸为 768、12 层(块)和 12 个注意力头的复杂任务,同时保持高效率。使用的激活函数是Swiglu函数,层归一化基于RMSNorm。其位置嵌入采用 RoPE 方法设计,增强了其准确理解和生成上下文信息的能力。

该模型的发布不仅涉及硬件规格,还涉及为其提供支持的软件和数据集。AMD-135M 已在两个关键数据集上进行了预训练:SlimPajama 和 Project Gutenberg 数据集。SlimPajama 是 RedPajama 的重复数据删除版本,其中包括 Commoncrawl、C4、GitHub、Books、ArXiv、Wikipedia 和 StackExchange 等来源。古腾堡计划数据集提供了对大量古典文本存储库的访问,使模型能够掌握各种语言结构和词汇。

AMD-135M 的主要特点

AMD-135M 具有显着的特点使其与市场上其他型号区别开来的功能。其中一些关键功能包括:

  • 参数大小:1.35 亿个参数,可高效处理和生成文本。
  • 层数:12 层,12 个注意力头用于深入分析和上下文理解。
  • 隐藏大小:768,提供处理各种语言建模任务的能力。
  • 注意力类型:多头注意力,使模型能够同时关注输入数据的不同方面。
  • 上下文窗口大小:2048,确保模型能够有效管理更大的输入数据序列。
  • 预训练和微调数据集:SlimPajama 和项目利用古腾堡数据集进行预训练,利用 StarCoder 数据集进行微调,确保全面的语言理解。
  • 训练配置:模型采用学习率 6e-4 和余弦学习率计划,并且具有经过多个时期的有效训练和微调。

部署和使用

AMD-135M可以通过Hugging Face Transformers库轻松部署和使用。对于部署,用户可以使用“LlamaForCausalLM”和“AutoTokenizer”模块加载模型。这种易于集成的特性使其成为希望将语言建模功能合并到应用程序中的开发人员的有利选择。此外,该模型与 AMD CodeLlama 的推测解码兼容,进一步扩展了其代码生成任务的可用性。此功能使 AMD-135M 对于从事编程相关文本生成或其他 NLP 应用程序的开发人员特别有用。

性能评估

AMD-135M 的性能已使用 lm 进行了评估-各种 NLP 基准的评估工具,例如 SciQ、WinoGrande 和 PIQA。结果表明该模型具有很强的竞争力,在其参数范围内提供与其他模型相当的性能。例如,它使用 MI250 GPU 在 Humaneval 数据集上实现了约 32.31% 的通过率,这对于这种规模的模型来说是一个强大的性能指标。这表明 AMD-135M 可以成为自然语言处理研究和商业应用的可靠模型。

总之,AMD-135M 的发布强调了 AMD 对推进人工智能技术并提供可访问的、高性能的承诺。研究界的绩效模型。其强大的架构和先进的训练技术使 AMD-135M 在快速发展的 AI 模型领域成为强大的竞争对手。

查看拥抱面部和细节的模型。这项研究的所有功劳都归功于该项目的研究人员。另外,不要忘记在 Twitter 上关注我们并加入我们的 Telegram 频道和 LinkedIn 群组。如果您喜欢我们的工作,您一定会喜欢我们的时事通讯。

不要忘记加入我们 50k+ ML SubReddit

Asif Razzaq 是 Marktechpost Media Inc. 的首席执行官。作为一位有远见的企业家作为工程师,阿西夫致力于利用人工智能的潜力造福社会。他最近的努力是推出人工智能媒体平台 Marktechpost,该平台因其对机器学习和深度学习新闻的深入报道而脱颖而出,技术可靠且易于广大受众理解。该平台月浏览量超过200万,可见其深受观众欢迎。

关于《AMD 发布 AMD-135M:AMD 第一个小型语言模型系列,使用 670B 令牌在 AMD Instinct MI250 加速器上从头开始训练 - MarkTechPost》
暂无评论

摘要

AMD 最近推出了新的语言模型 AMD-135M 或 AMD-Llama-135M,这是对 AI 模型领域的重要补充。背景和技术规格AMD-135M 基于 LLaMA2 模型架构构建,集成了先进功能以支持各种应用,特别是在文本生成和语言理解方面。其中一些关键功能包括: 参数大小:1.35 亿个参数,可实现高效处理和生成文本。训练配置:该模型采用学习率 6e-4 和余弦学习率计划,并且经过多个 epoch 进行有效的训练和微调。如果您喜欢我们的工作,您一定会喜欢我们的时事通讯。不要忘记加入我们的 50k ML SubRedditAsif Razzaq 是 Marktechpost Media Inc. 的首席执行官。作为一位有远见的企业家和工程师,Asif 致力于利用人工智能的潜力促进社交好的。