MagpieLM-4B-Chat-v0.1 和 MagpieLM-8B-Chat-v0.1 发布:用于人工智能对齐和研究的突破性开源小语言模型 - MarkTechPost

2024-09-20 16:49:09 英文原文

华盛顿大学和艾伦人工智能研究所 (Ai2) 最近发布了最先进的语言模型:MagpieLM-4B-Chat-v0.1 和 MagpieLM,为人工智能研究社区做出了重大贡献-8B-聊天-v0.1。作为更大的 MagpieLM 项目的一部分,这些模型专门用于满足对对齐语言模型日益增长的需求,这些模型可以执行高级文本生成任务,同时遵守人类价值观和期望。这些模型可在 Hugging Face 上免费获取,因其性能和透明度而在人工智能研究社区中引起了关注。

MagpieLM-Chat 模型

MagpieLM-Chat 模型,MagpieLM-4B-Chat-v0.1 和 MagpieLM-8B-Chat-v0.1 是针对对齐进行优化的两种新语言模型。这意味着他们经过专门培训,以确保他们的输出符合人类指令、道德标准和行为期望。8B 版本指的是 80 亿参数模型,而 4B 版本是一个精炼变体,尺寸减小但仍然高效。

这两个模型均使用由名为 Magpie 的独特技术生成的合成数据进行训练。。该方法是专门为增强大型语言模型 (LLM) 的对齐而开发的。通过利用合成数据,Magpie 团队能够训练这些模型,以更加一致、可预测的方式理解和响应人类指令。这些模型基于最先进的 LLM Metas LLaMA-3.1-8B,4B 版本由 NVIDIA 提炼,在不牺牲质量的情况下进一步优化其性能。

开源透明的方法

MagpieLM-Chat 项目最值得注意的方面之一是其对开放性和可重复性的承诺。该团队已向公众提供模型以及所有相关的训练数据、配置和日志。这包括两个关键数据集:监督微调(SFT)和直接偏好优化(DPO)数据。通过将这些与模型一起发布,研究团队使任何人都可以重现他们的研究训练和调整过程。这是实现人工智能研究民主化并确保更多人能够获得构建和评估对齐语言模型所需的工具的关键一步。

SFT 和 DPO 数据集的可用性使研究人员能够进一步完善其模型对齐或尝试不同的训练方法。这些数据集对于培训大语言模型保持一致至关重要,重点关注如何根据人类偏好和反馈对模型进行微调,以确保他们的回答准确、符合道德且适合具体情况。

竞争表现和基准测试

MagpieLM-Chat 的发布尤其重要,因为该模型在几个关键评估基准上表现强劲。这些基准包括 WildBench、ArenaHard 和 AlpacaEval,它们评估语言模型处理复杂的现实世界任务的能力。

MagpieLM-Chat 模型在评估中表现非常出色,被列为最佳公开对齐模型之一这些基准的大语言模型。WildBench 测试模型在不同任务中的一般对齐能力,ArenaHard 侧重于模型处理更具挑战性和细致入微的指令的能力,AlpacaEval 评估整体文本生成质量。MagpieLM-Chat 模型在这些评估中表现出色,这一事实突显了 Magpie 对齐方法的有效性以及应用于这些模型的严格的训练后对齐过程。

其他版本:SFT-Data 和 DPO-Data

除了 MagpieLM-Chat 模型外,团队还发布了两个主要数据集:MagpieLM-SFT-Dat-v0.1 和 MagpieLM-DPO-Data-v0.1。这些数据集为对对齐和训练后技术感兴趣的人工智能研究人员提供了巨大的资源。

SFT 数据(监督微调数据)由大约 550,000 个数据点组成,这些数据点经过精心策划,旨在增强语言模型的监督微调。有监督的微调对于开发人工智能模型至关重要,使它们能够从标记的示例中学习并逐渐提高遵循人类指令的准确性。

同时,DPO 数据(直接偏好优化数据)包含约 200,000 个数据数据点,允许根据偏好信号训练模型。DPO 是强化学习中的一项关键技术,使模型能够生成准确的响应并根据人类偏好对它们进行排名,确保优先考虑最一致且上下文适当的答案。这两个数据集的发布对于希望尝试训练后对齐和强化学习技术的研究人员来说特别有价值。

训练后对齐和合成数据

这是其核心发布后,Magpie 方法侧重于使用合成数据进行训练后对齐。此过程采用 LLaMA 等预训练模型,并完善其行为以确保其与人类目标保持一致。训练后对齐是现代人工智能开发的关键部分,因为它使研究人员能够采用强大的通用语言模型并对其进行微调,以确保它们生成符合道德规范且上下文适当的输出。

生成此过程中使用的数据以涵盖各种场景,使对齐过程更加稳健。通过将模型暴露于这些合成数据中,研究人员确保它们能够处理各种指令并产生符合人类价值观的响应,尤其是在敏感或模糊的情况下。

未来之路:数据模型兼容性

MagpieLM-Chat 模型和随附数据集的发布仅仅是一个开始。研究团队暗示,未来的发展将集中在数据模型兼容性上,这是人工智能研究的一个关键领域。这涉及确保用于训练模型的数据与模型本身的具体特征兼容,从而实现更高效、更有效的训练过程。该团队计划发布该领域的更多见解和研究,这可以进一步增强大语言模型的协调能力,并为更广泛的人工智能伦理领域做出贡献。

结论

发布MagpieLM-Chat 模型有 4B 和 8B 版本,标志着 AI 对齐领域向前迈出了重要一步。该项目得到华盛顿大学、Ai2 和 NVIDIA 的支持,提供高性能、公开可用的语言模型,并为研究社区提供有价值的数据集和工具,以进一步探索 AI 对齐的复杂性。MagpieLM-Chat 项目在著名基准上取得了出色的成果,并致力于提高透明度,有望影响人工智能研究的未来。模型和数据的开放性为人工智能的可访问性设立了新标准,使更广泛的受众可以使用前沿的对齐研究,并鼓励整个领域的创新。

查看论文、4B 模型、8B模型、SFT 数据和 DPO 数据。这项研究的所有功劳都归功于该项目的研究人员。另外,不要忘记在 Twitter 上关注我们并加入我们的 Telegram 频道和 LinkedIn 群组。如果您喜欢我们的工作,您一定会喜欢我们的新闻通讯。

别忘了加入我们的 50k ML SubReddit

Asif Razzaq 是 Marktechpost Media Inc. 的首席执行官。作为一位有远见的企业家作为工程师,阿西夫致力于利用人工智能的潜力造福社会。他最近的努力是推出人工智能媒体平台 Marktechpost,该平台因其对机器学习和深度学习新闻的深入报道而脱颖而出,技术可靠且易于广大受众理解。该平台月浏览量超过200万,可见其深受观众欢迎。

摘要

华盛顿大学和艾伦人工智能研究所 (Ai2) 最近发布了他们的尖端语言模型:MagpieLM-4B-Chat-v0.1 和 MagpieLM-8B-Chat-v0,为人工智能研究社区做出了重大贡献.1.同时,DPO-Data(直接偏好优化数据)包含约 200,000 个数据点,允许基于偏好信号来训练模型。训练后对齐是现代人工智能开发的关键部分,因为它允许研究人员采用强大的通用语言模型并对其进行微调,以确保它们生成符合道德规范且上下文适当的输出。模型和数据的开放性为人工智能的可访问性设立了新标准,使更广泛的受众可以使用前沿的对齐研究,并鼓励整个领域的创新。如果您喜欢我们的工作,您一定会喜欢我们的时事通讯。不要忘记加入我们的 50k ML SubRedditAsif Razzaq 是 Marktechpost Media Inc. 的首席执行官。作为一位有远见的企业家和工程师,Asif 致力于利用人工智能的潜力促进社交好的。