IBM花岗岩4.0小型预览：偷看下一代花岗岩型号

2025-05-02 13:00:44 英文原文

作者：Author

凯特·苏尔（Kate Soule）

花岗岩技术产品管理主管

IBM

我们很高兴出现IBM Granite 4.0 Tiny预览，在即将到来的Granite 4.0语言模型家族中的最小模型的初步版本，向开源社区。

花岗岩4.0 TINY预览非常紧凑且计算有效：在FP8精确度上，可以在消费者等级硬件上执行多个执行长上下文（128K）任务的并发会话，包括通常以350美元低于$ 350的GPU。1^{尽管该模型仅是经过部分训练的模型，但它仅看到了计划的15T或更多培训令牌的2.5吨，但它已经提供了与IBM Granite 3.3 2b指令的性能相匹配的，尽管有效参数较少，并且}

记忆要求的减少约72％。2我们预计花岗岩4.0 Tiny的性能将与花岗岩3.3 8b指导的培训和培训后的指导相当。顾名思义，花岗岩4.0 Tiny将是花岗岩4.0模型家族中最小的产品之一。^{它将在今年夏天正式发布，这是模型阵容的一部分，其中还包括花岗岩4.0小型和花岗岩4.0培养基。}Granite 4.0继续致力于使效率和实用性成为其企业LLM开发的基石。

现在，在拥抱面上可以使用Granite 4.0的初步版本。

我们的目的是允许GPU-POOR开发人员对消费级GPU的模型进行实验和修补。该模型的新颖体系结构正在等待支持Face Transformers和VLLM，我们预计这两个项目都将很快完成。预计今年夏天晚些时候将及时发布包括Ollama和Lmstudio在内的平台合作伙伴（包括Ollama和Lmstudio）的官方支持。

消费者硬件的企业表现

从字面上和形象上讲，通常提供LLM内存需求，没有适当的上下文。不足以知道可以成功加载模型到您的GPU中：您需要知道，硬件可以在用例所需的上下文长度上处理模型。

此外，许多企业用例都不需要单独的模型部署，而是对多个并发实例的批次推断。因此，IBM努力以较长的上下文和并发会议来衡量和报告记忆要求。

Granite 4.0 Tiny是当今可用的最记忆有效的语言模型之一。即使在很长的背景下，花岗岩4.0的几个并发实例很容易在适度的消费者GPU上运行。

全新的混合MUE建筑

前几代花岗岩LLM使用了常规的变压器体系结构，而花岗岩4.0家族中的所有模型都使用了新的混合Mamba-2/变压器体系结构，将Mamba的速度和效率与基于变压器的自我注意力的精确度相结合。Granite 4.0 Tiny-preiview，特别是细粒杂种 专家的混合物（MOE）模型，在推理时间时，具有7B总参数和1B活动参数。

许多启用了花岗岩4建筑的创新源于IBM研究与原始的Mamba创作者合作班巴，一种实验性开源混合模型，其继任者（BAMBA V2）于本周早些时候发布。

曼巴模型的简短历史曼巴

是一种状态空间模型（SSM），于2023年推出，大约在首次亮相后6年变压器2017年。SSM在概念上与

复发性神经网络（RNN）在转化前时代，这占主导地位的自然语言处理（NLP）。它们最初是为预测下一个而设计的状态仅使用来自当前状态，先前状态和可能性范围的信息（例如电信号）（例如电信号）国家空间）。尽管数十年来在几个领域都使用了它们，但SSM与RNN共享某些缺点，直到最近，它们限制了其语言建模的潜力。

不像自我注意机制在变压器中，常规的SSM没有固有的能力，可以选择性地关注或忽略特定的上下文信息。因此，在2023年，卡内基·梅隆（Carnegie Mellon）的阿尔伯特·古（Albert Gu）和普林斯顿（Princeton）的Tri Dao介绍了一种结构化状态空间序列（S4）神经网络添加了一个选择机构和扫描方法（用于计算效率）缩写为一种模型，并实现了与变压器竞争的语言建模结果。他们昵称自己的模特曼巴，因为除其他原因外所有这些听起来像是蛇的嘶嘶声。

2024年，Gu和Dao发行了MAMBA-2，简化，优化的Mamba体系结构实现。同样重要的是，他们的技术论文充实了SSM与自我注意力之间的兼容性。

Mamba-2与变形金刚

Mamba比基于变压器的模型的主要优势集中在效率和速度方面。

变形金刚具有至关重要的弱点：自我发项式量表的计算要求四边形。换句话说，每次上下文长度双打，注意机制不只是使用其使用的两倍四倍资源。作为上下文窗口，这种二次瓶颈越来越多地油门速度和性能（相应KV-CACHE）成长。

相反，曼巴的计算需求量表线性：如果您将输入序列的长度加倍，Mamba仅使用两倍的资源。然而自我注意力必须反复计算以前的令牌与每个新令牌的相关性，Mamba简单地维护了以前令牌的固定，固定尺寸的摘要。当模型读取每个新令牌时，它决定了令牌的相关性，然后更新（或不更新）摘要。本质上，自我注意力保留每一个一些信息，然后根据他们的相关性加权每个信息的影响有选择地仅保留相关信息。话虽如此，变形金刚更加内存和计算多余的方法具有其自身的优势。

例如，研究表明变形金刚仍然超过Mamba和Mamba-2在需要内在学习的任务上（例如很少射击），复制，或长篇小说推理。

两全其美

幸运的是，变形金刚和曼巴的各自的优势并不是相互排斥的。在原始的Mamba-2纸本身中，作者Dao和Gu建议混合模型可以超过纯变压器或SSM的性能去年的NVIDIA研究。为了进一步探讨这一点，IBM Research与Dao和GU自己合作，以及伊利诺伊大学的Urbana-Champaign（UIUC）的Minjia Zhang，On班巴和BAMBA V2。反过来，BAMBA介绍了花岗岩4.0的许多建筑元素。

花岗岩4.0 MOE体系结构对每1个变压器块都有9个Mamba块。从本质上讲，曼巴（Mamba）的选择性机制有效地捕获了全局上下文，然后将其传递给变压器块，从而使局部上下文更加细微地解析。结果是记忆使用量和延迟的急剧减少，效果没有明显的权衡。

花岗岩4.0通过在这些效率提升的情况下将它们实施在专家（MOE）框架的紧凑，细粒度混合物，包括7B总参数和64个专家，在推理时产生1B活动参数。还有更多详细信息花岗岩4.0 Tiny预览的拥抱脸模型卡。不受约束的上下文长度

基于SSM的语言模型的最诱人方面之一是理论处理无限长序列的能力。

但是由于实用的限制，理论上的一词通常会繁重。

这些约束之一，尤其是对于Hybrid-SSM模型，来自用于表示单词顺序信息的位置编码（PE）。PE添加了计算步骤，研究表明，使用PE技术的模型，例如旋转位置编码（绳索）努力概括序列比在训练中看到的要长。³

花岗岩4.0架构使用没有位置编码（没有）。我们的测试令人信服地表明，这对长期性能没有不利影响。目前，我们已经验证了至少128K代币的Tiny Preview的长篇小说性能到模型完成培训和培训后。值得注意的是，在1M to录环境附近确定验证任务的绩效的关键挑战是合适的数据集的稀缺性。

对Mamba上下文长度的另一个实际限制是计算。线性缩放比二次缩放好，但最终仍然加起来。再次，花岗岩4.0 Tiny具有两个关键优势：

与PE不同，NOPE不会为模型变压器层中的注意机制增加任何其他计算负担。
花岗岩4.0微型非常紧凑，高效，留下了许多线性缩放的硬件空间。

简而言之，花岗岩4.0 MOE架构本身对上下文长度没有任何约束。它可以随您的硬件带走。

我们很高兴能在此过程的早期这么早的结果中继续前训练花岗岩4.0微小。我们也很高兴将我们从训练后花岗岩3.3中学习，特别是在推理能力和随后的复杂指导方面，将我们的学习方式应用于新模型。就像其前辈花岗岩3.2和花岗岩3.3一样，花岗岩4.0 Tiny预览提供可切换的思考和思考功能（尽管以推理为重点的训练是非常不完整的）。

有关花岗岩系列中新事态发展的更多信息将在IBM认为2025，以及随后的几周和几个月。

在拥抱脸上查看花岗岩4.0小型预览

关于《IBM花岗岩4.0小型预览：偷看下一代花岗岩型号》的评论

暂无评论

发表评论

摘要

###花岗岩概述4.0小型预览** Granite 4.0 Tiny Preview **是由IBM设计的最先进的语言模型，它利用创新的混合体系结构结合了Mamba和Transformer块，以实现出色的效率和性能，而无需牺牲上下文长度或推理能力。###关键功能1。**混合体系结构** - ** mamba块**：每1个变压器块都使用9个Mamba块。 - **变压器块**：通过MAMBA机制捕获全局上下文后，可以使本地上下文的细微差别解析。 - ** MOE框架**：具有70亿参数和64位专家的精细颗粒混合物（MOE）方法，在推理过程中仅产生10亿个活动参数。2。**效率提高** - 混合体系结构可大大降低内存使用和延迟，而不会损害性能。 - 与纯变压器模型面临的二次瓶颈相比，计算需求的线性缩放允许有效地处理长篇小说序列。3。**不受约束的上下文长度** - 不使用位置编码（NOPE），这简化了模型的注意机制，同时保持了处理极长的上下文序列的鲁棒性。 - 经过测试最多可达128K代币，并预计由于硬件效率和线性缩放属性，将处理明显更长的上下文。4。**性能增强** - 早期结果表明表现出色的表现和有希望的未来潜力，尤其是在使用花岗岩3.3的训练后技术（推理能力和随后的复杂指导）时。 - 可切换的推理功能与花岗岩系列中的前身类似。###技术细节- **建筑学**： - ** mamba块**：通过维护过去令牌的简洁摘要来有效地捕获全球上下文。 - **变压器块**：基于Mamba块的捕获的全局摘要来完善本地上下文理解。 - ** MOE框架**： - 总参数：70亿 - 推理期间的主动参数：10亿（由于专家的激活稀少） - **上下文处理**： - 具有输入序列长度的计算需求的线性缩放，避免了仅变压器模型中常见的二次瓶颈。 - NOPE机制简化了跨很长序列的上下文表示和概括。＃＃＃好处1。**可伸缩性**：该体系结构允许模型处理极长的上下文，而无需大量的性能降级，使其适合需要深入上下文理解的任务。2。**效率**：与传统的变压器模型相比，记忆使用量的显着降低，同时保持高性能。3。**灵活性**：可切换的推理功能使用户可以根据特定的任务要求自定义模型的行为。###未来方向 - 持续预训练花岗岩4.0微小，重点是进一步增强推理和指导跟随能力。 - 从花岗岩后3.3训练后进行学习以改善新模型中的复杂推理。 - 在IBM Think 2025的其他发展介绍。＃＃＃使用权您可以在[拥抱面]（https://huggingface.co/models）上探索**花岗岩4.0小型预览**，并为其持续的开发和测试做出贡献。---该模型在语言模型的演变中迈出了重要的一步，在不受限制的上下文处理中推动了可能的界限，同时提供了与现有体系结构相比的效率和性能优势。