作者:Author
花岗岩技术产品管理主管
IBM
我们很高兴出现IBM Granite 4.0 Tiny预览,在即将到来的Granite 4.0语言模型家族中的最小模型的初步版本,向开源社区。
花岗岩4.0 TINY预览非常紧凑且计算有效:在FP8精确度上,可以在消费者等级硬件上执行多个执行长上下文(128K)任务的并发会话,包括通常以350美元低于$ 350的GPU。1尽管该模型仅是经过部分训练的模型,但它仅看到了计划的15T或更多培训令牌的2.5吨,但它已经提供了与IBM Granite 3.3 2b指令的性能相匹配的,尽管有效参数较少,并且
记忆要求的减少约72%。2我们预计花岗岩4.0 Tiny的性能将与花岗岩3.3 8b指导的培训和培训后的指导相当。顾名思义,花岗岩4.0 Tiny将是花岗岩4.0模型家族中最小的产品之一。它将在今年夏天正式发布,这是模型阵容的一部分,其中还包括花岗岩4.0小型和花岗岩4.0培养基。Granite 4.0继续致力于使效率和实用性成为其企业LLM开发的基石。
现在,在拥抱面上可以使用Granite 4.0的初步版本。
我们的目的是允许GPU-POOR开发人员对消费级GPU的模型进行实验和修补。该模型的新颖体系结构正在等待支持Face Transformers和VLLM,我们预计这两个项目都将很快完成。预计今年夏天晚些时候将及时发布包括Ollama和Lmstudio在内的平台合作伙伴(包括Ollama和Lmstudio)的官方支持。
从字面上和形象上讲,通常提供LLM内存需求,没有适当的上下文。不足以知道可以成功加载模型到您的GPU中:您需要知道,硬件可以在用例所需的上下文长度上处理模型。
此外,许多企业用例都不需要单独的模型部署,而是对多个并发实例的批次推断。因此,IBM努力以较长的上下文和并发会议来衡量和报告记忆要求。
Granite 4.0 Tiny是当今可用的最记忆有效的语言模型之一。即使在很长的背景下,花岗岩4.0的几个并发实例很容易在适度的消费者GPU上运行。
前几代花岗岩LLM使用了常规的变压器体系结构,而花岗岩4.0家族中的所有模型都使用了新的混合Mamba-2/变压器体系结构,将Mamba的速度和效率与基于变压器的自我注意力的精确度相结合。Granite 4.0 Tiny-preiview,特别是细粒杂种 专家的混合物(MOE)模型,在推理时间时,具有7B总参数和1B活动参数。
许多启用了花岗岩4建筑的创新源于IBM研究与原始的Mamba创作者合作班巴,一种实验性开源混合模型,其继任者(BAMBA V2)于本周早些时候发布。
是一种状态空间模型(SSM),于2023年推出,大约在首次亮相后6年变压器2017年。SSM在概念上与
复发性神经网络(RNN)在转化前时代,这占主导地位的自然语言处理(NLP)。它们最初是为预测下一个而设计的状态仅使用来自当前状态,先前状态和可能性范围的信息(例如电信号)(例如电信号)国家空间)。尽管数十年来在几个领域都使用了它们,但SSM与RNN共享某些缺点,直到最近,它们限制了其语言建模的潜力。
不像自我注意机制在变压器中,常规的SSM没有固有的能力,可以选择性地关注或忽略特定的上下文信息。因此,在2023年,卡内基·梅隆(Carnegie Mellon)的阿尔伯特·古(Albert Gu)和普林斯顿(Princeton)的Tri Dao介绍了一种结构化状态空间序列(S4)神经网络添加了一个选择机构和扫描方法(用于计算效率)缩写为一种模型,并实现了与变压器竞争的语言建模结果。他们昵称自己的模特曼巴,因为除其他原因外所有这些听起来像是蛇的嘶嘶声。
2024年,Gu和Dao发行了MAMBA-2,简化,优化的Mamba体系结构实现。同样重要的是,他们的技术论文充实了SSM与自我注意力之间的兼容性。
Mamba比基于变压器的模型的主要优势集中在效率和速度方面。
变形金刚具有至关重要的弱点:自我发项式量表的计算要求四边形。换句话说,每次上下文长度双打,注意机制不只是使用其使用的两倍四倍资源。作为上下文窗口,这种二次瓶颈越来越多地油门速度和性能(相应KV-CACHE)成长。
相反,曼巴的计算需求量表线性:如果您将输入序列的长度加倍,Mamba仅使用两倍的资源。然而自我注意力必须反复计算以前的令牌与每个新令牌的相关性,Mamba简单地维护了以前令牌的固定,固定尺寸的摘要。当模型读取每个新令牌时,它决定了令牌的相关性,然后更新(或不更新)摘要。本质上,自我注意力保留每一个一些信息,然后根据他们的相关性加权每个信息的影响有选择地仅保留相关信息。话虽如此,变形金刚更加内存和计算多余的方法具有其自身的优势。
幸运的是,变形金刚和曼巴的各自的优势并不是相互排斥的。在原始的Mamba-2纸本身中,作者Dao和Gu建议混合模型可以超过纯变压器或SSM的性能去年的NVIDIA研究。为了进一步探讨这一点,IBM Research与Dao和GU自己合作,以及伊利诺伊大学的Urbana-Champaign(UIUC)的Minjia Zhang,On班巴和BAMBA V2。反过来,BAMBA介绍了花岗岩4.0的许多建筑元素。
花岗岩4.0 MOE体系结构对每1个变压器块都有9个Mamba块。从本质上讲,曼巴(Mamba)的选择性机制有效地捕获了全局上下文,然后将其传递给变压器块,从而使局部上下文更加细微地解析。结果是记忆使用量和延迟的急剧减少,效果没有明显的权衡。
花岗岩4.0通过在这些效率提升的情况下将它们实施在专家(MOE)框架的紧凑,细粒度混合物,包括7B总参数和64个专家,在推理时产生1B活动参数。还有更多详细信息花岗岩4.0 Tiny预览的拥抱脸模型卡。不受约束的上下文长度
但是由于实用的限制,理论上的一词通常会繁重。
这些约束之一,尤其是对于Hybrid-SSM模型,来自用于表示单词顺序信息的位置编码(PE)。PE添加了计算步骤,研究表明,使用PE技术的模型,例如旋转位置编码(绳索)努力概括序列比在训练中看到的要长。3
花岗岩4.0架构使用没有位置编码(没有)。我们的测试令人信服地表明,这对长期性能没有不利影响。目前,我们已经验证了至少128K代币的Tiny Preview的长篇小说性能到模型完成培训和培训后。值得注意的是,在1M to录环境附近确定验证任务的绩效的关键挑战是合适的数据集的稀缺性。
对Mamba上下文长度的另一个实际限制是计算。线性缩放比二次缩放好,但最终仍然加起来。再次,花岗岩4.0 Tiny具有两个关键优势:
简而言之,花岗岩4.0 MOE架构 本身对上下文长度没有任何约束。它可以随您的硬件带走。
我们很高兴能在此过程的早期这么早的结果中继续前训练花岗岩4.0微小。我们也很高兴将我们从训练后花岗岩3.3中学习,特别是在推理能力和随后的复杂指导方面,将我们的学习方式应用于新模型。就像其前辈花岗岩3.2和花岗岩3.3一样,花岗岩4.0 Tiny预览提供可切换的
有关花岗岩系列中新事态发展的更多信息将在IBM认为2025,以及随后的几周和几个月。