微软研究人员刚刚创建了B1.58 2B4T,这是一种开源的1位大语言模型(LLM),对4万亿代币进行了20亿个参数。但是,使该AI模型与众不同的是,它的轻量级足以有效地在CPU上工作,TechCrunch说苹果M2芯片可以运行它。该模型也很容易获得拥抱脸,允许任何人尝试它。
比特尼特只使用1位权重,只有三个可能的值:-1、0和+1 - 从技术上讲,由于支持三个值,因此它是“ 1.58位模型”。与具有32位或16位浮点格式的主流AI模型相比,这可以节省大量内存,从而使它们能够更有效地运行,并且需要更少的内存和计算能力。比特网的简单性具有一个缺点,尽管与较大的AI模型相比,它的准确性较差。但是,BITNET B1.58 2B4T用大量的培训数据弥补了这一点,据估计该数据超过3,300万本书。
这种轻巧模型背后的团队将其与包括Meta的Llama 3.2 1B在内的主要主流模型进行了比较谷歌S Gemma 3 1b和阿里巴巴的Qwen 2.5 1.5b。在大多数测试中,比特网B1.58 2B4T在这些模型中得分相对较好,甚至在一些测试中获得了最高荣誉基准。更重要的是,它仅在非安装内存中消耗了400MB,少于下一个最小型号(Gemma 3 1b)所使用的30%,即1.4 GB。
滑动以水平滚动
基准 | BITNET B1.58 2B | 美洲驼3.2 1b | Gemma 3 1b | QWEN 2.5 1.5b |
---|---|---|---|---|
非安装内存使用 | 0.4 GB | 2 GB | 1.4 GB | 2.6 GB |
延迟(CPU解码) | 29ms | 48ms | 41ms | 65ms |
训练令牌 | 4万亿 | 9万亿 | 2万亿 | 18万亿 |
弧挑战 | 49.91 | 37.80 | 38.40 | 46.67 |
Arc-easy | 74.79 | 63.17 | 63.13 | 76.01 |
OpenBookQa | 41.60 | 34.80 | 38.80 | 40.80 |
布尔克 | 80.18 | 64.65 | 74.22 | 78.04 |
Hellaswag | 68.44 | 60.80 | 57.69 | 68.28 |
piqa | 77.09 | 74.21 | 71.93 | 76.12 |
Winogrande | 71.90 | 59.51 | 58.48 | 62.83 |
CONSENSENSESQA | 71.58 | 58.48 | 42.10 | 76.41 |
真实 | 45.31 | 43.80 | 38.66 | 46.67 |
Triviaqa | 33.57 | 37.60 | 23.49 | 38.37 |
mmlu | 53.17 | 45.58 | 39.91 | 60.25 |
人类事件+ | 38.40 | 31.10 | 37.20 | 50.60 |
GSM8K | 58.38 | 38.21 | 31.16 | 56.79 |
Math-500 | 43.40 | 23.00 | 42.00 | 53.00 |
ifeval | 53.48 | 62.71 | 66.67 | 50.12 |
山台 | 5.85 | 5.43 | 6.40 | 6.12 |
平均的 | 54.19 | 44.90 | 43.74 | 55.23 |
但是,LLM必须使用bitnet.cpp推理框架才能有效运行此操作。该团队明确表示,即使使用所需的叉子,该模型在将其与标准变压器库一起使用时也不会获得绩效效率。
您将需要抓住可用的框架github如果您想利用其在轻质硬件上的好处。该存储库将bitnet.cpp描述为提供一套优化的内核,这些内核支持CPU上1.58位模型的快速而无损推断(NPU和GPU支持下一步)。尽管目前不支持AI特定的硬件,但它仍然允许使用计算机的任何人在不需要昂贵的组件的情况下尝试AI。
AI模型通常因花费过多的训练和运作而受到批评。但是,轻巧的LLM,例如B1.58 2B4T,可以帮助我们在功能较小的硬件上本地运行AI模型。这可以减少我们对大量数据中心的依赖,甚至可以使人们无法访问具有内置NPU和使用人工智能最强大的GPU的最新处理器。