英语轻松读发新版了,欢迎下载、更新

Microsoft研究人员构建了具有2B参数的1位AI LLM - 型号很小,可以在某些CPU上运行

2025-04-17 17:40:41 英文原文

作者:Jowi MoralesSocial Links NavigationContributing Writer

Data being transferred
(图片来源:盖蒂图像)

微软研究人员刚刚创建了B1.58 2B4T,这是一种开源的1位大语言模型(LLM),对4万亿代币进行了20亿个参数。但是,使该AI模型与众不同的是,它的轻量级足以有效地在CPU上工作,TechCrunch说苹果M2芯片可以运行它。该模型也很容易获得拥抱脸,允许任何人尝试它。

比特尼特只使用1位权重,只有三个可能的值:-1、0和+1 - 从技术上讲,由于支持三个值,因此它是“ 1.58位模型”。与具有32位或16位浮点格式的主流AI模型相比,这可以节省大量内存,从而使它们能够更有效地运行,并且需要更少的内存和计算能力。比特网的简单性具有一个缺点,尽管与较大的AI模型相比,它的准确性较差。但是,BITNET B1.58 2B4T用大量的培训数据弥补了这一点,据估计该数据超过3,300万本书。

这种轻巧模型背后的团队将其与包括Meta的Llama 3.2 1B在内的主要主流模型进行了比较谷歌S Gemma 3 1b和阿里巴巴的Qwen 2.5 1.5b。在大多数测试中,比特网B1.58 2B4T在这些模型中得分相对较好,甚至在一些测试中获得了最高荣誉基准。更重要的是,它仅在非安装内存中消耗了400MB,少于下一个最小型号(Gemma 3 1b)所使用的30%,即1.4 GB。

滑动以水平滚动

基准

BITNET B1.58 2B

美洲驼3.2 1b

Gemma 3 1b

QWEN 2.5 1.5b

非安装内存使用

0.4 GB

2 GB

1.4 GB

2.6 GB

延迟(CPU解码)

29ms

48ms

41ms

65ms

训练令牌

4万亿

9万亿

2万亿

18万亿

弧挑战

49.91

37.80

38.40

46.67

Arc-easy

74.79

63.17

63.13

76.01

OpenBookQa

41.60

34.80

38.80

40.80

布尔克

80.18

64.65

74.22

78.04

Hellaswag

68.44

60.80

57.69

68.28

piqa

77.09

74.21

71.93

76.12

Winogrande

71.90

59.51

58.48

62.83

CONSENSENSESQA

71.58

58.48

42.10

76.41

真实

45.31

43.80

38.66

46.67

Triviaqa

33.57

37.60

23.49

38.37

mmlu

53.17

45.58

39.91

60.25

人类事件+

38.40

31.10

37.20

50.60

GSM8K

58.38

38.21

31.16

56.79

Math-500

43.40

23.00

42.00

53.00

ifeval

53.48

62.71

66.67

50.12

山台

5.85

5.43

6.40

6.12

平均的

54.19

44.90

43.74

55.23

但是,LLM必须使用bitnet.cpp推理框架才能有效运行此操作。该团队明确表示,即使使用所需的叉子,该模型在将其与标准变压器库一起使用时也不会获得绩效效率。

您将需要抓住可用的框架github如果您想利用其在轻质硬件上的好处。该存储库将bitnet.cpp描述为提供一套优化的内核,这些内核支持CPU上1.58位模型的快速而无损推断(NPU和GPU支持下一步)。尽管目前不支持AI特定的硬件,但它仍然允许使用计算机的任何人在不需要昂贵的组件的情况下尝试AI。

AI模型通常因花费过多的训练和运作而受到批评。但是,轻巧的LLM,例如B1.58 2B4T,可以帮助我们在功能较小的硬件上本地运行AI模型。这可以减少我们对大量数据中心的依赖,甚至可以使人们无法访问具有内置NPU和使用人工智能最强大的GPU的最新处理器。

获取汤姆(Tom)的硬件的最佳新闻和深入的评论,直接进入收件箱。

乔维·莫拉莱斯(Jowi Morales)是一位技术爱好者,在该行业工作多年。自2021年以来,他一直在与多家技术出版物一起写作,在那里他对技术硬件和消费电子产品感兴趣。

关于《Microsoft研究人员构建了具有2B参数的1位AI LLM - 型号很小,可以在某些CPU上运行》的评论


暂无评论

发表评论

摘要

微软研究人员已经开发了B1.58 2B4T,这是一种开放式轻量级语言模型(LLM),其参数为20亿个参数。该模型仅允许三个值(-1、0,+1)允许使用三个值(-1、0,+1)的唯一功能,即使在CPU上也有效地运行,仅需要400MB的非填充内存,并且比较大模型所需的功率更少。尽管与更广泛的AI模型相比,精度较低,但Bitnet在基准测试中表现出色,并且可以通过拥抱脸进行实验。可以在GitHub上访问推理框架bitnet.cpp,对于其有效性能至关重要。