作者:Samuel K. Moore
机器学习使用的芯片模拟电路长期以来,数字化技术一直承诺节省大量能源。但实际上,他们大多实现了适度的节省,而且只针对中等规模的企业。神经网络。硅谷初创公司 Sageance 表示,它拥有技术,可以将承诺的节能效果带到适合大规模任务的任务中。生成式人工智能型号。该初创公司声称其系统将能够运行大型语言模型美洲驼2-70B十分之一的功率英伟达 H100基于 GPU 的系统,成本只有二十分之一,空间也只有二十分之一。
“我的愿景是创造一种与人工智能技术截然不同的技术,”Sageance 首席执行官兼创始人说道维沙尔·沙林。早在 2018 年公司成立时,他就“意识到功耗将成为人工智能大规模采用的主要障碍”……。这个问题已经变得更加严重了很多很多个数量级生成式人工智能导致模型尺寸膨胀。 –
核心节能能力模拟人工智能它有两个基本优势:它不需要移动数据,并且它使用一些基本物理原理来完成机器学习最重要的数学运算。
该数学问题是将向量相乘,然后将结果相加,称为乘法和积累。早期,工程师们意识到电气工程师的两条基本规则或多或少立即起到了同样的作用。欧姆定律如果您使用神经网络的“权重”参数作为电导,则“电压乘以电导等于电流”。基尔霍夫现行定律– 进入和离开一个点的电流总和为零 – 意味着您只需将所有这些乘法连接到同一根电线即可轻松将它们相加。最后,在模拟人工智能中,神经网络参数不需要从内存转移到计算电路(通常比计算本身的能源成本更大),因为它们已经嵌入到计算电路中。
Sageance 使用闪存单元作为电导值。通常用于数据存储的闪存单元类型是单个晶体管可以容纳3 或 4 位,但 Sageance 开发了算法,让嵌入在其芯片中的单元保存 8 位,这是法学硕士和其他所谓的变压器型号。Sarin 表示,在单个晶体管中存储 8 位数字,而不是在典型数字存储单元中存储 48 个晶体管,可以节省重要的成本、面积和能源,Sarin 30 年来一直致力于在闪存中存储多个位。年。
数字数据转换为模拟电压[左]。这些数据有效地乘以闪存单元[蓝色],求和,然后转换回数字数据[底部]。模拟推理
更节能的是,闪存单元在一种称为“深亚阈值”的状态下运行。也就是说,它们在几乎不开启的状态下工作,产生很少的电流。这在数字电路中是行不通的,因为它会减慢计算速度。但由于模拟计算是一次性完成的,因此不会影响速度。
如果这一切听起来有点熟悉,那么确实如此。早在2018年,三人组初创公司追求基于闪存的模拟人工智能版本。合成天特最终放弃了模拟方法,转而采用数字方案——迄今为止,已有六款芯片投入批量生产。神话挣扎但还是坚持了下来,就像以前一样Anaflash。其他人,特别是IBM 研究中心,已经开发出依赖闪存以外的非易失性存储器的芯片,例如相变存储器或电阻式RAM。
一般来说,模拟人工智能一直在努力发挥其潜力,特别是当规模扩大到可能在数据中心有用的规模时。其主要困难之一是电导细胞的自然变化;这可能意味着存储在两个不同单元中的相同数字将导致两种不同的电导。更糟糕的是,这些电导会随着时间的推移而漂移并随着温度的变化而变化。这种噪声淹没了代表结果的信号,并且噪声可以通过深度神经网络的多层逐级复合。
Sarin 解释说,Sageance 的解决方案是芯片上的一组参考单元和一种专有算法,该算法使用它们来校准其他单元并跟踪与温度相关的变化。
对于那些开发模拟人工智能的人来说,另一个令人沮丧的来源是需要将乘法和累加过程的结果数字化,以便将其传递到神经网络的下一层,然后必须将其转换回模拟电压信号。其中每个步骤都需要模数和数模转换器,这些转换器会占用芯片上的面积并消耗功率。
据 Sarin 称,Sageance 已经开发了这两种电路的低功耗版本。数模转换器的功率需求得益于以下事实:电路需要提供非常窄的电压范围,以便在深亚阈值模式下操作闪存。
Sageance 的首款产品将于 2025 年推出,将面向视觉系统,与基于服务器的法学硕士相比,视觉系统的提升要轻得多。“这对我们来说是一个跨越式的产品,生成式人工智能很快就会紧随其后,”萨林说。
Sageance 的未来系统将由 3D 堆叠模拟芯片组成,通过遵循通用小芯片互连 (UCIe) 标准的中介层连接到处理器和内存。模拟推理
生成式AI产品将从视觉芯片向上扩展,主要通过模拟AI的垂直堆叠小芯片位于通信芯片之上。这些堆栈将在称为 Delphi 的单个封装中连接到 CPU 芯片和高带宽内存 DRAM。
在模拟中,由 Delphis 组成的系统将以每秒 666,000 个令牌的速度运行 Llama2-70B,消耗 59 千瓦的功率,而由 Delphis 组成的系统则消耗 624 千瓦的功率。英伟达 H100Sageance 声称,基于-的系统。