Recogni 转向数据中心人工智能推理芯片 - EE Times

2024-09-27 12:01:16 英文原文

加利福尼亚州圣何塞。边缘人工智能芯片初创公司 Recogni 之前致力于汽车领域的人工智能加速器,现已转向数据中心的生成式人工智能推理,并将为该市场开发第二代芯片。

Recogni 联合创始人兼首席产品官 RK Anand 告诉 EE Times,该公司希望将其在对数系统 (LNS) 方面的专业知识大规模应用于人工智能推理。

他说,[我们的]数学将为我们带来明显的优势,并使我们在 GenAI 推理市场上处于有利地位。训练模型是成本中心,但推理是利润中心,除非你靠推理赚钱,否则无处不在的人工智能就不会发生。我们的工作是提供使推理经济且可广泛采用的技术和系统。

日志编号系统

LNS 本身并不新鲜。在硅中进行加法一直相对容易,而乘法则需要更多的硅面积。将数字转换为对数域意味着乘法被更便宜的加法取代,但加法反而变得更加困难。LNS 添加通常是使用效率非常低的查找表来完成的。如果工作负载包含的乘法多于加法(就像 DSP 工作负载中经常发生的那样),这种权衡可能是值得的。问题在于人工智能推理是矩阵乘法的。也就是说,它的乘法次数和加法次数大致相等。

要使 LNS 适用于 AI 推理,您需要找到一种更有效的方法来处理加法,因为Recogni 联合创始人兼 AI 和产品副总裁 Gilles Backhus 向 EE Times 解释说,就所需内存大小而言,所需的数千个查找表将令人望而却步,尤其是对于 16 位等更高精度的情况。

您可以使用处理器Backhus 补充说,进行泰勒级数估计而不是查找表,但这在计算上也相对昂贵且缓慢。相反,Recogni 根据众所周知的近似值将其加法近似为乘法:

log2(1 x) = x for 0

关于《Recogni 转向数据中心人工智能推理芯片 - EE Times》的评论


暂无评论

发表评论

摘要

加利福尼亚州圣何塞。边缘人工智能芯片初创公司 Recogni 之前致力于汽车领域的人工智能加速器,现已转向数据中心的生成式人工智能推理,并将为该市场开发第二代芯片。为了使 LNS 适用于 AI 推理,您需要找到一种更有效的方法来处理添加,因为所需的数千个查找表在所需的内存大小方面将是令人望而却步的,尤其是对于像 16 位这样的更高精度,Recogni 联合创始人兼副总裁人工智能和产品 Gilles Backhus 向 EE Times 解释道。Backhus 说,QAT 还需要访问整个训练数据集,但这在今天并不总是可行。我们希望让我们的软件故事变得极其干净和简单。Recognis 模拟的单机架系统可为 Llama3.1-405B(2304 个并发用户)提供 320,000 个令牌/秒,与同等大小相比,首次令牌时间 (TTFT) 快 3 倍,每个输出令牌时间 (TPOT) 快 6.4 倍基于 Nvidia H200 的系统。