作者:Devin Coldewey
光子计算初创公司Lightmatter该公司已筹集了4亿美元,旨在彻底解决现代数据中心的一个瓶颈问题。该公司的光学互连层允许数百个GPU同步工作,简化了训练和运行AI模型这一成本高昂且复杂的任务。
人工智能的发展及其相应的巨大计算需求已经极大地推动了数据中心行业的发展,但仅仅插入一千个GPU并不能解决问题。正如高性能计算专家多年来所知,如果超级计算机的每个节点有一半的时间都在等待数据的到来而处于闲置状态,那么这些节点的速度再快也没有用。
互连层或多个互连层真正地将一排排的CPU和GPU转换为一个巨大的机器——因此,互连的速度越快,数据中心的速度就越快。看起来Lightmatter通过使用其光子芯片构建了迄今为止最快的互连层。自2018年以来一直在开发.
“超大规模企业知道,如果他们想要拥有百万节点的计算机,他们是无法用思科的传统交换机来实现的。一旦离开机架,你就从高密度互连转变为基本上是用一根细线上挂着一个杯子的状态,”该公司首席执行官兼创始人Nick Harris在接受TechCrunch采访时说道。(你可以观看他简短的演讲,总结了这一问题)这里.)
他说,目前最先进的技术是NVLink,特别是NVL72平台,该平台将72个Nvidia Blackwell单元连接在一起组成一个机架,能够在FP4精度下达到最大1.4 exaFLOPs的计算能力。但是没有哪个机架是一座孤岛,所有这些计算能力必须通过每秒7太比特的“向上扩展”网络来传输。听起来很多,确实如此,但无法更快地将这些单元相互连接以及与其他机架进行通信是提高性能的主要障碍之一。
“为了百万个GPU,你需要多层交换机,这会带来巨大的延迟负担,”Harris说。“你必须从电气信号转换到光学信号再转回电气信号……你使用的功率和等待的时间都非常大。而在更大的集群中,这个问题会变得更加严重。”
那么Lightmatter带来了什么呢?光纤。大量的光纤,通过一个完全光学的接口进行路由。每根光纤最多可以达到1.6太比特(使用多种颜色),每个芯片最多可以有256根光纤……这么说吧,72个GPU提供7太比特听起来就显得有点儿可怜了。
“光子学的发展速度远远超过了人们的预期——人们多年来一直努力使其运行,但现在我们已经做到了,”哈里斯说。“经过七年的极度艰辛的工作,”他补充道。
Lightmatter目前提供的光子互连可以达到30万亿比特,而机架内的光学布线能够让1024个GPU在它们专门设计的机架中同步工作。如果你想知道的话,这两个数字并没有以相似的比例增加,因为在千卡集群中,许多需要与其他机架联网的操作可以在单个机架内完成。(而且无论如何,100万亿比特也在路上了。)
哈里斯指出,这个市场的规模非常大,从微软到亚马逊,再到像xAI和OpenAI这样的新进入者,每一家主要的数据中心公司都对计算资源表现出无止境的需求。“他们正在将建筑物连接在一起!我想知道他们能维持多久。”他说。
这些超大规模企业中有很多已经是客户的了,虽然哈里斯没有点名任何一家。“可以把Lightmatter想象成一个晶圆厂,就像台积电一样,”他说。“我们不会偏向任何人或将自己的名字附在别人的品牌上。我们为他们提供路线图和平台——只是帮助扩大市场份额。”
但是,他俏皮地补充道:“如果不利用这项技术,你的估值不会翻四倍的。”这句话或许是指近期OpenAI融资轮后公司被估值为1570亿美元的事情,但也可能在谈论他自己的公司。
此D轮4亿美元的融资将其估值定为44亿美元,与此前的倍数相似。2023年中期估值“这让我们毫无疑问成为了最大的光电子公司。太酷了!”哈里斯说。本轮融资由T.罗普塞价格 associates领投,富达管理研究公司和GV等现有投资者也参与其中。
接下来呢?除了互连之外,该公司正在开发新的芯片基板,以便它们可以使用光执行更为紧密的(如果这么说的话)网络任务。
哈里斯推测,在互连之外,每芯片的功耗将是未来的重要区分因素。“在10年内,每个人都会拥有晶圆级芯片——提高每芯片性能别无他法,”他说。Cerebras当然已经在着手解决这个问题了,不过在这个技术阶段他们是否能够捕捉到这一进步的真实价值仍是一个开放性问题。
但对哈里斯来说,看到芯片行业遇到了瓶颈,他计划准备好下一步。“十年后,互连技术将发生变化,是摩尔定律,他说。