为当今最苛刻的机器学习应用提供动力的深度神经网络模型已经变得如此庞大和复杂,以至于它们正在突破传统电子计算硬件的极限。
光子硬件可以利用光执行机器学习计算,提供了更快、更节能的替代方案。然而,有些类型的神经网络计算是光子器件无法执行的,需要使用片外电子设备或其他阻碍速度和效率的技术。
经过十年的研究,麻省理工学院和其他地方的科学家开发出了一种新的光子芯片,可以克服这些障碍。他们展示了一种完全集成的光子处理器,可以在芯片上以光学方式执行深度神经网络的所有关键计算。
该光学设备能够在不到半纳秒的时间内完成机器学习分类任务的关键计算,同时实现超过 92% 的准确度,性能与传统硬件相当。
该芯片由形成光学神经网络的互连模块组成,采用商业铸造工艺制造,可以实现该技术的扩展并将其集成到电子产品中。
从长远来看,光子处理器可以为激光雷达、天文学和粒子物理科学研究或高速电信等计算要求较高的应用带来更快、更节能的深度学习。
– 在很多情况下,模型的表现如何并不是唯一重要的事情,重要的是您能多快获得答案。现在我们有了一个可以在纳秒时间尺度上运行光学神经网络的端到端系统,我们可以开始在更高层次上思考应用程序和算法,”Saumil Bandyopadhyay 说 – 17,工学硕士 - 18 岁,博士 - 23 岁,电子研究实验室 (RLE) 量子光子学和人工智能小组的访问科学家,NTT 的博士后Research, Inc.,他是有关新芯片的论文的主要作者。
Bandyopadhyay 与 Alexander Sludds(18 岁)、MEng(19 岁)、PhD(23 岁)共同撰写了这篇论文;尼古拉斯·哈里斯 (Nicholas Harris) 博士 – 17;Darius Bunandar 博士 —19;Stefan Krastanov,前 RLE 研究科学家,现任马萨诸塞大学阿默斯特分校助理教授;Ryan Hamerly,RLE 访问科学家和 NTT Research 高级科学家;Matthew Streshinsky,诺基亚前硅光子学主管,现任 Enosemi 联合创始人兼首席执行官;Michael Hochberg,Periplous, LLC 总裁;Dirk Englund 是电气工程与计算机科学系教授、量子光子学与人工智能小组和 RLE 的首席研究员、该论文的高级作者。研究今天出现在自然光子学。
用光进行机器学习
深度神经网络由许多互连的节点或神经元层组成,它们对输入数据进行操作以产生输出。深度神经网络中的一个关键操作涉及使用线性代数来执行矩阵乘法,这会在数据从一层传递到另一层时对其进行转换。
但除了这些线性运算之外,深度神经网络还执行非线性运算,帮助模型学习更复杂的模式。非线性运算(如激活函数)赋予深度神经网络解决复杂问题的能力。
2017 年,Englund 团队与 Cecil 和 Ida Green 物理学教授 Marin Soljaäiä 实验室的研究人员一起,展示了单个光子芯片上的光学神经网络可以用光进行矩阵乘法。
但当时,该设备无法在芯片上执行非线性运算。光学数据必须转换为电信号并发送到数字处理器以执行非线性运算。
– 光学中的非线性非常具有挑战性,因为光子不容易彼此相互作用。这使得触发光学非线性非常耗电,因此构建一个能够以可扩展的方式实现这一点的系统变得具有挑战性,”Bandyopadhyay 解释道。
他们通过设计称为非线性光学功能单元(NOFU)的设备克服了这一挑战,该设备结合了电子学和光学,在芯片上实现非线性操作。
研究人员使用执行线性和非线性操作的三层设备在光子芯片上构建了光学深度神经网络。
完全集成的网络
首先,他们的系统将深度神经网络的参数编码为光。然后,2017 年论文中演示的一系列可编程分束器对这些输入执行矩阵乘法。
然后,数据传递到可编程 NOFU,NOFU 通过将少量光吸到光电二极管将光信号转换为电流来实现非线性功能。这个过程不需要外部放大器,消耗的能量非常少。
– 我们一直停留在光学领域,直到最后我们想要读出答案。这使我们能够实现超低延迟。”Bandyopadhyay 说道。
实现如此低的延迟使他们能够在芯片上有效地训练深度神经网络,这一过程称为原位一个 训练通常会消耗数字硬件的大量能量。
“这对于在域内处理光信号的系统(例如导航或电信)特别有用,而且在您想要实时学习的系统中也特别有用,”他说。
该光子系统在训练测试中达到了96%以上的准确率,在推理过程中达到了92%以上的准确率,与传统硬件相当。此外,该芯片在不到半纳秒的时间内执行关键计算。
“这项工作表明,计算本质上是输入到输出的映射,可以编译到线性和非线性物理的新架构上,从而实现计算与所需工作量之间根本不同的缩放法则,”英格兰德说。
整个电路是使用与生产 CMOS 计算机芯片相同的基础设施和铸造工艺制造的。这可以使芯片能够大规模制造,使用经过验证的技术,在制造过程中引入很少的错误。
Bandyopadhyay 说,扩大他们的设备并将其与相机或电信系统等现实世界的电子产品集成将是未来工作的主要重点。此外,研究人员希望探索能够利用光学优势更快、更高能效地训练系统的算法。
这项研究的部分资金由美国国家科学基金会、美国空军科学研究办公室和 NTT Research 资助。