作者:by The Korea Advanced Institute of Science and Technology (KAIST)
最新的生成AI模型,例如OpenAI的Chatgpt-4和Google的Gemini 2.5,不仅需要高内存带宽,而且还需要大的内存容量。这就是为什么像Microsoft和Google这样的生成AI云运营公司购买了数十万个Nvidia GPU。
为了解决建立此类高性能AI基础设施的核心挑战的解决方案,韩国研究人员成功地开发了NPU(神经加工单元)核心技术,该技术将生成AI模型的推理提高了60%以上,而与最新的GPU相比,消耗大约44%的功率。
KAIST Computing教授的Jongse Park教授与HyperAccel Inc.合作开发了高性能,低功耗的NPU核心技术,专门用于像Chatgpt这样的生成AI云。
研究小组提出的技术由博士学位提出。Hyperaccel Inc.的学生Minsu Kim和Seongmin Hong博士是2025年国际计算机建筑研讨会的联合作者(ISCA 2025),6月21日在东京举行。
关键目标研究是通过轻巧的推理过程来提高大规模生成AI服务的性能,同时最大程度地减少准确性损失并解决记忆瓶颈问题。这项研究以其AI半导体和AI系统软件的整合设计而高度认可,这些设计是AI基础架构的关键组成部分。
尽管现有的基于GPU的AI基础架构需要多个GPU设备来满足高带宽和容量需求,但该技术可以通过使用KV Cache量化量较少的NPU设备来实现相同级别的AI基础架构的配置。KV缓存占大部分内存使用情况的占用,从而大大降低了构建生成AI云的成本。
研究团队将其设计为与内存界面集成在一起,而无需更改现有NPU架构的操作逻辑。该硬件体系结构不仅实现了所提出的量化算法,而且还采用了页面级内存管理技术,以有效利用有限的内存带宽和容量,并介绍了针对量化KV缓存优化的新的编码技术。
此外,与最新的GPU相比,建立具有较高成本和功率效率的基于NPU的AI云时,NPU的高性能,低功率性质将显着降低运营成本。
Jongse Park教授说:“这项研究通过与HyperAccel Inc.的联合合作找到了一种解决生成AI推理轻度加权算法的解决方案,并成功地开发了一种可以解决记忆问题的核心NPU技术。通过这项技术,我们实施了与最新的GPU相比,我们实施了NPU,该技术实施了超过60%的NPU,与最新的GPU相比,我们实施了超过60%的NPU。记忆要求在保持推理精度和为此进行优化的硬件设计的同时。“这项技术证明了实施专门用于生成AI的高性能,低功耗基础设施的可能性,并且有望不仅在AI云数据中心,而且在AI云数据中心,而且在AI云数据中心(AX)环境中发挥关键作用,以动态的可执行性AI(例如ASSIC AI)代表。”
更多信息:
Minsu Kim等人,OAKEN:在线途径Hybrid KV Cache量化的快速有效LLM,第52届年度国际计算机架构研讨会论文集(2025)。doi:10.1145/3695053.3731019引用:
AI云基础架构变得更快,更绿:NPU核心将推理性能提高了60%(2025年7月7日)检索2025年7月8日来自https://techxplore.com/news/2025-07-ai-cloud-infrastructure-faster-greener.html
该文档具有版权。除了为私人研究或研究目的的任何公平交易外,没有未经书面许可,可以复制部分。内容仅用于信息目的。