以下是 3 个提升 AI 性能的关键 LLM 压缩策略

2024-11-09 20:05:00 英文原文

作者:Chinmay Jog, Pangiam

VentureBeat/Ideogram

VentureBeat/表意文字

加入我们的每日和每周时事通讯,了解有关行业领先人工智能报道的最新更新和独家内容。了解更多


在当今快节奏的数字环境中,依赖人工智能的企业面临着新的挑战:运行网络的延迟、内存使用和计算能力成本人工智能模型。随着人工智能的快速发展,推动这些创新的模型变得越来越复杂和资源密集。虽然这些大型模型在各种任务中取得了卓越的性能,但它们通常伴随着大量的计算和内存要求。

对于威胁检测等实时人工智能应用,欺诈检测,生物识别飞机登机和许多其他人一样,提供快速、准确的结果变得至关重要。企业加速人工智能实施的真正动机不仅仅是简单地节省成本基础设施和计算成本,而且还可以实现更高的运营效率、更快的响应时间和无缝的用户体验,这可以转化为切实的业务成果,例如提高客户满意度和减少等待时间。

为了应对这些挑战,我立即想到了两种解决方案,但它们并非没有缺点。一种解决方案是训练较小的模型,以准确性和性能换取速度。另一个解决方案是投资更好的硬件,例如 GPU,它可以低延迟运行复杂的高性能人工智能模型。然而,由于 GPU 需求远远超过供应,该解决方案将迅速推高成本。它也没有解决以下用例:人工智能模型需要在智能手机等边缘设备上运行。输入模型压缩技术:一组旨在减少人工智能模型的大小和计算需求,同时保持其性能的方法。

在本文中,我们将探讨一些模型压缩策略,这些策略将帮助开发人员即使在资源最受限的环境中也能部署 AI 模型。

模型压缩有何帮助

应压缩机器学习 (ML) 模型的原因有多种。首先,较大的模型通常提供更好的准确性,但需要大量的计算资源来运行预测。许多最先进的模型,例如大语言模型(法学硕士)和深度神经网络,计算成本高且内存密集。由于这些模型部署在推荐引擎或威胁检测系统等实时应用程序中,因此它们对高性能 GPU 或云基础设施的需求增加了成本。

其次,某些应用程序的延迟要求会增加成本。许多人工智能应用程序依赖于实时或低延迟预测,这需要强大的硬件来保持较短的响应时间。预测量越大,连续运行这些模型的成本就越高。 

此外,面向消费者的服务中大量的推理请求可能会导致成本飙升。例如,部署在机场、银行或零售场所的解决方案每天都会涉及大量推理请求,每个请求都会消耗计算资源。这种操作负载需要仔细的延迟和成本管理,以确保扩展人工智能不会耗尽资源。

然而,模型压缩不仅仅是成本。较小的型号消耗的能源较少,这意味着移动设备的电池寿命更长,数据中心的功耗更低。这不仅降低了运营成本,还通过降低碳排放使人工智能开发与环境可持续发展目标保持一致。通过解决这些挑战,模型压缩技术为更实用、更具成本效益和可广泛部署的人工智能解决方案铺平了道路。 

顶级模型压缩技术

压缩模型可以更快速、更高效地执行预测,从而实现实时应用程序,从而增强各个领域的用户体验,从机场更快的安全检查到实时身份验证。以下是一些常用的人工智能模型压缩技术。

模型剪枝模型 prn英

是一种通过删除对模型输出影响很小的参数来减小神经网络大小的技术。通过消除冗余或无关紧要的权重,可以降低模型的计算复杂性,从而缩短推理时间并降低内存使用量。结果是一个更精简的模型,仍然表现良好,但运行所需的资源更少。对于企业来说,修剪尤其有益,因为它可以减少预测的时间和成本,而不会在准确性方面造成太大损失。可以重新训练修剪后的模型以恢复任何损失的准确性。模型剪枝可以迭代地进行,直到达到所需的模型性能、大小和速度。迭代剪枝等技术有助于有效减小模型大小,同时保持性能。

模型量化

量化是优化 ML 模型的另一种强大方法。它降低了用于表示模型参数和计算的数字的精度,通常从 32 位浮点数降低到 8 位整数。这显着减少了模型的内存占用,并通过使其能够在功能较弱的硬件上运行来加快推理速度。内存和速度的改进可以达到4x。在计算资源受限的环境中,例如边缘设备或移动电话,量化允许企业更有效地部署模型。它还削减了运行人工智能服务的能耗,从而降低了云或硬件成本。

通常,量化是在训练有素的人工智能模型上完成的,并使用校准数据集来最大限度地减少性能损失。如果性能损失仍然超出可接受的范围,可以使用类似的技术量化感知训练可以通过允许模型在学习过程本身适应这种压缩来帮助保持准确性。此外,可以在模型修剪之后应用模型量化,在​​保持性能的同时进一步改善延迟。

知识蒸馏

技术涉及训练较小的模型(学生)来模仿更大、更复杂的模型(教师)的行为。此过程通常涉及根据原始训练数据和教师的软输出(概率分布)来训练学生模型。这不仅有助于将最终决策转移,还有助于将较大模型的细致入微的“推理”转移到较小的模型上。

学生模型通过关注数据的关键方面来学习近似教师的表现,从而形成一个轻量级模型,该模型保留了大部分原始准确性,但计算需求却少得多。对于企业来说,知识提炼可以部署更小、更快的模型,从而以推理成本的一小部分提供类似的结果。它在速度和效率至关重要的实时应用程序中特别有价值。

通过应用修剪和量化技术可以进一步压缩学生模型,从而产生更轻、更快的模型,其性能与更大的复杂模型类似。

结论

随着企业寻求扩大人工智能运营规模,实施实时人工智能解决方案成为一个关键问题。模型剪枝、量化和知识蒸馏等技术通过优化模型以实现更快、更便宜的预测而不会对性能造成重大损失,为这一挑战提供了实用的解决方案。通过采用这些策略,公司可以减少对昂贵硬件的依赖,在其服务中更广泛地部署模型,并确保人工智能仍然是其运营中经济上可行的一部分。在运营效率决定公司创新能力的关键时刻,优化机器学习推理不仅是一种选择,而且是一种必然。

Chinmay Jog 是一名高级机器学习工程师班吉安

数据决策者

欢迎来到 VentureBeat 社区!

DataDecisionMakers 是专家(包括从事数据工作的技术人员)可以分享与数据相关的见解和创新的地方。

如果您想了解前沿思想和最新信息、最佳实践以及数据和数据技术的未来,请加入我们的 DataDecisionMakers。

你甚至可能会考虑 贡献一篇文章属于你自己的!

从 DataDecisionMakers 阅读更多内容

关于《以下是 3 个提升 AI 性能的关键 LLM 压缩策略》的评论


暂无评论

发表评论

摘要

在当今的数字环境中,使用人工智能的企业面临着与延迟、内存使用和高计算成本相关的挑战。随着人工智能模型变得更加复杂和资源密集,需要模型压缩技术来保持性能,同时减少计算需求。这些技术,包括模型修剪、量化和知识蒸馏,有助于在实时应用程序中有效部署人工智能,增强用户体验,而不会显着影响准确性或增加运营成本。通过优化机器学习推理,公司可以更经济、更可持续地扩展其人工智能运营。