英语轻松读发新版了,欢迎下载、更新

小语言模型将于明年起飞

2024-11-28 14:33:58 英文原文

作者:Emma WoollacottSocial Links Navigation

Two digitized human brains placed on top of lightbulb fuses facing each other against a red background.
(图片来源:盖蒂图片社)

分析师表示,随着企业希望加快培训时间、降低碳排放并增强安全性,小语言模型 (SLM) 可能会在 2025 年成为主流。

虽然生成式人工智能热潮主要集中在法学硕士和创建更强大模型的行业军备竞赛,但 GlobalData 首席分析师 Isabel Al-Dhahir 认为,未来一年,更精简的选择的吸引力将会激增。

这一预测的一个关键因素是 SLM 使用更小、更集中的数据集,使企业能够在几周而不是几个月的时间内训练模型。

例如,SLM 通常拥有不到 100 亿个参数,而大型模型的参数则高达万亿个。

“重点数据集的使用使得 SLM 特别适合特定领域的功能和小规模应用程序,例如移动应用程序、边缘计算和计算资源有限的环境,”她说。

“随着训练技术的改进,参数更少的 SLM 变得更加准确,并且处理时间也更快。”

Al-Dhahir 指出,从网络安全的角度来看,这些较小的数据集也使 SLM 更具弹性,因为与更大、更笨重的模型相比,它们代表更小的攻击面,并且可以相对轻松地在本地操作。

接收我们的最新新闻、行业动态、特色资源等。立即注册即可接收我们关于人工智能网络犯罪与安全的免费报告 - 2024 年最新更新。

根据定义,SLM 的运行成本较低且能耗较高,因为它们所需的计算能力比 LLM 少得多;他们也不需要昂贵的基础设施。

另一个优点是他们更容易满足监管要求。获得培训材料的许可证不仅更加简单,而且由于不符合计算阈值,因此可以避免严格的义务。

SLM 越来越受欢迎

许多主要的行业参与者正在努力提供 SLM,其中 Microsoft、Meta 和 Google 最近都发布了自己的模型。

例如,微软正在提供 Phi-3 系列小型语言模型,旨在创建营销或销售内容以及客户支持聊天机器人。

今年早些时候,谷歌推出杰玛 2B 和杰玛 7B。这两个模型迭代有助于完成文本生成任务,例如回答问题和总结信息。

与此同时,Mistral 在 Apache 2.0 许可证下发布了其模型之一。

然而,SLM 确实有其局限性。组织可能会倾向于认为 SLM 一开始就足够有效,但后来需要过渡到更大的模型。

而且由于 SLM 通常是为了在特定领域表现出色而构建的,因此让他们使用其职权范围之外的模型可能会很棘手。

今年早些时候,Articul8 创始人兼首席执行官 Arun Subramaniyan告诉信息技术专家 SLM 最好与 LLM 结合使用——Al-Dhahir 同意这一观点。

她说:“SLM 并不是要取代 LLM,而是对其进行补充。人们对生成式人工智能的能力仍然有很大的兴趣,许多组织仍在努力寻找可以最好地为他们服务的地方。”

“随着人工智能市场竞争的加剧,公司面临着越来越大的压力,需要展示具有可证明的投资回报率的强大业务案例。SLM 因其适用于特定行业的应用程序,可以在不同的环境中提供更轻松的可扩展性。”

艾玛·伍拉科特 (Emma Woollacott) 是一名自由记者,为 BBC、Private Eye、福布斯、Raconteur 和专业技术杂志等出版物撰稿。

关于《小语言模型将于明年起飞》的评论


暂无评论

发表评论

摘要

分析师预测,由于训练时间缩短、碳排放降低和安全性增强等优势,小语言模型 (SLM) 将在 2025 年获得主流采用。与较大的模型相比,SLM 使用较小的数据集,可以更快地开发模型并在特定领域获得更好的性能。从监管的角度来看,它们成本较低且更易于管理。Microsoft、Meta 和 Google 等主要科技公司正在为各种应用程序开发 SLM。尽管存在一些限制,例如需要过渡到更大的模型以获得更广泛的功能,SLM 仍被视为与大型语言模型 (LLM) 一起的补充工具。