分析师表示,随着企业希望加快培训时间、降低碳排放并增强安全性,小语言模型 (SLM) 可能会在 2025 年成为主流。
虽然生成式人工智能热潮主要集中在法学硕士和创建更强大模型的行业军备竞赛,但 GlobalData 首席分析师 Isabel Al-Dhahir 认为,未来一年,更精简的选择的吸引力将会激增。
这一预测的一个关键因素是 SLM 使用更小、更集中的数据集,使企业能够在几周而不是几个月的时间内训练模型。
例如,SLM 通常拥有不到 100 亿个参数,而大型模型的参数则高达万亿个。
“重点数据集的使用使得 SLM 特别适合特定领域的功能和小规模应用程序,例如移动应用程序、边缘计算和计算资源有限的环境,”她说。
“随着训练技术的改进,参数更少的 SLM 变得更加准确,并且处理时间也更快。”
Al-Dhahir 指出,从网络安全的角度来看,这些较小的数据集也使 SLM 更具弹性,因为与更大、更笨重的模型相比,它们代表更小的攻击面,并且可以相对轻松地在本地操作。
根据定义,SLM 的运行成本较低且能耗较高,因为它们所需的计算能力比 LLM 少得多;他们也不需要昂贵的基础设施。
另一个优点是他们更容易满足监管要求。获得培训材料的许可证不仅更加简单,而且由于不符合计算阈值,因此可以避免严格的义务。
SLM 越来越受欢迎
许多主要的行业参与者正在努力提供 SLM,其中 Microsoft、Meta 和 Google 最近都发布了自己的模型。
例如,微软正在提供 Phi-3 系列小型语言模型,旨在创建营销或销售内容以及客户支持聊天机器人。
今年早些时候,谷歌推出杰玛 2B 和杰玛 7B。这两个模型迭代有助于完成文本生成任务,例如回答问题和总结信息。
与此同时,Mistral 在 Apache 2.0 许可证下发布了其模型之一。
然而,SLM 确实有其局限性。组织可能会倾向于认为 SLM 一开始就足够有效,但后来需要过渡到更大的模型。
而且由于 SLM 通常是为了在特定领域表现出色而构建的,因此让他们使用其职权范围之外的模型可能会很棘手。
今年早些时候,Articul8 创始人兼首席执行官 Arun Subramaniyan告诉信息技术专家 SLM 最好与 LLM 结合使用——Al-Dhahir 同意这一观点。
她说:“SLM 并不是要取代 LLM,而是对其进行补充。人们对生成式人工智能的能力仍然有很大的兴趣,许多组织仍在努力寻找可以最好地为他们服务的地方。”
“随着人工智能市场竞争的加剧,公司面临着越来越大的压力,需要展示具有可证明的投资回报率的强大业务案例。SLM 因其适用于特定行业的应用程序,可以在不同的环境中提供更轻松的可扩展性。”