作者:PYMNTS
亮点
小语言模型(SLM)是大语言模型的更细微版本,在PAR或偶数表现较大的模型时提供降低的成本。
SLM可能会在一般或复杂的任务中挣扎,因为它们在许多领域的全面知识中并不那么强大。
到目前为止,最受欢迎的SLM是Meta的开源美洲驼。
由于Chatgpt等大型语言模型的受欢迎程度,人工智能(AI)现在是家喻户晓的话。这些大型型号在整个互联网上接受过培训,并且经常有数百十亿模型内的参数设置,可以帮助它猜测序列下一步出现什么单词。参数越多,模型就越复杂。
小语言模型(SLM)是缩放版本大型语言模型(LLM)。它没有那么多参数,但是用户可能不需要额外的功能,具体取决于手头的任务。类比,人们不需要超级计算机来进行基本的文字处理。他们只需要普通的PC。
但是,尽管SLM的尺寸较小,但它们仍然可以很强大。在许多情况下,根据IMB数据,它们是更快,便宜并提供更多控制权对于希望将强大的AI部署到其业务而不会破坏银行的公司的关键。
语言模型甚至可以具有数万亿个参数,例如OpenAI的GPT-4。相比之下,小语言模型通常具有数百万到数十亿个参数。
根据2025年1月纸亚马逊研究人员在10亿至80亿个参数范围内执行甚至超过大型模型。
例如,SLM可以在某些域中胜过LLM,因为它们是训练有素关于特定行业。但是LLM在一般而言中做得更好。
SLM还需要较少的计算能力。它们可以部署在PC,移动设备或公司服务器上,而不是云中。这使它们更快,更便宜,更易于调整特定的业务需求。
参见: AI解释说:什么是大型语言模型,为什么企业应该照顾?
小型语言模型在想要AI的好处而没有LLM的巨大成本和复杂性的企业中迅速变得流行。
以下是优势LLMS上的SLMS:
根据SLM的数据和培训要求较低,可以转化为快速周转时间并加快ROI。”英特尔。
缺点SLMS:
至于幻觉,由于SLM建立在较小,更专注的数据集上,因此非常适合按行业使用。因此,根据英特尔的说法,在为特定行业,现场或公司建造的数据集上的培训有助于SLM提高深刻而细微的理解,可以降低错误产出的风险。”
阅读更多:AI与Web3,区块链和加密有何不同
根据亚马逊研究论文的报道,过去两年中最受欢迎的SLM是迄今为止的开源美洲驼2和3个家庭中的SLM。
Llama 3有80亿,700亿和4050亿个参数模型,而Llama 2具有70亿,130亿,340亿和700亿版本。SLM将是Llama 3的80亿款,以及Llama 2的7和130亿款车型(Meta Just Just发行 美洲驼4本星期。)
新参与者DeepSeek R1-1.5B提供了15亿个参数,作为中国AI初创公司的第一个推理模型。
其他SLM包括Google双子座Nano(18亿和32.5亿个参数版本)及其杰玛(Gemma)开源型号。上个月,Google推出了Gemma 3,其中1、4、120亿和270亿个参数。
去年10月,法国AI创业公司和OpenAI竞争对手Mistral推出了新的SLM家族:Ministraux,在3和80亿个参数。它的第一个SLM是Mistral 7b,它具有70亿参数。
另一个值得注意的SLM是Microsoft的PHI-2。尽管只有27亿个参数,但PHI-2在数学,代码和推理任务方面表现良好。它是使用经过精心策划的数据集对其进行训练的,证明了更智能的数据选择甚至可以使非常小的模型能够能够。
代码存储库拥抱脸有数百个开源SLM可供公司使用。
对于所有PYMNTS AI覆盖范围,请订阅每日一个 AIâ新闻通讯。