英语轻松读发新版了,欢迎下载、更新

小语言模型:2025 年 10 项突破性技术

2025-01-03 13:00:00 英文原文

作者:By Will Douglas Heavenarchive page

WHO

艾伦人工智能研究所、Anthropic、谷歌、Meta、微软、OpenAI

什么时候

现在

毫无疑问:在人工智能世界中,规模很重要。当开放人工智能早在 2020 年就推出了 GPT-3,它是有史以来最大的语言模型。该公司表明加大此类模型的尺寸足以让性能达到顶峰。这引发了一场技术热潮,此后一直由更大的型号维持着。正如 OpenAI 的研究科学家 Noam Brown 十月份在旧金山 TEDAI 上对观众所说的那样,“过去五年人工智能取得的令人难以置信的进步可以用一个词来概括:规模。”

但随着新高端型号的边际收益逐渐减弱,研究人员正在研究如何用更少的资源做更多的事情。对于某些任务,在更集中的数据集上训练的较小模型现在可以性能与更大的一样——如果不是更好的话。这对于渴望以几种特定方式部署人工智能的企业来说是一个福音。如果您一次又一次地发出相同类型的请求,则您的模型中不需要整个互联网。 

大多数大型科技公司现在都为此夸耀其旗舰型号的有趣版本:OpenAI 提供 GPT-4o 和 GPT-4o mini;谷歌DeepMind有Gemini Ultra和Gemini Nano;Anthropic 的 Claude 3 有三种风格:特大号作品、中号十四行诗和小型俳句。微软正在开创一系列名为 Phi 的小型语言模型。

越来越多的小公司也提供小型型号。AI 初创公司 Writer 声称,其最新的语言模型在许多关键指标上都与最大的顶级模型的性能相匹配,尽管在某些情况下只有 20 倍多的参数(在训练期间计算并确定模型行为的值)。一个 

探索完整2025 年 10 项突破性技术清单

较小的模型效率更高,训练和运行速度更快。对于任何想要更实惠的入口匝道的人来说,这都是个好消息。这对气候也有好处:因为较小的模型只需要其巨型表兄弟所需的计算机功能的一小部分,所以它们消耗的能量更少。 

这些小型模型也很适合携带:它们可以直接在我们的口袋里运行,而不需要向云端发送请求。小事就是下一件大事。

关于《小语言模型:2025 年 10 项突破性技术》的评论


暂无评论

发表评论