作者:Nicola Jones, Nature magazine
AI行业报告的状态表明,2024年是小型时尚模型的突破性一年,可以与庞然大物相抗衡
最高的AI模型性能正在迅速改善,它们之间的竞争变得越来越激烈。
J Studios/Getty Images
人工智能(AI)种族正在加热:高性能的中国人工智能模型挑战美国领先优势,顶级模型之间的性能边缘正在缩小。年度行业报告。
该报告强调,随着AI的继续迅速改善,没有人提前。在聊天机器人竞技场排行榜上,要求用户对各种机器人的性能进行投票,排名最高的车型比2024年初的第十排型模型高约12%,但在2025年初只有5%(现在见到 - 现在)。报告说,边境竞争日益激烈,越来越拥挤。”
人工智能指数报告2025今天由加利福尼亚州斯坦福大学的人类中心AI研究所发布。
如果您喜欢这篇文章,请考虑支持我们屡获殊荣的新闻业订阅。通过购买订阅,您可以帮助确保有关当今世界的发现和想法有影响力的故事的未来。
自然;资料来源:AI指数报告2025
索引表明平均而言,值得注意的生成AI模型仍然越来越大,通过使用更多的决策变量,更多的计算能力和更大的培训数据集。但是,开发人员还证明了较小,更时尚的模型能够制作出伟大的东西。多亏了更好的算法,现代模型现在可以匹配两年前大100倍的型号可以实现的性能。该指数说,2024年对于较小的AI模型来说是突破性的一年。
纽约伊萨卡康奈尔大学的计算机科学家巴特·塞尔曼(Bart Selman)没有参与撰写索引报告,他说很高兴看到相对小型,廉价的努力,例如中国DeepSeek证明他们可以具有竞争力。他说,我会预测,我们会看到一些有五个人,两个人的团队,他们提出了一些新的算法想法,这些想法会动摇。”这一切都很好。我们不希望世界受到一些大公司的经营。
该报告表明,绝大多数著名的AI模型现在是由行业而不是学术界开发的:2000年代初期的情况逆转神经网和生成的AI尚未起飞。报告称,行业在2006年之前的著名AI模型中少于20%,但在2023年中,有60%的模型和2024年的近90%。
与中国15号和欧洲的3号相比,美国仍然是著名型号的最高生产国,在2024年发行了40个。但是,许多其他地区也加入了比赛,包括中东,拉丁美洲和东南亚。
该报告补充说,在模型质量方面,美国以前的领导者已经消失。中国生产最多的AI出版物和专利,现在正在开发与美国表现竞争相匹配的模型。在2023年,中国领先的模型落后于美国顶级模型,在大规模的多任务语言理解测试(MMLU)上落后了近20个百分点,这是大型语言模型的常见基准。但是,截至2024年底,美国领导人缩小到0.3个百分点。
萨尔曼说,萨尔曼说,萨尔曼说,萨尔曼说,萨尔曼说,萨尔曼说。我们看到这已经开始回报了。
该领域还看到了开放权重模型的数量和性能令人惊讶Facebook的Llama。用户可以自由查看这些模型在培训期间学习的参数,并用于做出预测,尽管其他细节(例如培训代码)可能仍然是秘密的。最初,封闭的系统没有披露这些因素明显优势,但是这些类别的顶级竞争者之间的性能差距在2024年初缩小到8%,而在2025年初仅为1.7%。
对于那些可以从头开始建立模型的人来说,这肯定是有好处的,这是许多小公司和学者。加利福尼亚州旧金山的Openai开发了聊天机器人Chatgpt,计划在未来几个月内发布开放式模型。
在2022年公开推出Chatgpt之后,开发人员将大部分精力用于使系统更大。该指数报告说,这种趋势仍在继续:用于训练典型的领先AI模型的能量目前每年都在增加一倍。每个模型使用的计算资源数量每五个月增加一倍。培训数据集每八个月的规模增加一倍。
然而,公司也在发布非常有能力的小型型号。例如,在2022年,MMLU的分数高于60%的最小模型,使用了5400亿个参数;到2024年,一个模型仅用38亿参数就达到了相同的分数。较小的型号训练更快,给出更快的答案和使用比大能量更少的能量。Perrault说。
塞尔曼说,一些较小的模型可以模仿较大模型的行为,或者比旧系统中的算法和硬件更好。该指数报告说,AI系统使用的硬件的平均能源效率每年提高约40%。由于这样的进步,MMLU的得分成本刚好超过60%,从2022年11月的每百万个代币(语言模型产生的单词)约为2024年10月的每百万个令牌。
尽管几个常见基准测试的惊人改进,该指数强调的是,生成的AI仍然遭受了隐性偏见和幻觉趋势等问题的困扰,或者吐出虚假信息。塞尔曼说,他们在许多方面给我留下了深刻的印象。他们在犯非常基本的错误方面让我感到惊讶。
本文经许可复制,是首次出版2025年4月7日。