AI现在在哪里：较小，更好，更便宜的模型

AI行业报告的状态表明，2024年是小型时尚模型的突破性一年，可以与庞然大物相抗衡

人工智能（AI）种族正在加热：高性能的中国人工智能模型挑战美国领先优势，顶级模型之间的性能边缘正在缩小。年度行业报告。

该报告强调，随着AI的继续迅速改善，没有人提前。在聊天机器人竞技场排行榜上，要求用户对各种机器人的性能进行投票，排名最高的车型比2024年初的第十排型模型高约12％，但在2025年初只有5％（现在见到 - 现在）。报告说，边境竞争日益激烈，越来越拥挤。”

人工智能指数报告2025今天由加利福尼亚州斯坦福大学的人类中心AI研究所发布。

支持科学新闻

如果您喜欢这篇文章，请考虑支持我们屡获殊荣的新闻业订阅。通过购买订阅，您可以帮助确保有关当今世界的发现和想法有影响力的故事的未来。

All together now. Line chart showing Chatbot Arena scores for Google, OpenAI, DeepSeek, xAI, Anthropic, Meta and Mistral AI from January 2024. The worldâ€™s top AI models are converging in performance, as measured by scores of human preference for the answers from various providersâ€™ chatbots. — 自然;资料来源：AI指数报告2025

索引表明平均而言，值得注意的生成AI模型仍然越来越大，通过使用更多的决策变量，更多的计算能力和更大的培训数据集。但是，开发人员还证明了较小，更时尚的模型能够制作出伟大的东西。多亏了更好的算法，现代模型现在可以匹配两年前大100倍的型号可以实现的性能。该指数说，2024年对于较小的AI模型来说是突破性的一年。

纽约伊萨卡康奈尔大学的计算机科学家巴特·塞尔曼（Bart Selman）没有参与撰写索引报告，他说很高兴看到相对小型，廉价的努力，例如中国 DeepSeek证明他们可以具有竞争力。他说，我会预测，我们会看到一些有五个人，两个人的团队，他们提出了一些新的算法想法，这些想法会动摇。”这一切都很好。我们不希望世界受到一些大公司的经营。

脖子和脖子

该报告表明，绝大多数著名的AI模型现在是由行业而不是学术界开发的：2000年代初期的情况逆转神经网和生成的AI尚未起飞。报告称，行业在2006年之前的著名AI模型中少于20％，但在2023年中，有60％的模型和2024年的近90％。

与中国15号和欧洲的3号相比，美国仍然是著名型号的最高生产国，在2024年发行了40个。但是，许多其他地区也加入了比赛，包括中东，拉丁美洲和东南亚。

该报告补充说，在模型质量方面，美国以前的领导者已经消失。中国生产最多的AI出版物和专利，现在正在开发与美国表现竞争相匹配的模型。在2023年，中国领先的模型落后于美国顶级模型，在大规模的多任务语言理解测试（MMLU）上落后了近20个百分点，这是大型语言模型的常见基准。但是，截至2024年底，美国领导人缩小到0.3个百分点。

萨尔曼说，萨尔曼说，萨尔曼说，萨尔曼说，萨尔曼说，萨尔曼说。我们看到这已经开始回报了。

该领域还看到了开放权重模型的数量和性能令人惊讶Facebook的Llama。用户可以自由查看这些模型在培训期间学习的参数，并用于做出预测，尽管其他细节（例如培训代码）可能仍然是秘密的。最初，封闭的系统没有披露这些因素明显优势，但是这些类别的顶级竞争者之间的性能差距在2024年初缩小到8％，而在2025年初仅为1.7％。

对于那些可以从头开始建立模型的人来说，这肯定是有好处的，这是许多小公司和学者。加利福尼亚州旧金山的Openai开发了聊天机器人Chatgpt，计划在未来几个月内发布开放式模型。

更好，更小，更便宜

在2022年公开推出Chatgpt之后，开发人员将大部分精力用于使系统更大。该指数报告说，这种趋势仍在继续：用于训练典型的领先AI模型的能量目前每年都在增加一倍。每个模型使用的计算资源数量每五个月增加一倍。培训数据集每八个月的规模增加一倍。

然而，公司也在发布非常有能力的小型型号。例如，在2022年，MMLU的分数高于60％的最小模型，使用了5400亿个参数；到2024年，一个模型仅用38亿参数就达到了相同的分数。较小的型号训练更快，给出更快的答案和使用比大能量更少的能量。Perrault说。

塞尔曼说，一些较小的模型可以模仿较大模型的行为，或者比旧系统中的算法和硬件更好。该指数报告说，AI系统使用的硬件的平均能源效率每年提高约40％。由于这样的进步，MMLU的得分成本刚好超过60％，从2022年11月的每百万个代币（语言模型产生的单词）约为2024年10月的每百万个令牌。

尽管几个常见基准测试的惊人改进，该指数强调的是，生成的AI仍然遭受了隐性偏见和幻觉趋势等问题的困扰，或者吐出虚假信息。塞尔曼说，他们在许多方面给我留下了深刻的印象。他们在犯非常基本的错误方面让我感到惊讶。

本文经许可复制，是首次出版2025年4月7日。

OC

AI现在在哪里：较小，更好，更便宜的模型

支持科学新闻

脖子和脖子

更好，更小，更便宜

关于《AI现在在哪里：较小，更好，更便宜的模型》的评论

发表评论

摘要

相关新闻

相关讨论