作者:Kelsey Piper
到 2024 年底,我提出了一个看法所有谈论的人工智能是否符合“规模法则”遇到了现实生活中的技术障碍。我认为这个问题并不像许多人想象的那么重要:现有的人工智能系统足够强大深刻地改变我们的世界,未来几年将由人工智能的进步来定义,无论缩放定律是否成立。
对人工智能进行预测始终是一项充满风险的业务,因为很快就会被证明是错误的。作为一名作家,当你对来年的预测没有实现时,这已经够尴尬的了。当你对即将到来的预测星期被证明是假的?这非常糟糕。
但在我写完那篇文章后不到一周,OpenAI 的年终系列发布包括他们最新的大语言模型(LLM),o3。o3 没有确切地用来定义人工智能进步的缩放法则在未来不再那么有效的说法是谎言,但它明确提出人工智能进展遇到困难的说法是谎言。
o3 真的非常非常令人印象深刻。事实上,为了理解它有多么令人印象深刻,我们必须稍微偏离一下我们如何测量人工智能系统的科学。
如果您想比较两种语言模型,您需要衡量它们在解决一组以前从未见过的问题上的性能。这比听起来更难,因为这些模型在训练过程中需要输入大量文本,因此它们之前已经见过大多数测试。
所以机器学习研究人员所做的是建立基准,对人工智能系统进行测试,让我们可以将它们直接相互比较,并与人类在不同领域的表现进行比较任务范围:数学、编程、阅读和解释文本,凡是你能想到的。有一段时间,我们经过测试的人工智能美国数学奥林匹克竞赛(数学锦标赛)以及物理、生物和化学问题。
问题在于,人工智能的进步速度太快,以至于基准测试变得毫无价值。一旦人工智能在基准测试中表现足够好,我们就可以说基准已“饱和”,这意味着它不再能有效地区分人工智能的能力,因为它们都获得了近乎完美的分数。
2024 年是一个又一个人工智能能力基准像太平洋一样饱和的一年。我们过去常常根据物理、生物和化学来测试人工智能称为 GPQA 的基准难度很大,即使是相应领域的博士生,成绩也普遍低于70%。但人工智能现在的表现比拥有相关博士学位的人类更好,因此这并不是衡量进一步进展的好方法。
在数学奥林匹克预选赛上,现在的模型也是如此表现在顶尖人类之中。名为 MMLU 的基准旨在测量语言理解涉及许多不同领域的问题。最好的模型有那个也饱和了。名为 ARC-AGI 的基准测试旨在测量一般类人智力真的非常困难– 但 o3(针对任务进行调整时)达到了惊人的88%在它上面。
我们总是可以创造更多的基准。(我们正在这样做 – ARC-AGI-2将会公布很快,而且应该会更加困难。)但按照人工智能的进步速度,每个新基准最多只能持续几年。也许对于我们这些不是机器学习研究人员的人来说更重要的是,基准测试越来越需要衡量人工智能在人类无法自己完成的任务上的表现,以便描述他们能够做什么和不能做什么。
是的,人工智能仍然制造愚蠢而烦人的错误。但是,如果您已经六个月没有关注过,或者如果您主要只使用在线提供的语言模型的免费版本(这些版本远远落后于前沿),那么您就高估了有多少愚蠢和烦人的语言模型他们犯了错误,低估了自己完成艰巨、智力要求高的任务的能力。
本周,加里森·洛夫利 (Garrison Lovely) 在《时代》杂志上指出,人工智能的进步并没有 —撞到墙上——甚至变得隐形,主要是以人们没有注意到的方式取得突飞猛进的进步。(我从未尝试过让人工智能来解决精英编程、生物学、数学或物理问题,而且无论如何也无法判断它是否正确。)
任何人都可以区分 5 岁孩子学习算术和高中生学习微积分之间的区别,因此这些点之间的进步看起来和感觉上都是有形的。我们大多数人都无法真正区分一年级数学本科生和世界上最天才的数学家之间的区别,因此人工智能在这些点之间的进步并没有给人太大的感觉。
但这种进步实际上是一件大事。人工智能真正改变我们世界的方式是,将曾经由人类完成的大量智力工作自动化,而三件事将推动其实现这一目标的能力。
一是越来越便宜。o3 取得了惊人的结果,但它可以思考一个难题需要花费超过 1000 美元并给出答案。不过,年底发布的中国DeepSeek表示或许可以非常便宜地获得高质量的性能。
第二个是我们与它交互的方式的改进。与我谈论人工智能产品的每个人都相信,在我们如何与人工智能互动、人工智能如何检查自己的工作以及我们如何设置哪个人工智能用于哪个任务方面,还有大量的创新需要实现。您可以想象一个系统,其中通常由中间层聊天机器人完成工作,但当您的问题需要时可以在内部调用更昂贵的模型。这都是产品工作而不是纯粹的技术工作,这就是我在 12 月警告的,即使所有人工智能进展停止,也将改变我们的世界。
第三是人工智能系统变得更加智能——尽管有很多关于撞墙的声明,但看起来他们仍然在这样做。最新的系统更擅长推理,更擅长解决问题,并且通常更接近于成为各个领域的专家。在某种程度上,我们甚至不知道它们有多聪明,因为一旦我们不再真正能够使用针对人类专业知识的测试,我们仍然在努力找出如何测量它们。
我认为这是未来几年的三个决定性力量——这就是人工智能的重要性。不管你喜欢与否(我自己也不太喜欢它;我不认为这种改变世界的转变是完全得到负责任的处理)这三者中没有一个碰壁,并且这三者中的任何一个都足以持久地改变我们生活的世界。