- 经过布莱恩·霍普金斯,《福雷斯特》
- 2025 年 1 月 5 日
就在今年年底前,OpenAI 凭借其 o3 和 o3-mini 模型引起了热议,声称具有突破性的推理能力。标题如 –OpenAI O3:AGI 终于来了— 开始出现。但这些“推理进步”是什么?我们离通用人工智能 (AGI) 到底有多远?让我们探讨一下基准、当前的缺陷以及更广泛的影响。
o3 的基准测试显示推理和适应性方面取得了进步
OpenAI 的 o3 建立在其前身 o1 的基础上,增强了推理能力和适应性。 我于 2024 年 9 月发表了有关 o1 的博客。o3 型号显示出显着的性能改进,包括:
- ARC-AGI 基准(视觉推理)。o3 的准确率达到 87.5%,展示了视觉推理的显着提升。这解决了先前模型在物理对象推理方面的缺陷,从而促进了 AGI 的炒作。
- AIME 2024(数学)。o3 的准确率高达 96.7%,远远超过 o1 的 83.3%。数学是另一个重要的基准,因为它展示了模型理解支撑宇宙科学的抽象概念的能力。
- SWE-bench 已验证(编码)。该基准为 71.7%,高于 o1 的 48.9%。这是模型生产软件能力的一个非常大的进步。将软件编码视为相当于手和手指。未来,自主代理将使用代码操纵数字世界。
- 自适应思考时间 API。这是 o3 的一项突出功能,使用户能够在推理模式(低、中和高)之间切换,以平衡速度和准确性。这种灵活性使 o3 成为适用于各种应用的强大工具。
- 深思熟虑的调整。o3 通过检测和减少不安全提示来提高安全性。同时,o3-mini展示了自我评估能力,例如编写和运行脚本来完善自己的性能。
推理是实现更多自主代理和人工智能进步的关键
o3 和 等推理模型 Google 的 Gemini 2.0代表了结构化问题解决方面的重大进步。思想链提示等技术可以帮助这些模型将复杂的任务分解为可管理的步骤,使它们能够在编码、科学分析和决策等领域表现出色。
当今的推理模型有很多局限性。 加里·马库斯 (Gary Marcus) 公开批评 OpenAI 的行为相当于作弊其如何在 ARC-AGI 基准测试上对 o3 进行预训练。甚至 OpenAI 也承认其推理局限性,承认该模型在某些“简单”任务上失败,并且 AGI 仍然是一个遥远的目标。这些批评强调需要调整期望,转而关注人工智能进步的渐进性。
另一方面,Google 的 Gemini 2.0 通过多模式推理(集成文本、图像和其他数据类型)来处理各种任务(例如医疗诊断),从而与开放 AI 区分开来。这种能力凸显了推理模型日益增长的多功能性。但是,推理模型仅涉及一组接近人类等效能力所需的技能。当今最好的模型缺乏关键性:
- 上下文理解。人工智能无法直观地掌握重力或因果关系等物理概念。
- 学习适应性。像 o3 这样的模型无法独立提出问题或从意外场景中学习。
- 歧义导航。人工智能正在努力应对人类可以无缝应对的现实世界的微妙挑战。
此外,虽然对模型推理的研究已经产生了非常适合当今基于变压器的模型的技术,但上述三项技能预计将带来更大的挑战。
跟踪和辨别此类公告中的真相,再加上学习如何更好地使用更强大的机器智能类型,是企业的重要步骤。平台、治理和安全等企业能力同样重要,因为基础模型供应商将继续在推理能力上相互超越。 Forrester Wave™:人工智能基础语言模型,2024 年第 2 季度指出基准测试只是故事的一章,模型需要企业能力才能发挥作用。
AGI 是一段旅程,而不是目的地——而我们才刚刚开始
正如我们在电影中所描述的那样,通用人工智能经常被描述为突然的突破,或者正如哲学家尼克·博斯特罗姆(Nick Bostrom)在他的书中所想象的那样,被描述为智能爆炸:超级智能事实上,这将是一个进化的过程。此类公告标志着里程碑,但它们仅仅是开始。随着智能体变得更加自主,由此产生的通用人工智能不会取代人类智能,而是会增强人类智能。与人类智能不同,通用人工智能将是一种机器智能,旨在补充人类的优势并应对复杂的挑战。
当组织驾驭这种变革性技术时,成功将取决于将 AGI 能力与以人为本的目标结合起来,以负责任地促进探索和增长。在此过程中高级推理模型的兴起为负责任的开发和部署带来了机遇和挑战。这些系统将增强您公司的自动化和参与能力,但需要越来越严格的保障措施来降低道德和运营风险。
文章原文是这里。
本文中表达的观点和意见仅代表作者的观点和意见,并不一定反映 CDOTrends 的观点。图片来源:iStockphoto/野生像素