加入我们的每日和每周时事通讯,了解有关行业领先人工智能报道的最新更新和独家内容。了解更多
谷歌已在关键的人工智能领域占据领先地位基准其最新的实验模型标志着人工智能竞赛的重大转变,但行业专家警告说,传统的测试方法可能不再有效地衡量真正的人工智能能力。
该模型被称为 –双子座-Exp-1114,现在可在 Google AI Studio 中使用,与 OpenAI 相匹配GPT-4o在整体表现上聊天机器人竞技场排行榜在积累了 6,000 多个社区投票后。这一成就代表了 Google 迄今为止对 OpenAI 在先进人工智能系统领域长期主导地位的最强大挑战。
为什么谷歌破纪录的人工智能分数掩盖了更深层次的测试危机
测试平台聊天机器人竞技场报道称,实验性的 Gemini 版本在几个关键类别上表现出了卓越的性能,包括数学、创意写作和视觉理解。该模型的得分为第1344章,比以前的版本有了显着的 40 点改进。
然而,随着越来越多的证据表明当前的人工智能基准测试方法可能会出现突破,极大地简化了模型评估。当研究人员控制回复格式和长度等表面因素时,双子座的表现下降至第四位,这凸显了传统指标可能会夸大感知能力。
这种差异揭示了人工智能评估中的一个基本问题:模型可以通过优化表面特征来获得高分,而不是证明推理或可靠性方面的真正改进。对定量基准的关注创造了争夺更高的数字这可能并不能反映出人工智能领域的有意义的进展。
Gemini 的阴暗面:其早期排名靠前的 AI 模型产生了有害内容
合而为一广为流传的案例,就在最新模型发布前两天,Gemini 发布的模型产生了有害输出,告诉用户“你并不特别,你不重要,而且不需要你”,并补充道, —请死吧,尽管其性能得分很高。昨天还有一个用户指出双子座如何“醒来”,违反直觉地导致人们对因被诊断患有癌症而感到不安的人做出不敏感的反应。新型号发布后,反应不一,一些人对最初的测试不以为然(参见这里,这里和这里)。
基准性能与现实世界安全性之间的脱节凸显了当前的评估方法无法捕捉人工智能系统可靠性的关键方面。
该行业对排行榜排名的依赖造成了不正当的激励。公司针对特定测试场景优化其模型,同时可能忽略更广泛的安全性、可靠性和实用性问题。这种方法产生的人工智能系统擅长执行狭窄的、预定的任务,但难以应对现实世界中微妙的交互。
对于谷歌来说,基准测试的胜利代表着经过数月的士气大幅提升。追赶到 OpenAI。该公司已通过其向开发人员提供了实验模型人工智能工作室平台,但目前尚不清楚该版本何时或是否会被纳入面向消费者的产品中。
人工智能测试方法不足,科技巨头面临分水岭
这一发展正值人工智能行业的关键时刻。OpenAI 有据报道陷入困境其下一代模型实现突破性改进,同时对训练数据可用性的担忧也加剧了。这些挑战表明该领域可能正在接近当前方法的基本极限。
这种情况反映了人工智能发展中更广泛的危机:我们用来衡量进展的指标实际上可能会阻碍它。虽然公司追求更高的基准分数,但他们可能会忽视有关人工智能安全性、可靠性和实用性的更重要问题。该领域需要新的评估框架,优先考虑现实世界的性能和安全性,而不是抽象的数字成就。
随着行业努力克服这些限制,谷歌的基准测试成绩最终可能会被证明更重要,因为它揭示了当前测试方法的不足,而不是人工智能能力的任何实际进步。
科技巨头之间为获得更高基准分数而展开的竞赛仍在继续,但真正的竞争可能在于开发全新的框架来评估和确保人工智能系统的安全性和可靠性。如果没有这样的改变,该行业就有可能针对错误的指标进行优化,同时错失人工智能领域取得有意义进展的机会。
[11 月 15 日下午 4:23 更新:更正了文章中对“请死”聊天的引用,该聊天表明该评论是由最新型号做出的。该言论是谷歌的“高级”Gemini 模型发表的,但是在新模型发布之前发表的。