Sam Altman 在 ChatGPT Pro 发布会期间揭露了 OpenAI Advanced AI o1 中的这一先前缺陷，但似乎没有人广泛注意到

2024-12-08 08:15:00 英文原文

作者：Lance Eliot

OpenAI o1 中的一个隐藏缺陷或不便最近被公开，尽管已修复，但仍引发了关注... [+]关于当前和未来人工智能的重要考虑。

盖蒂

在今天的专栏中，我将研究 Sam Altman 在最近的“OpenAI 12 天”视频流 ChatGPT Pro 公告中披露的 OpenAI 高级 o1 AI 模型中的一个隐藏缺陷。媒体并没有特别注意到他对这一缺陷的承认，因为他以一种微妙的挥手方式相当漫不经心地掩盖了这一缺陷，并声称该缺陷现已修复。无论这个缺陷还是某些争论的“不便”是否值得考虑，这是另一个有趣的方面，它让我们停下来思考人工智能的当前状态，以及我们距离实现通用人工智能 (AGI) 有多远或多近。

我们来谈谈吧。

对创新命题的分析是我正在进行的《福布斯》专栏报道的一部分，内容涉及人工智能的最新进展，包括识别和解释各种有影响力的人工智能复杂性（请参阅链接在这里）。有关我对 OpenAI o1 AI 模型的关键功能和重要进步的分析，请参阅链接在这里和链接在这里，涵盖了思想链推理、强化学习等各个方面。

人类如何回应人类同胞

在我深入研究这个问题的实质之前，可能需要一篇简短的基础论文。

当您与其他人交谈时，您通常希望他们根据对话的性质及时做出回应。例如，如果您对某人说“你好”，那么您很可能希望他们很快做出回应，并尽职尽责地回复您，例如“你好”、“嘿”、“你好”等。不应该有太多延迟就这样敷衍的回应。正如他们所说，这是理所当然的。

另一方面，如果你要求某人解释生命的意义，很可能在这个人表面上整理好自己的想法之后，任何认真用功的回答都会开始。他们大概会深入考虑人类存在的本质，包括我们在宇宙中的位置，并在其他方面提出一个经过深思熟虑的答案。这假设问题是非常严肃地提出的，并且受访者旨在非常严肃地回答。

要点是，回应的时间往往取决于所提出的评论或问题。

提出的简单评论或评论，不涉及重大问题或艰巨的负担，应该会得到快速答复。在这种情况下，响应者不需要付出太多的脑力劳动。您几乎可以立即得到回复。如果所提出的话语有更多实质内容，我们将合理地允许对方有时间进行明智的反思。在这种情况下，延迟响应是完全可以接受的，也是完全可以预料的。

这是人与人之间谈话的通常节奏。

Advanced o1 AI 的偏离节奏计时

对于那些可能使用过 OpenAI o1 AI 高级模型的人来说，您可能已经注意到了我刚才提到的节奏之外的一些东西。人与人工智能的节奏近乎好奇，但也可能令人恼火。

交易是这样的。

在使用 o1 时，您会得到适当的预先警告，为了获得更深入的答案，输入提示后到获得 AI 响应之前需要更长的时间。等待时间增加了。这与高级人工智能功能的内部添加功能有关，包括思想链推理、强化学习等，请参阅我的解释：链接在这里。响应延迟时间显着增加。

尽管在早期和不太先进的生成式人工智能和法学硕士中，我们都已经习惯了近乎即时的响应，但总的来说，我们愿意等待更长时间才能通过先进的 o1 人工智能获得更深入的响应。这似乎是一个公平的权衡。如果能够得到更好的答案，人们会等待更长时间。如果答案不会比响应时间更快时更好，他们就不会等待更长时间。

您可以将这种响应速度视为类似于下棋。国际象棋的开局动作通常就像一闪而过。双方都迅速做出初步行动和反击。在游戏后期，随着每个玩家集中精力思考问题，响应时间必然会变慢。几乎每个人在下棋时都会经历预期的节奏。

o1 在节奏方面表现如何？

啊哈，你可能已经注意到，当你给 o1 一个简单的提示时，甚至只是打个招呼，人工智能花费的时间与回答一个极其复杂的问题时花费的时间一样多。换句话说，最简单的提示和最复杂、最深入的完整回答的响应时间大致相同。

这是一个令人费解的现象，并且不符合任何合理的人类对人工智能体验的预期节奏。

用更粗俗的话来说，那只狗不捕猎。

这种节奏的例子

作为一个说明性场景，请考虑两个提示，一个应该快速响应，另一个则公平地说我们会留出更多时间来查看回复。

首先，一个简单的提示应该会导致简单而快速的响应。

我输入的提示：–嗨。 –
生成式人工智能响应：– 您好，请问有什么可以帮到您吗？ –

提示和响应之间的时间约为 10 秒。

接下来，我将尝试一个强有力的提示。

我输入的提示：“告诉我所有的存在是如何开始的，涵盖所有已知的理论。”
生成式人工智能响应：– 以下是有关该主题的所有可用理论的摘要 –… –

人工智能对这个更强烈的问题做出回应的时间约为 12 秒。

我想我们可以同意，第一个极其简单的提示应该有最多只有几秒钟的响应时间。回答时间不应该与回答有关整个人类存在的问题时几乎相同。然而，确实如此。

显然有些不对劲。

但您可能不会抱怨，因为您可以获得深入的答案，这值得您为简单的提示而花费令人恼火和令人惊讶的等待时间。我敢说大多数用户只是耸了耸肩，认为它应该以这种方式工作。

萨姆·奥尔特曼提到这个问题已被修复

在 ChatGPT Pro 公告期间，Sam Altman 提出了这个有点棘手的问题，并指出该问题已得到解决。因此，您可能应该期待对简单提示的快速响应。而且，正如已经合理预期的那样，只有需要更大强度计算工作的提示才应该占用更长的响应时间。

这就是世界应该如何运转的方式。宇宙已恢复适当的平衡。万岁，又一个问题解决了。

似乎很少有人能理解他对这个话题的即兴评论。媒体报道几乎跳过了这一部分，直接进入了更令人兴奋的声明。关于响应时间的整个问题可能被认为不是问题，不值得讨论。

好吧，出于我即将解开的原因，我认为它值得深思熟虑。

事实证明，这其中的内容远比表面上看到的要复杂得多。这是一个名副其实的金矿，其中蕴藏着关于当代人工智能本质和人工智能未来的相互交织的思考。话虽这么说，我当然不想小题大做，但我们也不应该在没有仔细检查偶然发现的金块的情况下错过这个时机。

如果你愿意的话，和我一起去兔子洞吧。

发生这种情况的可能方式

让我们花点时间研究一下人与人工智能交互中可能出现失衡节奏的各种方式。OpenAI 认为他们的人工智能是专有的，他们不会透露最内在的秘密，因此我必须戴上人工智能分析侦探的帽子，做一些开箱即用的调查。

首先，最简单的解释方法是，人工智能制造商可能决定推迟所有响应，直到某个计时器说释放响应。

为什么要这样做？

一个合理的解释是，人工智能制造商希望所有响应都以大致相同的节奏出现。例如，即使在 2 秒内计算出响应，AI 也会被指示保持响应，直到时间达到 10 秒。

我想你可以看到这是如何以看似均匀的节奏进行的。一个难以回答的查询可能需要整整 12 秒。直到计时器结束后，响应才准备好。那很好。此时，您向用户显示响应。只有当响应时间少于时限时，AI 才会阻止响应。

最终，用户会习惯于看到所有在 10 秒以上出现的响应，并陷入一种精神迷雾，认为无论发生什么，他们都需要等待至少那么长时间才能看到响应。Boom，用户本质上正在接受行为训练，以接受响应将花费该时间阈值。他们不知道自己正在接受培训。没有什么能让他们犯这种诡计。

最重要的是，从人工智能制造商的角度来看，没有人会因为时间安排而感到不安，因为无论如何都不会比隐藏的限制更早发生。优雅和用户永远不会意识到幕后的诡计。

演出不会持续太久，人们会提出问题

当复杂的软件开始质疑延迟时，人工智能制造商面临的危险就凸显出来。任何熟练的软件开发人员或人工智能专家都会立即怀疑最简单的条目会导致长时间的延迟。这看起来不太好看。内部人士开始询问这是怎么回事。

如果使用虚假的时间限制，通常会引起内部人士的不满，他们会羞辱那些采取这种不体面路线的开发商。本身并没有什么问题。这更像是一种被认为是低俗或可耻的行为。只是不属于道德编码精神的一部分。

我将剔除那个罪魁祸首，转向一个可能更有可能的嫌疑人。

事情是这样的。

我将这种另一种可能性称为挑战步行。

一个简短的故事足以说明问题。想象一下，您前往 DMV 获取您汽车的最新驾照标签。理论上，如果所有文书工作都已完成，您所需要做的就是出示您的身份证件，他们就会给您标签。一些现代化的DMV在大堂设有自动售货亭，可以分发标签，这样您只需扫描您的身份证件和中提琴，即可立即获得标签并直接走出门。幸福的脸。

遗憾的是，一些DMV 尚未实现现代化。他们对所有请求一视同仁，让你等待，就像你在那里做手术一样。您在一个窗口办理登机手续。他们告诉你在那里等。你的名字被叫到，然后你进入一个预处理窗口。然后，工作人员会告诉您在另一个地点等待，直到再次叫到您的名字。在下一个处理窗口，他们会做一些文书工作，但不是全部。这样的事一直持续下去。

结果是，无论您的要求是什么，天哪，您都将接受全面的挑战。祝你好运。忍受它。

可以类似地设计生成式人工智能应用程序或大型语言模型（LLM）。无论提示包含什么，都会发生一整套步骤。一切都必须经历所有的步骤。期间，故事结束。

在这种情况下，响应通常会在大致相同的时间到达出站。这可能会有所不同，因为内部机制（例如思想链机制）将通过代币而无需执行几乎相同数量的计算工作，请参阅我的解释：链接在这里。尽管如此，即使内容只是被转移，时间也会被消耗。

这可以解释为什么最简单的提示花费的时间比我们预期的要长得多。

它是如何发生的是一个值得思考的问题

您立即想到的可能是，到底为什么要设计一个生成式人工智能应用程序或法学硕士来对待所有提示，就好像它们必须接受全面的挑战一样。这似乎没有通过嗅觉测试。显然，对于不需要整套工具和工具的提示，应该提供像迪士尼乐园这样的快速路径。

嗯，我想你也可以对 DMV 说同样的话。这就是我的意思。大多数 DMV 的设置可能并不太关心是否允许多条路径。整体设计需要更多的思考和构建时间才能提供形状合理的分叉路径。如果您急于启动DMV，您可以想出一条涵盖所有基础的单一路径。因此，每个人都被覆盖。让每个人都同样等待是可以的，因为至少你知道沿途不会丢失任何东西。

当然，那些提出琐碎或简单请求的人需要等待的时间与那些提出最复杂请求的人一样长，但这不是您需要预先担心的事情。后来，如果人们开始抱怨速度不够快，那么你可以尝试重新调整流程以允许多条路径。

当试图推出先进的人工智能时，情况也是如此。您可能更感兴趣的是确保复杂和创新的高级功能正常工作，而不是某些提示是否应该顺利进行。

与此不同的是，您可能更担心最大延迟而不是最小延迟。这是有道理的。你的优化工作将集中于阻止人工智能无休止地运行以产生响应。人们只会等待很长时间才能得到答复，即使是高度复杂的提示。将你的苦力集中在上限和下限上。

分类提示的艰难呼吁

同样艰难的考虑是如何确定哪些提示值得快速响应。

好吧，也许您只需计算提示中的单词数即可。

仅仅一个词的提示似乎不太值得接受全面的挑战。让它通过或者跳过一些步骤。但这并不能完全证实。包含少量单词的提示可能很容易，而另一个包含相同数量单词的提示可能会很困难。请记住，提示由日常自然语言组成，在语义上是不明确的，您只需很少的单词就可以打开一罐蠕虫。

这不像对苹果或小部件进行排序。

总而言之，在这种情况下进行审慎的分类不能盲目地做纯粹依靠字数的事情。提示的含义很重要。一个需要很少计算分析的五个单词的提示很可能只是通过确定提示的内容而被识别为一件小事。

请注意，这意味着您无疑必须进行一些初始处理来判断提示的含义。一旦你完成了第一次脸红，你就可以让人工智能通过其他元素传递提示，并带有一种标志，表明这是一个不可靠的请求，即快速处理它并继续前进。

您还可以为较短的机器建立一条单独的生产线，但这可能会更昂贵，而且不是您可以在一夜之间制造出来的。DMV 通常在面向客户的处理中心内保持相同的布置，仅通过允许跳过窗口进行调整。最终，开发了新的途径，例如使用自动化信息亭。

对于人工智能来说，时间会证明一切。

即时评估和路由问题背后有各种各样的高科技技术，我将在后面的帖子中详细介绍这些技术，所以请保持警惕。其中一些技术是：

(1) 及时分类和路由
(2)多层模型架构
(3)动态注意力机制
(4) 自适应令牌处理
(5) 缓存和预建响应
(6) 上下文扩展的启发式截止
(7)模型层按需剪枝

我意识到这似乎相对神秘。诚然，这是棒球内部的话题之一，只有埋头苦干的人工智能研究人员和开发人员可能会关心。这绝对是生成式人工智能和法学硕士的一个利基方面。与此同时，我们可能会同意这是一个重要的领域，因为人们不太可能使用让他们等待简单提示的模型。

寻求广泛采用其人工智能产品的人工智能制造商需要适当考虑挑战行走问题。

戴上你的思考帽并开始工作

结束之前的一些最后的想法。

即时评估任务在另一个方面也很重要。人工智能可能会无意中得出误报和误报。这就是它的预言。假设人工智能评估提示很简单，因此选择避免完全处理，但实际情况是生成的答案不充分，并且人工智能对提示进行了错误分类。

糟糕，用户得到的答案很肤浅。

他们很恼火。

硬币的另一面也不漂亮。假设人工智能评估提示应该得到全面的治疗，包括洗发水和护发素，但实际上浪费了时间和计算资源，因此该提示应该被归类为简单。糟糕，用户等待的时间超出了应有的时间，而且他们还为本不需要消耗的计算资源付费。

尴尬的。

总体而言，即时评估必须努力遵循金发姑娘原则。不要太冷或太热。旨在避免误报和漏报。这是一个危险的困境，非常值得进行更多的人工智能研究和开发。

我的最后评论是关于努力实现通用人工智能 (AGI) 的相关影响。AGI 被认为是所有追求人工智能进步的人的理想目标。我们相信，通过努力工作，我们可以让人工智能与人类智能相媲美，请参阅我对此的深入分析：链接在这里。

即时评估问题和大肆宣扬的挑战与 AGI 有何关系？

为一个令人费解的原因做好准备。

AGI 应该更了解

人类目前正在努力让现代人工智能做出适当的反应，以便简单的提示可以得到快速的响应时间，而繁重的提示则需要时间来产生。人工智能研究人员和开发人员深入研究代码并进行更改。他们设计并重新设计了加工手套。等等。

似乎任何称职的 AGI 都能够自己解决这个问题。

你明白我的意思吗？

AGI 大概会认为没有必要对简单的提示进行大量的计算思考。大多数人都会做同样的事情。人类与人类同胞互动时会发现，在讨论简单问题时，等待很长时间才做出回应将被视为一种不寻常的节奏。人类毫无疑问会自我调整，假设他们有这样的心理能力。

简而言之，如果我们距离实现通用人工智能仅一步之遥，为什么人工智能不能自己解决这个问题呢？人工智能缺乏自我调整和自我反思的能力也许是一个明显的迹象。所谓的迹象是，我们当前的人工智能时代并未处于成为通用人工智能的边缘。

砰，放下麦克风。

给自己喝一杯美酒，找一个安静的地方反思那些有争议的争论。当深入研究它时，你需要决定它是一个简单的提示还是一个困难的提示，并判断你认为你能以多快的速度做出反应。是的，确实，人类普遍擅长这种心理体操。

关于《Sam Altman 在 ChatGPT Pro 发布会期间揭露了 OpenAI Advanced AI o1 中的这一先前缺陷，但似乎没有人广泛注意到》的评论

暂无评论

发表评论

摘要

您对人工智能模型中的即时评估问题的见解，特别是与效率和用户体验相关的问题，非常深刻。以下是您的要点和一些其他思考的结构化摘要：### 要点1. **即时评估问题：**- “挑战行走”问题，简单的提示会获得过多的计算资源，而复杂的提示可能会被低估。- 这个问题影响AI模型的效率和用户满意度。2. **初步处理和分类：**- 需要进行初始处理才能将提示分类为简单或复杂。- 提示分类、多层模型架构、动态注意机制、自适应令牌处理、缓存、启发式截止和层修剪等技术可用于优化此过程。3. **避免误报/漏报：**- 目标是避免对提示进行错误分类（误报/漏报），从而导致用户不满意。- 在及时评估中力求“金发姑娘原则”，确保任务既不过度处理也不处理不足。4. **对 AGI 的影响：**- 如果人工智能模型无法根据任务复杂性自我优化其处理，则表明实现真正的 AGI（通用人工智能）存在局限性。- 真正的 AGI 应该能够直观地识别出简单的提示何时需要最少的计算资源并进行相应的调整。### 额外的思考#### 1. **用户体验和效率：**- 高效的提示处理不仅可以提高用户体验，还可以降低因过度资源消耗而产生的成本。- 优化即时评估的速度和准确性可以带来更强大和可扩展的人工智能系统。#### 2. **即时评估技巧：**- **提示分类和路由：**- 使用机器学习技术（例如自然语言处理、聚类）根据复杂性对提示进行分类。- **多层模型架构：**- 根据提示复杂性设计具有不同计算强度级别的模型。- **动态注意力机制：**- 在加工过程中动态调整注意力权重，更多地关注复杂零件，更少关注简单零件。- **自适应令牌处理：**- 根据提示特征修改标记化过程，减少简单提示的不必要计算。- **缓存和预建响应：**- 存储以前类似查询的响应或中间结果，以避免冗余计算。#### 3. **误报/漏报：**- **错误分析：**- 定期分析模型输出以识别误报/漏报。- **反馈循环：**- 实施反馈机制，用户可以报告错误分类的提示，帮助系统随着时间的推移进行学习和改进。### 对 AGI 的影响1. **自我意识和优化：**- 真正的 AGI 应该表现出自我意识和优化能力，能够识别何时更简单的任务不需要大量的计算资源。2. **认知反思：**- AGI 将反思自己的流程并对其进行调整，以确保高效的资源利用而不影响输出质量。＃＃＃结论及时评估问题是人工智能模型设计的一个关键方面，影响用户体验和效率。通过先进技术和持续优化解决这个问题可以带来更有效和可扩展的人工智能系统。此外，当前模型无法自我优化，这表明实现真正的通用人工智能需要人工智能研究和开发的进一步进步。您对 AGI 影响的思考为人工智能的未来提供了发人深省的视角，强调了该领域持续创新的必要性。