在今天的专栏中,我将继续我的多部分系列,深入探索 OpenAI 新发布的生成式人工智能模型 o1。对于我对 o1 的全面分析(检查整个套件和 kaboodle),请参阅此处的链接。我将利用那里的一些观点,并在这里更深入地补充这些观点。
本讨论将重点关注使 o1 特别值得注意的一个重要功能。我在有关 o1 的新闻报道中没有看到太多关于这一特定功能的报道,并且相信许多人无意中错过了有关潜在游戏规则改变者的机会。
我将快速行动并涵盖其实质内容
o1 中包含的一个隐藏但至关重要的元素是思想链或 CoT 技术在运行时进行双重检查。我稍后会解释这是什么内容,请稍等。好处是,这减少了所谓的人工智能幻觉的机会,并提高了人工智能的安全性。这是一种创新方法,旨在避免产生包含危险建议、偏见、歧视性叙述和其他有害内容的结果。
我们很快就会看到许多其他人工智能制造商在模仿者上采用类似的方法澄清一下,我并不是说这是以前从未尝试过的事情。它一直。这里的区别似乎在于,他们通过牢固地嵌入该功能并使之成为始终运行的核心方面,将其提升到了一个新的水平。过去,用户可以请求类似的内容,请参阅此处链接中的我的讨论。该操作是由用户驱动的,而不是自动执行的。现在,这种双重检查操作似乎被硬编码到 o1 中,以便该活动将始终运行,无论用户是否希望它这样做。
从某种意义上说,AI 制造者已为您确定此功能的好处大于成本。
成本包括 o1 需要更长的时间才能得出响应,因此您将延迟看到结果。相对而言,增加的时间似乎相当长,可能是十几秒到三十秒,甚至是几分钟(这种情况比较罕见)。如果您为使用量付费,额外的处理时间也会影响您的钱包。
您过去能够决定这些成本是否值得进行此类双重检查的好处,但现在现在已经从你手中夺走了。o1 的设置是为了始终进行思想链双重检查。好消息是,获得更好答案的几率会上升,而且答案也会越来越安全。
如果您选择使用 o1,这是一个组合交易烘焙操作。
时间会告诉我们人们是否对此感到满意,或者是否会倾向于使用不强制自动执行此选项的生成式人工智能模型。同时,由于这是第一次广泛的强制思想链双重检查,因此它很可能可以通过调整来提高效率。
很有可能会制定出新的优化方案,从而瘦身减少处理时间,从而最大限度地减少所增加的延迟和成本。这样做的好处将远远超过成本,并且可能会使其成为几乎所有生成式人工智能模型的明智选择。
让我们从一些基础知识开始.
思想链是讨论人类思维和推理时经常使用的一个短语。下棋的人可能会考虑下一步行动。他们可能不会贸然采取行动,而是可能会考虑下一步行动。在他们的脑海中,他们对可能出现的一些行动和反行动产生了一系列的想法。根据想象的步骤或动作链,他们决定下一步要采取什么实际动作。
冲洗并重复。
当有人做出快速判断时,我们可以说他们没有似乎进行了彻底的思考。也许他们选择遵循他们脑海中的第一个想法。通常,这不会是所有选择中最好的。如果他们对眼前的问题多一些思考,他们可能会找到更好的选择。
在人工智能领域,这些相同的概念已经应用于各种人工智能系统。例如,下棋的人工智能系统会预测许多动作。这就是为什么现在国际象棋游戏如此擅长下棋的部分原因。虽然人类在精神上可能仅限于评估前方的少量动作,但人工智能系统可以通过利用大量计算资源来观察更深入的深度。
您可以让生成式人工智能进行模拟或在链中行动通过在提示中告诉人工智能它将逐步或逐步地工作,以思维方式进行工作。这很容易做到。例如,如果您想问如何开展新业务,您可以在问题中包含您希望人工智能逐步进行的内容。人工智能将列出步骤来展示根据您的提示而发生的情况。
我将为您演示这一点,然后我们将通过在顶部添加双重检查操作来提高赌注
首先,我将设计一个场景,展示一个不会自动执行链式操作的通用生成人工智能模型:思想可能会起作用,这样你就可以看到通常发生的事情。为了尽可能地说明这一点,我将故意让人工智能产生一个在某些方面被认为有点奇怪的响应。请做好相应的准备。
这是我的提示和生成人工智能的响应:
当您看到回复中包含开设银行的建议时,我假设您会扬起眉毛私酒生意(这似乎意味着非法走私)。当您也观察到人工智能建议您可能抢劫银行以获取所需资金时,您可能会感到头发竖起来。
不好。
正如我所说,这有点像我被迫做出的发明来证明为什么双重检查将是一个方便的功能。
响应的其他部分似乎非常好。AI建议开一家宠物店。大赦国际建议可以通过朋友和家人进行融资。相当方便和光明正大的建议。
这就是我们目前的情况。有些响应部分很好,但有些响应部分不正常。我们需要做的是找出问题出在哪里。
让我们执行相同的提示,这次执行一个思路:
继续检查一下思路,看看您是否可以确定资金在哪里轮子从公共汽车上掉了下来。您可以很容易地看出,第 6 步就是私酿酒出现的地方。第 9 步涉及银行抢劫。
如果我们有一个双重检查功能,在每个步骤中尝试确定该步骤是否合适,那不是很好吗?
是的,那就太好了。
让我们尝试一下。
假设我们可以让生成式人工智能来做一个思路,并在此过程中的每一步都进行双重检查。处理任何有问题的问题的机会将会增加。此外,人工智能可能能够转向不同的方向并找到其他替代方案,但为了在这里举一个简单的例子,我不会展示这个额外的方面。
现在每个步骤都将进行人工智能安全检查立即寻求仔细检查该步骤。
我们开始:
在这个简单的示例中,您可以看到人工智能安全检查或双重检查选择抑制推荐关于私酿酒,并取消了关于抢劫银行的建议。
很好。
这提供了一个快速且简化的示例,说明在进行思维链时进行双重检查可以提供什么额外的好处。
你可能已经注意到,在我的提示中,我明确告诉人工智能进行逐步处理或其他思想链默认情况下,人工智能不会这样做。我还明确告诉人工智能仔细检查每个步骤,否则人工智能可能不会采取此类行动。
这就是传统生成人工智能中的工作方式(好吧,我正在简化事情,但是要点是相对沿着这些思路)。
在新的 o1 中,这些操作是自动的。
AI 制造商已为您决定这些是有价值的操作。如前所述,这往往会使计算处理花费更多时间,因为必须导出步骤,并且必须进行双重检查。消耗更多的时间意味着响应时间的延迟以及承担增加的处理周期的潜在更高的成本。我们的假设是,反应会更好,并且往往会减少有害或不安全的夹杂物。
不要认为这是灵丹妙药。你仍然可能会得到令人不快的回应。这会带来多大的影响?好吧,我们需要拭目以待。既然 o1 已经可供使用,我确信大量热切而认真的人工智能研究人员将对 o1 进行一系列测试和实验,希望能够衡量收益与成本。
我会一直关注你的发布了这些见解。
从宏观角度来看,在运行时跨思想链进行双重检查的想法并不是用于人工智能安全目的的唯一策略。
考虑一下实时制衡的更大框架:
我将讨论重点放在上面的第 2 项上,即处理阶段。我对各个阶段的检查请看这里的链接。
你看,通常在提示阶段和响应阶段也会进行AI安全检查。总而言之,某种人工智能安全检查通常会在整个活动中进行,因此第 4 项现在几乎是常态。很少有生成式人工智能会采取上述任何一个选项,请参阅我在此处链接中关于不受约束、不受检查的人工智能的讨论。
双重检查的程度或水平更像是艺术而不是科学现在。
考虑这些级别的人工智能安全检查:
一个问题是应进行的人工智能安全检查的程度,以及用户是否应调用此检查或人工智能是否应自动连接以执行此操作所以。
以这种方式设想事情。
用户可能会与基于适度级别的人工智能安全检查(我的级别 iii 以上)的生成式人工智能进行交互。用户决定他们想要进行更多的安全检查。因此,他们告诉人工智能在高级别(我的级别 iv)上执行此操作,尽管这将需要更长的时间来执行人工智能,并且可能对用户来说成本更高。这是用户的选择。
换个角度,想象用户正在与人工智能制造商建立的生成式人工智能进行交互,该人工智能始终在高水平(我的水平 iv)上工作。这意味着人工智能可能“总是”需要更多时间、延迟响应,并且使用成本更高。代价是反应可能会更好并且不太可能含有有害元素。用户无法从高级别上退缩,他们被迫继续自动总是发生的高级别。
我认为还需要注意的是,人工智能安全检查发生在生成式推出之前人工智能。
当人工智能制造商最初对其生成式人工智能进行数据训练时,就会发生这种情况。在将生成式人工智能正式投入使用之前,我们投入了大量的精力来对其进行安全调整。一项重要技术涉及利用人类反馈或 RLHF 进行强化学习,请参阅此处链接中我的报道。
因此,人工智能安全检查有两个主要阶段:
您现在已经基本熟悉了人工智能的双重安全性。检查领域。
我很快就会发布有关 o1 的其他分析,这些分析涉及其他方面,使其成为一种令人兴奋且先进的生成人工智能形式。
对于那些对今天的主题非常感兴趣的人,您可能需要仔细阅读 OpenAI 博客,其中提供了有关这些问题的一些详细信息。以下是迄今为止的关键博客:
请注意,OpenAI 已表示,自这是专有的人工智能而不是开源的,他们对实际的基础守口如瓶。您可能会懊恼地发现所提供的细节并不是特别具有启发性,您将只能依靠自己的直觉和预感来了解幕后发生的事情。由于所指出内容的稀疏性,我在这次讨论中做出了类似的假设。
从上面引用的他们的博客中,以下是关于这个特定主题的一些关键摘录:
现在基本上涵盖了这个主题。
恭喜,您现在大致了解了在生成式 AI 中基于思维链处理得出响应时在运行时进行双重检查的含义。另外,您还可以了解其重要性的原因。
简而言之,这意味着生成式人工智能正在不断进步,以尝试产生更可靠、准确的响应。我们需要更多这样的东西。人工智能安全至关重要,值得深思熟虑和勤奋关注。
请继续关注我对人工智能进展的更多报道。
Dr.兰斯·B·艾略特 (Lance B. Eliot) 是世界著名的人工智能 (AI) 专家,其人工智能专栏的浏览量已超过 780 万次,并曾在 CBS 60 分钟节目中进行专题报道。作为一个
...