通过Meta的思想偏好优化来改进生成式AI的思维模式以提供更智能的结果

2024-10-20 06:22:42 英文原文

作者：Lance Eliot

利用生成式AI审查和改进内部思维过程，以提供更好的逻辑支持... [+]更好的答案。

Getty

在今天的专栏中，我探讨了一种新发布的提高生成式人工智能和大型语言模型（LLM）的方法，这种方法依赖于一条长久以来适用于人类的格言：行动之前要思考。值得注意的是，不仅鼓励人们在行动前进行思考，还进一步鼓励他们不断改进自己的思维过程，以便每次在行动前都能更好地思考。

你可以说是旨在优化思考过程。

在人工智能的背景下，前提是你让生成型人工智能进行足够的预处理以推导出潜在的回答，这样生成的答案更可能是更好的。为了获得更好答案而采用预处理的技术是我在许多场合详细讨论过的，并且这种技术广泛被称为链式思维或CoT推理，详见此处的链接以及此处的链接.

一篇新的AI研究论文描绘了一个引人入胜的创新思路，即让生成式AI进行内部设计的思想链的数据补充训练，并旨在提高其思想链（CoT）的能力。可以将这一现象视为一种记录产生答案所用逻辑的方法，然后集体利用这些实例来尝试整体改进逻辑生产能力。人类可能会通过反复审查自己的推理过程来达到类似的效果，希望逐步并最终增强自己的推理能力。

让我们谈谈这个。

对这一创新提议的分析是我持续在Forbes.com专栏中关于最新人工智能报道的一部分，包括识别和解释各种有影响力的AI复杂性（参见）此处的链接).

校园时光和展示你的作品

你记得在学校时，你的老师坚持要求你在解决测试问题时展示你的解题步骤吗？

我相信你一定意识到了，也许还很焦虑。

展示你的解题过程的一个重要原因是为了让老师能看到你用来得出答案的逻辑。如果你的答案错了，老师可能会根据你的解题过程是否展示了部分解决问题的知识给你部分分数。当然，这也帮助了识别那些没有真正解决问题而是偷偷抄袭同桌的学生。我将不考虑作弊的问题，专注于期望的学习成果。

展示你的工作的额外好处是，它可能帮助你学习如何更好地运用逻辑和思考问题。信念在于，你越是写下你所采取的步骤，你就越有可能变得善于想出正确的步骤。通常情况下，你可以通过反复检查你的工作并改进你的逻辑推理应用来提高你整体的问题解决能力。

在我们转向利用这一概念来推进人工智能的发展时，记住这一点。

让生成式AI展示其工作过程

在使用生成式AI时，你可以通过让AI进行逐步处理并识别答案的推导过程来展示其工作。这通常被称为链式思维处理或CoT。从某种意义上说，解决问题的逻辑步骤可以被指定为一系列正在发生的思考环节。

我对人工智能领域现在常见的口号“链式思维”持谨慎态度，因为它包含了“思维”这个词，仿佛生成型AI在所谓的“思考”。这些基本词汇最好保留给人类心智活动。将它们应用到AI领域中，这是一种令人遗憾的拟人化形式。这给人一种错觉，认为AI有思想，并且与人类一样能够思考。事实并非如此，而且在人工智能背景下使用这样的词句是令人沮丧和误导的（详见我的详细讨论）。此处的链接).

无论如何，使用它们已经成为常态，我虽然勉强同意，但请你们在将这些词语应用于AI与人类认知时保持区分，谢谢。

让我们来看一个例子，说明在AI解决问题时展示工作过程的想法。我希望生成式人工智能帮助我规划即将到来的旅行，所以我登录后询问了关于潜在行程的问题。为了获取假设的思维链条，我在提示中提到我想看到所采用的逻辑。

这里开始了。

我输入的提示词：我从旧金山前往纽约市的最佳旅行方式是什么？请展示你用来解决问题的逻辑。
生成式AI回应：从旧金山到纽约市，最好的旅行方式是乘坐火车。我的理由如下。火车比飞机或汽车更环保。此外，火车很舒适，你还可以沿途欣赏美景。坐火车的话，你不必自己开车。因此，我推荐乘坐火车。

生成式AI的回答是让我坐火车从旧金山去纽约。好吧，如果我时间充足并且喜欢乘火车旅行的话，这也许会很有趣，但在时间紧迫或对行程有其他要求的情况下，这个答案似乎不太合适。

我很高兴我要求查看逻辑或思维链。你可以检查这些逻辑并看到AI做出的一些关键假设。我说这相当值得怀疑。

让生成式AI找到更好的逻辑

一种解决答案不够准确或存在缺陷的方法是我告诉AI所展示的逻辑并不十分坚实。然后我可以给AI提供我希望它使用的逻辑。这样一来，我最终可能会得到更好的答案。

让我们转而采用一个经典的智慧，即通常引导别人如何捕鱼要比亲自为某个特定情况去捕鱼更好。我会告诉AI回顾它的答案并评估所使用的逻辑。

我试过了。

我输入的提示：“我希望你审查你给我关于我坐火车问题的回答。仔细评估所使用的逻辑。告诉我在你的发现。”
生成式AI响应：我给出的答案在逻辑上是薄弱的。弱点包括过度概括、忽略了关键因素，并且似乎对火车旅行有不适当的偏见，而不是开放于其他交通方式。

啊哈，很好，AI识别出了之前使用的逻辑中的弱点。我将促使AI重新进行旅行规划，并要求根据发现之前的逻辑存在缺陷的基础上使用更好的逻辑。

这里就是。

我输入的提示词：“请继续使用更好的逻辑并改进答案。展示你所使用的逻辑。”
生成式AI响应：为了确定从旧金山到纽约市的最佳旅行方式，我将评估三个主要因素：时间、成本和便捷性。飞行是最快的，其次是火车出行，而开车是最慢的。在成本方面，如果能够提前预订并在时间上保持灵活，飞机可能会更加经济实惠；然而，火车票可能更为昂贵或价格同样高昂，并且限制更多；开车由于磨损费、住宿费用、汽油消耗等因素，整体来看很可能会更贵。对于便捷性而言，飞行通常是最方便的，因为你登上飞机就能到达目的地；而坐火车则很可能需要换乘不同车次；尽管驾驶在选择路线上的地点时较为灵活，但长时间驾车会非常疲惫，并且充满压力和焦虑。根据这些因素，在追求速度的情况下，请选择飞行；如果看重成本，则可以考虑飞或坐火车；如果你更重视便捷性，那么请选择飞机出行。

我认为新的回答更好，因为它强调了包括时间、成本和便利性在内的多个因素的重要性。

逻辑也更好了。

我们做了一件意义重大的事情。AI得出了一个更好的答案，显然这得益于加强了所使用的底层逻辑。我没有亲自去修改逻辑，我只是促使AI重新审视并改进了逻辑。

持续改进生成式AI逻辑

我对旅行问题的答案得到了 definite 的改善，感到安心和兴奋。注意这里的 "definite" 直接翻译可能不太通顺，根据上下文可能是想表达“确实”、“明确”的意思，所以用“确实”来替代会更自然一些：我对旅行问题的答案确实得到了改善，感到安心和兴奋。如果严格按照原文要求只输出翻译结果，则保留为：“我对旅行问题的答案得到了 definite 的改善，感到安心和兴奋。”

问题是，我希望AI总是运用更好的逻辑，而不仅仅是针对从旧金山到纽约市的那一个问题。

这是我要告诉AI做的事情。

我输入的提示：从现在开始，每当我询问关于旅行的问题时，我希望你使用类似第二个回答中展示的更严谨的逻辑。第二个回答中的逻辑总体上更好，并可以作为解决与旅行相关问题的一种模式。
生成式AI回复：“我理解并将会使用这样的逻辑来解决与旅行相关的问题。请知悉，这样做可能会使我回复这些问题的时间稍微长一些，如果你是付费使用此AI，额外的时间可能会增加你的成本。”

你可以看到我选择专注于仅与旅行相关的问题。

扩大这个范围，想象一下我们希望生成式AI能够检查所使用的逻辑或思维链条，并始终努力改进它，无论面对什么样的问题。为了长期实现这一点，我们可以用大量的问题来训练AI，并让AI反复审查这些逻辑。目标是使AI持续提高其设计底层逻辑的能力。

一个相关的方面是AI是否能够充分判断或评估它所使用的逻辑。有可能AI不会承认其逻辑薄弱，或者无法检测到逻辑不佳的情况。我们可以设计一个相对独立的组件来评估或评判这些逻辑。这些评估结果可以输入给AI，以便指导哪些逻辑优于其他逻辑。

关于解决方案逻辑的数据不多

有一个额外的且相当有趣的视角值得我们深思。

生成式AI是通过扫描整个互联网并分析大量数据进行训练的。在这一数据训练过程中，会使用数学和计算模式匹配技术。人类写作的特点会被密切模仿。当你使用生成式AI时，它会通过计算方式模拟人类的写作方式。这样一来，在使用生成式AI和大型语言模型时，你就能获得令人惊叹的流畅度。

我会问你一个颇具挑衅性且令人脑洞大开的问题。

在网络上扫描的所有数据是否都包含所陈述内容背后的逻辑，还是说这种逻辑并不一定随内容一起存在？

仔细想想。

我敢打赌，你在网上找到的内容中，有很大一部分甚至绝大部分都不会附带所陈述内容的逻辑或逻辑基础。除非你恰好遇到了一本在线的数学证明教科书，否则你不会看到其中使用的逻辑。此外，值得一提的是，即使有人展示了他们的逻辑，我们也会怀疑他们展示的逻辑是否连贯且完整。

要点如下。

一开始用数据训练生成式AI以掌握人类的逻辑可能性较低，因为互联网的数据源往往会忽略可能被使用过的逻辑。因此，你可能需要找到其他方法来获取这种逻辑，而不能仅仅指望它会存在于某个地方的互联网上并与这里或那里的问题或答案相关联。

你可以创造一种合成逻辑，也就是说事后构造的逻辑，这种逻辑假定是解决问题或得出结论背后的依据。你让生成式AI展示的思想链条可以被视为这种合成逻辑。这并不是人类必然使用过的或者遵循的实际逻辑，而是一种事后的推导出来的逻辑。

人工智能研究取得进展向前推进

近期，Meta、加州大学伯克利分校和纽约大学的研究人员进行的一项AI研究提出了一种新颖的方法论，他们称之为思维偏好优化（Thought Preference Optimization，简称TPO），这一方法与我之前记录的内容类似。

这项研究题为“LLM思维：一般指令遵循与思考生成”，作者是吴天浩、兰佳妮、袁炜哲、焦 Jian Tao、Jason Weston 和 Sainbayar Sukhbaatar。arXiv，2024年10月14日，重点如下（摘录）：

我们认为“思考”应该具有广泛的应用价值。例如，在创意写作任务中，内部思维可以用于规划整体结构和角色。在其他任务中，内部思维可用于更好地理解用户指令。
然而，由于缺乏监督训练数据，训练模型思考是非常具有挑战性的。虽然预训练数据包含有价值的信息，在某些领域覆盖率可能有限，因为人类写作中常常省略内部思想。现有的后训练数据集通常只包含人类的响应或对响应的偏好，而不包括思维过程的信息。
“思维偏好优化：我们首先提示大语言模型在响应之前生成思考内容。在采样不同输出后，我们将响应部分输入到评判模型中，以确定最佳和最差的输出。然后我们使用相应的完整输出作为选定和拒绝的对进行DPO优化。我们执行多次这样的训练迭代。”
“我们通过来自人工智能反馈的迭代强化学习（RLAIF）训练来优化这种思维和响应输出。我们依赖于一个标准的评判模型，该模型经过专门训练仅评估响应，并且可以通过产生的响应隐含地判断思维的质量。这具有不需要人工整理的思维或能够评估思维的特殊评判模型的优势。”

这是一项旨在探索和实施我在这里提到的许多方面的深入研究。

他们的初步结果显示，在选定的基准测试中性能有所提升。令人欣喜的是，这种增强的性能似乎在多个领域都有所体现。我提到这一点是因为有一些与CoT相关的研究专注于特定领域，如金融、医学、法律和其他细分市场，这非常有益，但拥有一个能够提供全面改进的方法同样至关重要，甚至更为重要。

水涨船高。

我将期待看到其他人工智能研究人员是否能够复制他们的结果，并利用额外的基准测试来了解这些改进可能提供的各种好处。除了在Meta的Llama上尝试之外，使用其他生成式AI模型（如ChatGPT、GPT-4、Claude、Gemini等）进行测试也将非常重要。

还有很多工作要做，也有很多令人兴奋的机会在等着。

思考关于思考丰富了思维

此刻先分享这些思考。

沃伦·巴菲特曾这样说过关于思考：“没有什么能像写作那样迫使你去思考并理清思路。”

回到我在上学期间展示作业这一点上，你必须承认写下你的逻辑是一种迫使自己理清思路的方法。也许这个过程痛苦，也许你在犯错时被扣分了，但我敢说这样做对你有好处。

一个问题是，我们是否真的按照明确记录的基于逻辑的术语来思考。你真的是基于A导致B，而B导致C这样的逻辑在思考吗？还是这只是我们被教导要遵守的一种虚构的合理化解释呢？也许我们的大脑以完全不同的方式运作。社会强烈要求我们必须假装自己是用逻辑思维的，尽管实际上可能并非如此，或者我们使用的是另一种完全不同的逻辑。

重要的原因是，我们似乎也在用同样的强制性对待生成式人工智能。是的，我们在迫使AI遵循我们认为人类理性也应该使用的逻辑。但如果这并不是最终实现完整的人工智能或通用人工智能（简称AGI）的道路呢？

让你思考。

沃伦巴菲特的最后一句话是：“我坚持每天几乎都要花很多时间坐下来思考。”

是的，确实，让我们确保给人工智能及其发展留出足够的思考时间。去找一个安静的地方好好想想。你的想法可能会对世界产生重大影响。

关于《通过Meta的思想偏好优化来改进生成式AI的思维模式以提供更智能的结果》的评论

暂无评论

发表评论

摘要

获取生成式AI来审查和改进内部思维过程，以提供更好的逻辑……[+] 和更好的答案。getty 在今天的专栏中，我研究了一种新发布的提高生成式人工智能和大型语言模型（LLM）的方法，该方法依赖于一个长久以来对人类的格言：“三思而后行”。不管怎样，使用它们已经成为常态，尽管我勉强同意，但我要求您将这些词语如何适用于AI与人类认知区分开来，谢谢。这些评估可以输入到AI中，以指导哪些逻辑比其他逻辑更好或更差。此外，顺便说一下，即使人们展示他们的逻辑，我们可能也会对其连贯性和完整性产生怀疑。或者说这是被教导遵守的一种虚构的合理化？注：原文最后一句存在语法和表达上的不清晰，因此翻译时保留了原意但进行了适当的调整以便于理解。