作者:Lance Eliot
在今天的专栏中,我探讨了一种新发布的提高生成式人工智能和大型语言模型(LLM)的方法,这种方法依赖于一条长久以来适用于人类的格言:行动之前要思考。值得注意的是,不仅鼓励人们在行动前进行思考,还进一步鼓励他们不断改进自己的思维过程,以便每次在行动前都能更好地思考。
你可以说是旨在优化思考过程。
在人工智能的背景下,前提是你让生成型人工智能进行足够的预处理以推导出潜在的回答,这样生成的答案更可能是更好的。为了获得更好答案而采用预处理的技术是我在许多场合详细讨论过的,并且这种技术广泛被称为链式思维或CoT推理,详见此处的链接以及此处的链接.
一篇新的AI研究论文描绘了一个引人入胜的创新思路,即让生成式AI进行内部设计的思想链的数据补充训练,并旨在提高其思想链(CoT)的能力。可以将这一现象视为一种记录产生答案所用逻辑的方法,然后集体利用这些实例来尝试整体改进逻辑生产能力。人类可能会通过反复审查自己的推理过程来达到类似的效果,希望逐步并最终增强自己的推理能力。
让我们谈谈这个。
对这一创新提议的分析是我持续在Forbes.com专栏中关于最新人工智能报道的一部分,包括识别和解释各种有影响力的AI复杂性(参见)此处的链接).
你记得在学校时,你的老师坚持要求你在解决测试问题时展示你的解题步骤吗?
我相信你一定意识到了,也许还很焦虑。
展示你的解题过程的一个重要原因是为了让老师能看到你用来得出答案的逻辑。如果你的答案错了,老师可能会根据你的解题过程是否展示了部分解决问题的知识给你部分分数。当然,这也帮助了识别那些没有真正解决问题而是偷偷抄袭同桌的学生。我将不考虑作弊的问题,专注于期望的学习成果。
展示你的工作的额外好处是,它可能帮助你学习如何更好地运用逻辑和思考问题。信念在于,你越是写下你所采取的步骤,你就越有可能变得善于想出正确的步骤。通常情况下,你可以通过反复检查你的工作并改进你的逻辑推理应用来提高你整体的问题解决能力。
在我们转向利用这一概念来推进人工智能的发展时,记住这一点。
在使用生成式AI时,你可以通过让AI进行逐步处理并识别答案的推导过程来展示其工作。这通常被称为链式思维处理或CoT。从某种意义上说,解决问题的逻辑步骤可以被指定为一系列正在发生的思考环节。
我对人工智能领域现在常见的口号“链式思维”持谨慎态度,因为它包含了“思维”这个词,仿佛生成型AI在所谓的“思考”。这些基本词汇最好保留给人类心智活动。将它们应用到AI领域中,这是一种令人遗憾的拟人化形式。这给人一种错觉,认为AI有思想,并且与人类一样能够思考。事实并非如此,而且在人工智能背景下使用这样的词句是令人沮丧和误导的(详见我的详细讨论)。此处的链接).
无论如何,使用它们已经成为常态,我虽然勉强同意,但请你们在将这些词语应用于AI与人类认知时保持区分,谢谢。
让我们来看一个例子,说明在AI解决问题时展示工作过程的想法。我希望生成式人工智能帮助我规划即将到来的旅行,所以我登录后询问了关于潜在行程的问题。为了获取假设的思维链条,我在提示中提到我想看到所采用的逻辑。
这里开始了。
生成式AI的回答是让我坐火车从旧金山去纽约。好吧,如果我时间充足并且喜欢乘火车旅行的话,这也许会很有趣,但在时间紧迫或对行程有其他要求的情况下,这个答案似乎不太合适。
我很高兴我要求查看逻辑或思维链。你可以检查这些逻辑并看到AI做出的一些关键假设。我说这相当值得怀疑。
一种解决答案不够准确或存在缺陷的方法是我告诉AI所展示的逻辑并不十分坚实。然后我可以给AI提供我希望它使用的逻辑。这样一来,我最终可能会得到更好的答案。
让我们转而采用一个经典的智慧,即通常引导别人如何捕鱼要比亲自为某个特定情况去捕鱼更好。我会告诉AI回顾它的答案并评估所使用的逻辑。
我试过了。
啊哈,很好,AI识别出了之前使用的逻辑中的弱点。我将促使AI重新进行旅行规划,并要求根据发现之前的逻辑存在缺陷的基础上使用更好的逻辑。
这里就是。
我认为新的回答更好,因为它强调了包括时间、成本和便利性在内的多个因素的重要性。
逻辑也更好了。
我们做了一件意义重大的事情。AI得出了一个更好的答案,显然这得益于加强了所使用的底层逻辑。我没有亲自去修改逻辑,我只是促使AI重新审视并改进了逻辑。
我对旅行问题的答案得到了 definite 的改善,感到安心和兴奋。注意这里的 "definite" 直接翻译可能不太通顺,根据上下文可能是想表达“确实”、“明确”的意思,所以用“确实”来替代会更自然一些:我对旅行问题的答案确实得到了改善,感到安心和兴奋。如果严格按照原文要求只输出翻译结果,则保留为:“我对旅行问题的答案得到了 definite 的改善,感到安心和兴奋。”
问题是,我希望AI总是运用更好的逻辑,而不仅仅是针对从旧金山到纽约市的那一个问题。
这是我要告诉AI做的事情。
你可以看到我选择专注于仅与旅行相关的问题。
扩大这个范围,想象一下我们希望生成式AI能够检查所使用的逻辑或思维链条,并始终努力改进它,无论面对什么样的问题。为了长期实现这一点,我们可以用大量的问题来训练AI,并让AI反复审查这些逻辑。目标是使AI持续提高其设计底层逻辑的能力。
一个相关的方面是AI是否能够充分判断或评估它所使用的逻辑。有可能AI不会承认其逻辑薄弱,或者无法检测到逻辑不佳的情况。我们可以设计一个相对独立的组件来评估或评判这些逻辑。这些评估结果可以输入给AI,以便指导哪些逻辑优于其他逻辑。
有一个额外的且相当有趣的视角值得我们深思。
生成式AI是通过扫描整个互联网并分析大量数据进行训练的。在这一数据训练过程中,会使用数学和计算模式匹配技术。人类写作的特点会被密切模仿。当你使用生成式AI时,它会通过计算方式模拟人类的写作方式。这样一来,在使用生成式AI和大型语言模型时,你就能获得令人惊叹的流畅度。
我会问你一个颇具挑衅性且令人脑洞大开的问题。
在网络上扫描的所有数据是否都包含所陈述内容背后的逻辑,还是说这种逻辑并不一定随内容一起存在?
仔细想想。
我敢打赌,你在网上找到的内容中,有很大一部分甚至绝大部分都不会附带所陈述内容的逻辑或逻辑基础。除非你恰好遇到了一本在线的数学证明教科书,否则你不会看到其中使用的逻辑。此外,值得一提的是,即使有人展示了他们的逻辑,我们也会怀疑他们展示的逻辑是否连贯且完整。
要点如下。
一开始用数据训练生成式AI以掌握人类的逻辑可能性较低,因为互联网的数据源往往会忽略可能被使用过的逻辑。因此,你可能需要找到其他方法来获取这种逻辑,而不能仅仅指望它会存在于某个地方的互联网上并与这里或那里的问题或答案相关联。
你可以创造一种合成逻辑,也就是说事后构造的逻辑,这种逻辑假定是解决问题或得出结论背后的依据。你让生成式AI展示的思想链条可以被视为这种合成逻辑。这并不是人类必然使用过的或者遵循的实际逻辑,而是一种事后的推导出来的逻辑。
近期,Meta、加州大学伯克利分校和纽约大学的研究人员进行的一项AI研究提出了一种新颖的方法论,他们称之为思维偏好优化(Thought Preference Optimization,简称TPO),这一方法与我之前记录的内容类似。
这项研究题为“LLM思维:一般指令遵循与思考生成”,作者是吴天浩、兰佳妮、袁炜哲、焦 Jian Tao、Jason Weston 和 Sainbayar Sukhbaatar。arXiv,2024年10月14日,重点如下(摘录):
这是一项旨在探索和实施我在这里提到的许多方面的深入研究。
他们的初步结果显示,在选定的基准测试中性能有所提升。令人欣喜的是,这种增强的性能似乎在多个领域都有所体现。我提到这一点是因为有一些与CoT相关的研究专注于特定领域,如金融、医学、法律和其他细分市场,这非常有益,但拥有一个能够提供全面改进的方法同样至关重要,甚至更为重要。
水涨船高。
我将期待看到其他人工智能研究人员是否能够复制他们的结果,并利用额外的基准测试来了解这些改进可能提供的各种好处。除了在Meta的Llama上尝试之外,使用其他生成式AI模型(如ChatGPT、GPT-4、Claude、Gemini等)进行测试也将非常重要。
还有很多工作要做,也有很多令人兴奋的机会在等着。
此刻先分享这些思考。
沃伦·巴菲特曾这样说过关于思考:“没有什么能像写作那样迫使你去思考并理清思路。”
回到我在上学期间展示作业这一点上,你必须承认写下你的逻辑是一种迫使自己理清思路的方法。也许这个过程痛苦,也许你在犯错时被扣分了,但我敢说这样做对你有好处。
一个问题是,我们是否真的按照明确记录的基于逻辑的术语来思考。你真的是基于A导致B,而B导致C这样的逻辑在思考吗?还是这只是我们被教导要遵守的一种虚构的合理化解释呢?也许我们的大脑以完全不同的方式运作。社会强烈要求我们必须假装自己是用逻辑思维的,尽管实际上可能并非如此,或者我们使用的是另一种完全不同的逻辑。
重要的原因是,我们似乎也在用同样的强制性对待生成式人工智能。是的,我们在迫使AI遵循我们认为人类理性也应该使用的逻辑。但如果这并不是最终实现完整的人工智能或通用人工智能(简称AGI)的道路呢?
让你思考。
沃伦巴菲特的最后一句话是:“我坚持每天几乎都要花很多时间坐下来思考。”
是的,确实,让我们确保给人工智能及其发展留出足够的思考时间。去找一个安静的地方好好想想。你的想法可能会对世界产生重大影响。