作者:Written by Tiernan Ray, Senior Contributing Writer Dec. 1, 2024 at 9:18 a.m. PT
考虑一列火车从芝加哥出发,以每小时 70 英里的速度向西行驶,另一列火车从旧金山出发,以每小时 80 英里的速度向东行驶。你能知道他们见面的时间和地点吗?
这是一道经典的小学数学题人工智能(AI) 程序,例如 OpenAI最近发布了“o1”大语言模型目前正在预览中,不仅会找到答案,还会解释一些他们是如何得出答案的。
这些解释是生成人工智能中日益流行的方法的一部分,称为思想链。
尽管思想链非常有用,但根据它的实现方式,它也有可能完全令人困惑,正如我从一些实验中发现的那样。
还:OpenAI 扩展了 o1 模型的可用性 - 以下是谁可以访问以及访问量是多少
思维链处理背后的想法是,人工智能模型可以详细说明其为追求最终答案而执行的计算序列,最终实现“可解释”的人工智能。可以想象,这种可解释的人工智能可以通过公开答案的基础,让人类对人工智能的预测更有信心。
就上下文而言,人工智能模型是指人工智能程序的一部分,其中包含大量神经网络参数和激活函数,这些参数和激活函数构成了程序如何运行的关键元素。
为了探究这个问题,我将 OpenAI 的 o1 与 R1-精简版,来自中国初创公司 DeepSeek 的最新模型。R1-Lite 比 o1 更进一步,给出了冗长的思想链陈述,这与 o1 相当简洁的风格形成鲜明对比。
还:ChatGPT 用 12 种顶级编程语言编写我的例程。这是结果告诉我的
DeepSeek 声称 R1-Lite 可以在多项基准测试中击败 o1,包括数学,一项由 U.C. 开发的测试伯克利分校包含 12,500 个数学问答集。
AI 杰出人物 Andrew Ng,Landing.ai 创始人,解释了R1-Lite 的推出是“一项重要运动的一部分”,它不仅仅是让人工智能模型变得更大,而是让它们做额外的工作来证明其结果的合理性。
但我发现,R1-Lite 也可能令人困惑且乏味,而 o1 则不然。
我向 R1-Lite 和 o1 预览提交了上述著名的火车数学问题。您可以通过以下方式免费试用 R1-Lite:在 DeepSeek 网站上创建免费帐户,并且您可以访问 o1 预览作为付费 ChatGPT 帐户与 OpenAI 一起。(R1-Lite 尚未作为开源版本发布,但GitHub 上提供了许多其他 DeepSeek 项目.)
两个模型都得出了类似的答案,尽管 o1 模型明显更快,需要 5 秒才能给出答案,而 DeepSeek 的 R1-Lite 则需要 21 秒(这两个模型各自告诉您它们“思考”的时间)。o1 在计算中还使用了芝加哥和旧金山之间更准确的英里数。
更有趣的区别出现在下一轮。
另外: OpenAI 的 o1-preview 代码效果如何?它在我的 4 项测试中表现出色 - 并以令人惊讶的细节展示了它的工作原理
当我要求两个模型粗略计算两列火车将在哪里相遇(即美国的哪个城镇或城市)时,o1 模型很快就生成了怀俄明州夏安市。在此过程中,o1 通过短暂闪烁的短信(例如“分析火车行程”、“绘制行程”或“确定集合点”)传达了自己的思路。
这些并不是真正的信息,而是表明某些事情正在发生。
相比之下,DeepSeek R1-Lite 在其思维链中花费了近一分钟的时间,并且与其他情况一样,它非常冗长,留下了总计 2,200 个单词的“思维”描述。随着模型在整个链条中的推进,这些问题变得越来越复杂。该模型一开始非常简单,假设每列火车在 12 小时结束时到达的地方大致就是两列火车彼此靠近的地方,即两个起点之间的某个地方。
但随后 DeepSeek 的 R1-Lite 就完全脱轨了,可以这么说。它尝试了许多奇怪的方法来计算位置,并以令人痛苦的细节描述了每种方法。
首先,它计算了从芝加哥到旧金山途中多个不同城市的距离,以及城市之间的距离,以近似位置。
还:我测试了 9 个 AI 内容检测器 - 这 2 个每次都能正确识别 AI 文本
然后它诉诸于使用经度在地图上并计算芝加哥火车行驶的经度。然后它后退并尝试计算距离行驶距离。
在这一切之中,模型吐出了这样一句话:“等等,我有点困惑了”——对于观看这一切的人类来说,这可能是真实的。
当 R1-Lite 给出答案时——“在内布拉斯加州西部或科罗拉多州东部”,这是一个可以接受的近似值——推理是如此深奥,不再是“可以解释的”,而是令人沮丧。
还:人工智能并没有碰壁,而是碰壁了。Anthropic 表示,对于基准来说,它变得太智能了
DeepSeek 的 R1-Lite 与 o1 模型不同,o1 模型使答案相当简短,通过费力地详细解释假定的推理过程,DeepSeek 的 R1-Lite 实际上最终变得复杂且令人困惑。
如果有更精确的提示(包括实际火车路线等细节),思路可能会更加清晰。访问外部数据库获取地图坐标也可能导致 R1-Lite 的思想链中的环节更少。
该测试表明,在思想链推理的早期阶段,与聊天机器人即使他们最终从人工智能模型中得到了可接受的答案,他们也可能会感到困惑。