英语轻松读发新版了,欢迎下载、更新

DeepSeek 在思想链上挑战 OpenAI 的 o1 - 但它缺少一些环节

2024-12-01 17:18:00 英文原文

作者:Written by Tiernan Ray, Senior Contributing Writer Dec. 1, 2024 at 9:18 a.m. PT

gettyimages-1869389134
阿金博斯坦奇/盖蒂图片社

考虑一列火车从芝加哥出发,以每小时 70 英里的速度向西行驶,另一列火车从旧金山出发,以每小时 80 英里的速度向东行驶。你能知道他们见面的时间和地点吗?

这是一道经典的小学数学题人工智能(AI) 程序,例如 OpenAI最近发布了“o1”大语言模型目前正在预览中,不仅会找到答案,还会解释一些他们是如何得出答案的。 

这些解释是生成人工智能中日益流行的方法的一部分,称为思想链

尽管思想链非常有用,但根据它的实现方式,它也有可能完全令人困惑,正如我从一些实验中发现的那样。

还:OpenAI 扩展了 o1 模型的可用性 - 以下是谁可以访问以及访问量是多少

思维链处理背后的想法是,人工智能模型可以详细说明其为追求最终答案而执行的计算序列,最终实现“可解释”的人工智能。可以想象,这种可解释的人工智能可以通过公开答案的基础,让人类对人工智能的预测更有信心。

就上下文而言,人工智能模型是指人工智能程序的一部分,其中包含大量神经网络参数和激活函数,这些参数和激活函数构成了程序如何运行的关键元素。

为了探究这个问题,我将 OpenAI 的 o1 与 R1-精简版,来自中国初创公司 DeepSeek 的最新模型。R1-Lite 比 o1 更进一步,给出了冗长的思想链陈述,这与 o1 相当简洁的风格形成鲜明对比。

还:ChatGPT 用 12 种顶级编程语言编写我的例程。这是结果告诉我的

DeepSeek 声称 R1-Lite 可以在多项基准测试中击败 o1,包括数学,一项由 U.C. 开发的测试伯克利分校包含 12,500 个数学问答集。

AI 杰出人物 Andrew Ng,Landing.ai 创始人,解释了R1-Lite 的推出是“一项重要运动的一部分”,它不仅仅是让人工智能模型变得更大,而是让它们做额外的工作来证明其结果的合理性。

但我发现,R1-Lite 也可能令人困惑且乏味,而 o1 则不然。 

还:人工智能驱动的软件测试获得更多支持,但担忧依然存在

我向 R1-Lite 和 o1 预览提交了上述著名的火车数学问题。您可以通过以下方式免费试用 R1-Lite:在 DeepSeek 网站上创建免费帐户,并且您可以访问 o1 预览作为付费 ChatGPT 帐户与 OpenAI 一起。(R1-Lite 尚未作为开源版本发布,但GitHub 上提供了许多其他 DeepSeek 项目.)

deepseek-versus-openai-if-a-train-leaves-chicago-2024.png

这两个聊天机器人都从相当简单的路线开始解决著名的小学数学火车问题。

两个模型都得出了类似的答案,尽管 o1 模型明显更快,需要 5 秒才能给出答案,而 DeepSeek 的 R1-Lite 则需要 21 秒(这两个模型各自告诉您它们“思考”的时间)。o1 在计算中还使用了芝加哥和旧金山之间更准确的英里数。

更有趣的区别出现在下一轮。

另外: OpenAI 的 o1-preview 代码效果如何?它在我的 4 项测试中表现出色 - 并以令人惊讶的细节展示了它的工作原理

当我要求两个模型粗略计算两列火车将在哪里相遇(即美国的哪个城镇或城市)时,o1 模型很快就生成了怀俄明州夏安市。在此过程中,o1 通过短暂闪烁的短信(例如“分析火车行程”、“绘制行程”或“确定集合点”)传达了自己的思路。 

这些并不是真正的信息,而是表明某些事情正在发生。 

相比之下,DeepSeek R1-Lite 在其思维链中花费了近一分钟的时间,并且与其他情况一样,它非常冗长,留下了总计 2,200 个单词的“思维”描述。随着模型在整个链条中的推进,这些问题变得越来越复杂。该模型一开始非常简单,假设每列火车在 12 小时结束时到达的地方大致就是两列火车彼此靠近的地方,即两个起点之间的某个地方。

但随后 DeepSeek 的 R1-Lite 就完全脱轨了,可以这么说。它尝试了许多奇怪的方法来计算位置,并以令人痛苦的细节描述了每种方法。 

deepseek-versus-openai-where-do-the-trains-meet-2024.png

虽然 OpenAI 的 o1 模型相当快地完成了工作,但 DeepSeek 的 R1-Lite(左)经历了一个漫长而曲折的“思考”过程,这个过程变得越来越复杂和分散注意力。

首先,它计算了从芝加哥到旧金山途中多个不同城市的距离,以及城市之间的距离,以近似位置。 

还:我测试了 9 个 AI 内容检测器 - 这 2 个每次都能正确识别 AI 文本

然后它诉诸于使用经度在地图上并计算芝加哥火车行驶的经度。然后它后退并尝试计算距离行驶距离

在这一切之中,模型吐出了这样一句话:“等等,我有点困惑了”——对于观看这一切的人类来说,这可能是真实的。 

deepseek-confused-by-its-own-reasoning-2024

DeepSeek 的 R1-Lite 表达了困惑——人工智能模型并不是字面上的困惑,但使用它的人类可能会困惑。

当 R1-Lite 给出答案时——“在内布拉斯加州西部或科罗拉多州东部”,这是一个可以接受的近似值——推理是如此深奥,不再是“可以解释的”,而是令人沮丧。

还:人工智能并没有碰壁,而是碰壁了。Anthropic 表示,对于基准来说,它变得太智能了

DeepSeek 的 R1-Lite 与 o1 模型不同,o1 模型使答案相当简短,通过费力地详细解释假定的推理过程,DeepSeek 的 R1-Lite 实际上最终变得复杂且令人困惑。 

如果有更精确的提示(包括实际火车路线等细节),思路可能会更加清晰。访问外部数据库获取地图坐标也可能导致 R1-Lite 的思想链中的环节更少。

该测试表明,在思想链推理的早期阶段,与聊天机器人即使他们最终从人工智能模型中得到了可接受的答案,他们也可能会感到困惑。

关于《DeepSeek 在思想链上挑战 OpenAI 的 o1 - 但它缺少一些环节》的评论


暂无评论

发表评论