penAI 周四向付费用户发布了迄今为止最先进的人工智能模型,称为 o1。此次发布拉开了公司的序幕OpenAI 12 天– 活动 – 连续发布十几个版本来庆祝节日。
OpenAI 大力宣传 o1 的“复杂推理”功能,并于周四宣布无限制地访问该模型的费用为每月 200 美元。在视频该公司为了展示该模型的优势而发布了该模型,一名用户上传了一张木制鸟舍的图片,并向该模型询问如何建造类似的鸟舍。该模型会“思考”一小段时间,然后吐出表面上看起来是一套全面的指令。
仔细检查就会发现这些说明几乎毫无用处。人工智能以英寸为单位测量任务所需的油漆、胶水和密封剂的量。它只给出了鸟舍前面板的尺寸,没有其他尺寸。它建议将一张砂纸切割成另一组尺寸,但没有明显的原因。在说明书列表的单独部分中,它说“确切的尺寸如下”,然后没有给出确切的尺寸。
“你从图像中了解的关于建造鸟舍的知识与从文本中了解的一样多,这违背了人工智能工具的全部目的,”木匠研究所所长詹姆斯·菲卢斯(James Filus)说道。总部位于英国的贸易机构在一封电子邮件中。他指出,材料清单中包括钉子,但所需工具清单中不包括锤子,而且建造简单鸟舍的成本“远不及”o1 估计的 20-50 美元。“简单地说‘安装一个小铰链’并不能真正涵盖设计中可能最复杂的部分,”他补充道,指的是视频中旨在解释如何为鸟舍添加开放式屋顶。
OpenAI 没有立即回应置评请求。
这只是人工智能产品演示与其预期目的相反的最新例子。去年,谷歌广告人工智能辅助搜索工具错误地表示詹姆斯·韦伯望远镜发现了它没有的发现,这一失误导致该公司股价暴跌。最近,类似的 Google 工具的更新版本告诉早期用户吃石头是安全的,并且他们可以使用胶水将奶酪粘到披萨上。
根据公开基准,OpenAI 的 o1 是迄今为止最强大的模型,它采用与 ChatGPT 不同的方法来回答问题。它本质上仍然是一个非常先进的下一个单词预测器,使用机器学习对来自互联网及其他地方的数十亿单词文本进行训练。但它不是立即吐出单词来响应提示,而是使用一种称为“思维链”推理的技术,在幕后一段时间内本质上“思考”答案,然后给出在那之后才得到答案。这种技术通常会比让模型条件反射地给出答案产生更准确的答案,并且 OpenAI 大力宣传其推理能力,尤其是在数学和编码方面。OpenAI 的数据显示,它可以准确回答 78% 的博士级科学问题发表以及 9 月份发布的该模型的预览版本。
但显然,一些基本的逻辑错误仍然可能被忽视。