OpenAI 有发布了新的基准,被称为“SimpleQA”,旨在测量自己的和竞争的人工智能模型的输出的准确性。
通过这样做,这家人工智能公司揭示了其最新模型在提供正确答案方面有多糟糕。在其自己的测试中,其最先进的 o1-preview 模型上个月发布,在新基准测试中取得了 42.7% 的糟糕成功率。
换句话说,即使是最近宣布的大型语言模型(LLM)中的佼佼者,也更有可能提供完全错误的答案,而不是正确的答案——这是令人担忧的控诉,尤其是当该技术开始渗透到许多方面时我们的日常生活。
Anthropic 等竞争模型在 OpenAI 的 SimpleQA 基准测试中得分甚至更低,其最近发布的 Claude-3.5-sonnet 模型仅答对了 28.9% 的问题。然而,该模型更倾向于揭示其自身的不确定性并拒绝回答——考虑到令人震惊的结果,这可能是最好的结果。
更糟糕的是,OpenAI 发现自己的人工智能模型往往会大大高估自己的能力,这一特征可能导致他们对自己编造的谎言高度自信。
法学硕士长期以来一直受到“幻觉”的困扰,这是人工智能公司想出的一个优雅的术语来表示他们的模型有据可查的趋势产生完全是废话的答案。
尽管最终完成完全制造的可能性非常高,但世界已经张开双臂拥抱这项技术,学生们生成家庭作业科技巨头雇用的开发人员大量代码。
裂缝正在开始显现。举个例子,医院使用的基于 OpenAI 技术的人工智能模型是本周捕获在记录患者互动时引入频繁的幻觉和不准确的情况。
美国各地的警察也开始拥抱人工智能,这一可怕的事态发展可能会导致执法部门错误地指控无辜者或进一步加剧令人不安的偏见。
OpenAI 的最新发现是另一个令人担忧的迹象,表明当前的法学硕士无法可靠地说出真相。
这一发展应该提醒人们以充分的怀疑态度对待任何法学硕士的任何输出,并愿意仔细梳理生成的文本。
这是否是一个可以通过更大的训练集来解决的问题——人工智能领导者正在这样做急于向投资者保证的 仍然是开放式问题。
有关 OpenAI 的更多信息: 医院使用的人工智能模型被发现伪造患者详细信息、发明不存在的药物和性行为