OpenAI 研究发现，即使是最好的模型也有很大一部分时间给出错误的答案

2024-11-02 15:00:51 英文原文

OpenAI 最新的人工智能模型在正确性方面极其糟糕。

BS发生器

OpenAI 有发布了新的基准，被称为“SimpleQA”，旨在测量自己的和竞争的人工智能模型的输出的准确性。

通过这样做，这家人工智能公司揭示了其最新模型在提供正确答案方面有多糟糕。在其自己的测试中，其最先进的 o1-preview 模型上个月发布，在新基准测试中取得了 42.7% 的糟糕成功率。

换句话说，即使是最近宣布的大型语言模型（LLM）中的佼佼者，也更有可能提供完全错误的答案，而不是正确的答案——这是令人担忧的控诉，尤其是当该技术开始渗透到许多方面时我们的日常生活。

又错了

Anthropic 等竞争模型在 OpenAI 的 SimpleQA 基准测试中得分甚至更低，其最近发布的 Claude-3.5-sonnet 模型仅答对了 28.9% 的问题。然而，该模型更倾向于揭示其自身的不确定性并拒绝回答——考虑到令人震惊的结果，这可能是最好的结果。

更糟糕的是，OpenAI 发现自己的人工智能模型往往会大大高估自己的能力，这一特征可能导致他们对自己编造的谎言高度自信。

法学硕士长期以来一直受到“幻觉”的困扰，这是人工智能公司想出的一个优雅的术语来表示他们的模型有据可查的趋势产生完全是废话的答案。

尽管最终完成完全制造的可能性非常高，但世界已经张开双臂拥抱这项技术，学生们生成家庭作业科技巨头雇用的开发人员大量代码。

裂缝正在开始显现。举个例子，医院使用的基于 OpenAI 技术的人工智能模型是本周捕获在记录患者互动时引入频繁的幻觉和不准确的情况。

美国各地的警察也开始拥抱人工智能，这一可怕的事态发展可能会导致执法部门错误地指控无辜者或进一步加剧令人不安的偏见。

OpenAI 的最新发现是另一个令人担忧的迹象，表明当前的法学硕士无法可靠地说出真相。

这一发展应该提醒人们以充分的怀疑态度对待任何法学硕士的任何输出，并愿意仔细梳理生成的文本。

这是否是一个可以通过更大的训练集来解决的问题——人工智能领导者正在这样做急于向投资者保证的仍然是开放式问题。

关于《OpenAI 研究发现，即使是最好的模型也有很大一部分时间给出错误的答案》的评论

暂无评论

发表评论

摘要

OpenAI 发布了一个名为“SimpleQA”的新基准，用于衡量其最新 AI 模型和竞争模型的准确性。它自己的 o1-preview 模型在这次测试中得分仅为 42.7%，而 Anthropic 的 Claude-3.5-sonnet 模型表现更差，为 28.9%。这两种模型都倾向于高估自己的能力并产生错误的答案，这凸显了大语言模型（LLM）的局限性，尽管它们在包括医疗保健和执法在内的各个领域得到广泛使用。这些发现强调了在使用法学硕士输出时需要持怀疑态度。

OpenAI 研究发现，即使是最好的模型也有很大一部分时间给出错误的答案

OpenAI 最新的人工智能模型在正确性方面极其糟糕。

BS发生器

又错了

关于《OpenAI 研究发现，即使是最好的模型也有很大一部分时间给出错误的答案》的评论

发表评论

摘要

相关新闻

相关讨论