为什么AI会更频繁地进行Hallucin，我们如何停止它？

3D illustration of Symbol of an eye , butterflies and mathematical formulas on the subject of AI hallucinations.

（图片来源：AgSandrew/ shutterstock）

更高级人工智能（AI）得到，它越“幻觉”，提供了错误和不准确的信息。

研究Openai进行的指出，当OpenAI的PersonQA基准测试时，其最新，最强大的推理模型O3和O4-Mini分别幻觉分别为33％和48％。这是较旧的O1型号的两倍以上。尽管O3提供的信息比其前任更准确，但它似乎是以更多不准确的幻觉为代价。

这引起了人们对大语言模型（LLM）（例如AI Chatbots）的准确性和可靠性的关注。埃莉诺·沃森（Eleanor Watson），电气和电子工程师研究所（IEEE）成员和AI伦理工程师。

沃森告诉《 Live Science》：“当系统输出制造的信息，例如发明的事实，引用或事件，并以与准确的内容相同的流利性和连贯性时，它会以微妙而后果的方式冒着误导用户的风险。”

有关的：研究表明，当问题变得太困难时

专家说，幻觉的问题强调了需要仔细评估和监督AI系统使用LLM和推理模型时产生的信息。

AIS梦想着电羊吗？

推理模型的症结在于，它可以通过将它们分解为单个组件并提出解决方案来处理复杂的任务。推理模型并没有寻求基于统计概率的答案，而是提出了解决问题的策略，就像人类的思维方式一样。

将世界上最迷人的发现直接传递到您的收件箱中。

为了发展有创造力的问题，可以解决问题的解决方案，AI需要幻觉 - 否则，它受到LLM摄入的严格数据的限制。

“重要的是要注意，幻觉是AI的一个功能，而不是虫子，”Sohrob KazerounianVectra AI的AI研究人员告诉Live Science。“用我的同事解释，'llm输出的一切都是幻觉。只是其中一些幻觉是真实的。'如果AI仅产生训练期间看到的逐字输出，那么所有AI都会减少到大规模的搜索问题。”

"You would only be able to generate computer code that had been written before, find proteins and molecules whose properties had already been studied and described, and answer homework questions that had already previously been asked before. You would not, however, be able to ask the LLM to write the lyrics for a concept album focused on the AI singularity, blending the lyrical stylings of Snoop Dogg and Bob Dylan."

实际上，LLMS和AI系统需要幻觉才能创建而不是简单地提供现有信息。从概念上讲，这与人类梦想或想象新想法时的场景的方式相似。

在框外思考太多

然而，AI幻觉在提供准确和正确的信息时提出一个问题，尤其是如果用户在没有任何检查或监督的情况下以面值来获取信息。

沃森说：“这在决定取决于事实精确的领域尤其有问题，例如医学，法律或金融。”“尽管更高级的模型可能会降低明显的事实错误的频率，但问题仍然以更微妙的形式存在。随着时间的流逝，串联侵蚀了AI系统作为值得信赖的工具的感知，并在采取未经验证的内容时会造成物质危害。”

随着AI的进步，这个问题似乎会加剧。沃森指出：“随着模型功能的提高，错误通常变得越来越明显，但难以检测。”“被捏造的内容越来越多地嵌入了合理的叙述和连贯的推理链中。这引入了一种特定的风险：用户可能不知道存在错误，并且在不存在的情况下可能将输出视为确定性。问题从过滤出来的粗略误差转移到识别出可能只在仔细审查下揭示自己的细微损失的问题转移。”

Kazerounian支持了这个观点。他说：“尽管人们普遍认为，随着时间的流逝，AI幻觉的问题可能会并且会变得更好，但似乎最近一代的高级推理模型实际上可能已经开始幻觉比他们更简单的同行幻觉更多，并且没有关于为什么这样做的同意的解释。”

情况更加复杂，因为很难确定LLM如何提出他们的答案。在这里，我们仍然不太了解人类脑的运作方式可以在这里吸引一个相似之处。

在最近的一个散文，，，，达里奥·阿莫迪（Dario Amodei）AI Company Anthropic的首席执行官，强调了AIS如何提出答案和信息缺乏了解。他写道：“当生成性的AI系统（例如总结财务文件总结）时，我们不知道在特定的或确切的水平上，为什么它做出选择了 - 为什么它选择某些单词而不是别人，或者为什么尽管通常会准确地犯错，”他写道。

Kazerounian指出，由于AI幻觉不准确的信息引起的问题已经非常真实。他说：“没有通用，可验证的方法可以使LLM正确回答有关它可以访问的一些数据语料库的问题。”“不存在幻觉的参考文献，构成公司政策的面向客户的聊天机器人等的例子是太普遍了。”

粉碎梦

Kazerounian和Watson都告诉Live Science，最终，AI幻觉可能很难消除。但是可能有方法可以减轻问题。

沃森（Watson）建议，在精心策划的外部知识源中以模型的输出为基础的“检索效果生成”可以帮助确保AI产生的信息通过可验证的数据锚定。

“另一种方法涉及将结构引入模型的推理中。通过提示其检查自己的输出，比较不同的观点或遵循逻辑步骤，降低了脚手架推理框架的风险，并提高了不受限制的推测并提高一致性。

沃森补充说：“最后，可以设计系统来识别自己的不确定性。而不是在自信的答案上默认，而是在不确定的情况下教导模型来标记或在适当时延迟人类的判断。”“尽管这些策略并不能完全消除串联的风险，但它们提供了一种实用的途径，使AI产出更加可靠。”

鉴于AI幻觉几乎不可能消除，尤其是在高级模型中，Kazerounian得出结论，最终需要使用“我们为人类同行保留的同样怀疑主义”来处理LLMS产品的信息。

Roland Moore-Colyer是现场科学的自由作家，也是消费者技术出版物Techradar的执行编辑，运行移动计算垂直。在英国和美国最大的消费技术网站之一Techradar，他专注于智能手机和平板电脑。但是除此之外，他还涉及十多年的写作经验，以使人们的故事涵盖电动汽车（EV），人工智能（AI），混合现实产品和用例的演变和实际使用以及从宏观水平和消费者角度进行计算的演变。

为什么AI会更频繁地进行Hallucin，我们如何停止它？

AIS梦想着电羊吗？

在框外思考太多

粉碎梦

关于《为什么AI会更频繁地进行Hallucin，我们如何停止它？》的评论

发表评论

摘要

相关新闻

相关讨论