作者:Maxwell Zeff
Openai最近推出了O3和O4-Mini AI模型在许多方面都是最先进的。但是,新模型仍然幻觉或弥补事物 - 实际上,它们幻觉更多的比几种Openai的旧型号。
事实证明,幻觉是在AI中解决的最大,最困难的问题之一,影响即使在今天的表现最佳系统。从历史上看,幻觉部门的每个新模型都略有改善,幻觉比其前身少。但这似乎并不是O3和O4-Mini的情况。
根据OpenAI的内部测试,O3和O4-Mini是所谓的推理模型,幻觉更经常比公司以前的推理模型 - O1,O1-Mini和O3-Mini以及Openai的传统,不合常规模型,例如GPT-4O。
也许更令人担忧的是,Chatgpt Maker真的不知道为什么会发生这种情况。
在其技术报告中O3和O4-MiniOpenai写道,需要更多的研究来了解为什么幻觉会随着推理模型的扩展而变得更糟。O3和O4-Mini在某些领域的表现更好,包括与编码和数学有关的任务。但是,由于他们总体上提出了更多的主张,因此根据报告,他们经常导致提出更准确的索赔以及更多不准确/幻觉的主张。”
Openai发现,O3响应于33%的Personqa问题,这是该公司的内部基准测试模型对人的知识的准确性。这是Openai先前推理模型O1和O3-Mini的幻觉率的两倍,分别为16%和14.8%。O4-Mini在PersonQA的幻觉上的情况甚至更糟。
第三者测试通过非营利性AI研究实验室Cluctuce,也发现了证据表明O3倾向于弥补到达答案过程中采取的行动。在一个示例中,Clansuce观察到O3声称它在Chatgpt以外的2021 MacBook Pro上运行了代码,然后将数字复制到答案中。尽管O3可以使用一些工具,但可以做到这一点。
``我们的假设是,用于O系列模型的强化学习可能会放大标准培训后管道通常会减轻(但未完全擦除)的问题,”电流研究人员和前OpenAI雇员尼尔·乔杜里(Neil Chowdhury)在一封至TechCrunch的电子邮件中。
Clansuce的联合创始人Sarah Schwettmann补充说,O3的幻觉速度可能使其比以前的有用。
斯坦福大学的兼职教授兼首席执行官Kan Katanforoosh告诉TechCrunch,他的团队已经在编码工作流程中测试O3,并且他们发现这是竞争对手的一步。但是,Katanforoosh说O3倾向于幻觉破裂的网站链接。该模型将提供一个链接,当单击时,该链接不起作用。
幻觉可能有助于模型提出有趣的想法并在思想中发挥创造力,但它们也使一些模型对准确性至关重要的市场中的企业进行了艰难的销售。例如,一家律师事务所可能不会对将许多事实错误插入客户合同中的模型感到满意。
提高模型准确性的一种有希望的方法是为他们提供Web搜索功能。Web搜索实现的Openai的GPT-4O 90%精度在SimpleQA上,这是OpenAI的另一个精度基准。可能,搜索可能会提高推理模型的幻觉率,至少在用户愿意向第三方搜索提供商中展示提示的情况下。
如果扩大推理模型确实会继续恶化幻觉,那将使人们更加紧迫地寻找解决方案。
OpenAI发言人Niko Felix在致TechCrunch的电子邮件中说,解决我们所有模型的幻觉是一个正在进行的研究领域,我们不断努力提高其准确性和可靠性。”
在过去的一年中,更广泛的AI行业枢转是专注于推理模型改善传统AI模型的技术开始显示回报率降低。推理改善了各种任务的模型性能,而无需在培训过程中进行大量计算和数据。然而,似乎推理也可能导致更多的幻觉提出挑战。
Maxwell Zeff是TechCrunch的高级记者,专门研究AI和新兴技术。Zeff此前曾与Gizmodo,Bloomberg和MSNBC一起,涵盖了AI和Silicon Valley Bank危机的崛起。他总部位于旧金山。当不报告时,他可以找到他远足,骑自行车和探索海湾地区的美食现场。