Openai的新推理AI模型幻觉更多|TechCrunch
2025-04-18 21:09:44
OpenAI的新O3和O4-MINI推理模型是最先进的,但与较旧模型(包括GPT-4O)相比,幻觉速度更高。内部测试表明,O3在33%的PersonQA问题中幻觉,是以前推理模型的速率两倍。第三方测试通过Clansuce发现了类似的问题。Openai承认问题,并需要进一步的研究,以了解为什么扩大推理模型会导致幻觉率提高。尽管这些新模型在编码和数学任务中的表现都优于较旧的模型,但它们提出索赔的较高趋势(无论是准确和不准确)使人们对准确性至关重要的业务用例的可靠性感到担忧。