作者:by Ingrid Fadelli, Phys.org
在过去的几十年中,计算机科学家引入了越来越复杂的基于机器学习的模型,这些模型可以在各种任务上表现出色。其中包括多模式大语言模型(MLLM),这些模型可以处理和生成不同类型的数据,主要是文本,图像和视频。
这些模型中的一些模型,例如带有视觉的GPT4(GPT-4V),DeepSeek-R1和Google Gemini,现在已被全球用户广泛使用,以创建特定的多模式内容,包括社交媒体帖子或文章的图像,以及适合特定用途的文本。
而推理近年来,这些模型的能力已大大提高,使它们能够解决数学和推理问题,研究表明,它们有时会通过描述实际上不存在输入图像中不存在的细节来响应未基于输入数据中的事物。
这些幻觉已与语言先验和模型在分析大型文本数据集时可能获得的语言先验和内部偏见有关。这些偏见可以覆盖馈送到模型的视觉信息(即输入图像),从而导致模型错误地完成分配给其的任务。
加州大学圣克鲁斯分校,斯坦福大学和加州大学圣塔芭芭拉分校的研究人员最近开发了一种指标和诊断基准,可以帮助研究这些幻觉,特别关注MLLM的推理与他们在被要求描述输入图像中描述的内容时幻觉的趋势之间的关系。这些新的研究工具,在纸在arxiv预印式服务器可以为MLLM的评估和进步做出贡献。
Chengzhi Liu在论文中写道:“测试时间计算已经授权多模式的大型语言模型生成扩展的推理链,在诸如多模式数学推理等任务上产生了强大的绩效。”
“但是,这种提高的推理能力通常会增加幻觉:随着世代的变长,模型往往会偏离图像的内容,并更加依赖语言先验。”
研究人员首先评估了MLLM在复杂的推理任务上的性能,并发现作为推理链(即解决问题所需的逻辑步骤序列)的长度越来越长,模型幻觉的趋势也增加了。他们建议这些幻觉是由于关注的关注而出现的视觉刺激并更加依赖语言先验。
刘,徐及其同事写道:“注意分析表明,较长的推理链导致对视觉投入的关注减少,这有助于幻觉。”
“为了系统地研究这一现象,我们介绍了Rh-Auc,该指标量化了模型的感知准确性如何随推理长度而变化,从而使我们能够评估该模型在推理过程中是否保留了视觉基础。我们还释放了RH bench,这是一种诊断基准,一种诊断基准,跨越了多种模块化任务,以评估各种推理能力和范围的多样性任务。
Rh-Auc和Rh Bench,Liu,Xu和他的同事开发的指标和基准,其他研究人员很快就可以使用其他研究人员来评估特定MLLM的推理能力与幻觉的风险之间的相互作用。此外,团队论文中提出的观察结果可以指导未来的努力,以开发可以可靠地处理复杂推理任务的模型,而不容易发生幻觉。
“我们的分析表明,较大的模型通常实现更好的平衡在推理和感知之间,这种平衡比培训数据的类型和领域更大,而不是其整体数量,” Liu,Xu及其同事写道。“这些发现强调了评估框架的重要性,这些框架共同考虑了推理质量和知觉忠诚度。”
我们作者为您写的Ingrid Fadelli,编辑加比·克拉克(Gaby Clark)并对事实进行了检查和审查罗伯特·埃根(Robert Egan)本文是仔细人类工作的结果。我们依靠像您这样的读者来使独立科学新闻业保持活力。如果此报告对您很重要,请考虑捐款(尤其是每月)。你会得到一个无广告表示感谢。
更多信息:Chengzhi Liu等人,更多的思考,更少看到?评估多模式推理模型中的放大幻觉,arxiv(2025)。doi:10.48550/arxiv.2505.21523
期刊信息: arxiv
©2025科学X网络
引用:基准幻觉:多模式推理模型出错的新公制轨道(2025年,6月14日)检索2025年6月15日摘自https://techxplore.com/news/2025-06-benchmarking-hallucinations-metric-tracks-multimodal.html
该文档具有版权。除了为私人研究或研究目的的任何公平交易外,没有未经书面许可,可以复制部分。内容仅用于信息目的。