英语轻松读发新版了,欢迎下载、更新

LlamaV-o1 是解释其思维过程的人工智能模型——这就是为什么它很重要

2025-01-13 19:42:53 英文原文

作者:Michael Nuñez

Credit: VentureBeat made with Midjourney

图片来源:VentureBeat 使用 Midjourney 制作

加入我们的每日和每周时事通讯,了解有关行业领先人工智能报道的最新更新和独家内容。了解更多


研究人员在穆罕默德·本·扎耶德人工智能大学(MBZUAI)宣布发布美洲驼V-o1,一种最先进的人工智能模型,能够处理一些跨文本和图像的最复杂的推理任务。

通过将尖端课程学习与先进的优化技术相结合,例如波束搜索,LlamaV-o1为多模态人工智能系统的逐步推理树立了新的基准。

“推理是解决复杂的多步骤问题的基本能力,特别是在视觉环境中,顺序逐步理解至关重要,”研究人员在他们的研究中写道技术的 报告,今天发布。该人工智能模型针对需要精确性和透明度的推理任务进行了微调,在从解释金融图表到诊断医学图像等任务上,其表现优于许多同行。

与该模型同步,该团队还引入了VRC-长凳,旨在评估人工智能模型逐步推理问题的能力的基准。VRC-Bench 拥有 1,000 多个不同样本和 4,000 多个推理步骤,被誉为多模态 AI 研究领域的游戏规则改变者。

LlamaV-o1 在通过复杂的视觉任务识别模式和推理方面优于 Claude 3.5 Sonnet 和 Gemini 1.5 Flash 等竞争对手,如 VRC-Bench 基准测试的示例所示。该模型提供了逐步的解释,得出正确的答案,而其他模型则无法匹配既定的模式。(来源:arxiv.org)

LlamaV-o1 如何在竞争中脱颖而出

传统的人工智能模型通常专注于提供最终答案,而很少深入了解它们如何得出结论。然而,LlamaV-o1 强调逐步推理– 模仿人类解决问题的能力。这种方法允许用户查看模型所采取的逻辑步骤,这对于可解释性至关重要的应用程序特别有价值。

研究人员使用以下方法训练 LlamaV-o1:LLaVA-CoT-100k,一个针对推理任务优化的数据集,并使用 VRC-Bench 评估其性能。结果令人印象深刻:LlamaV-o1 的推理步骤得分为 68.93,优于诸如拉瓦-CoT(66.21) 甚至一些闭源模型,例如克劳德 3.5 十四行诗。– 通过利用束搜索的效率以及课程学习的渐进结构,所提出的模型逐渐获得技能,从更简单的任务开始,例如方法总结和问题衍生的字幕,然后推进到更复杂的多步骤

推理场景,确保优化的推理和强大的推理能力,”研究人员解释道。

该模型的系统方法也使其比竞争对手更快。该团队在报告中指出,“LlamaV-o1 在六个基准测试中的平均得分绝对提高了 3.8%,同时推理扩展速度提高了 5 倍”。对于希望大规模部署人工智能解决方案的企业来说,这样的效率是一个关键卖点。

商业人工智能:为什么逐步推理很重要

LlamaV-o1 对可解释性的重视满足了金融、医药和教育等行业的关键需求。对于企业来说,追踪人工智能决策背后的步骤的能力可以建立信任并确保遵守法规。

以医学影像为例。使用人工智能分析扫描结果的放射科医生不仅需要诊断,还需要知道人工智能如何得出该结论。这就是 LlamaV-o1 的闪光点,它提供透明的、逐步的推理,供专业人员审查和验证。

该模型在图表和图表理解等领域也表现出色,这些领域对于财务分析和决策至关重要。在测试中VRC-长凳在需要解释复杂视觉数据的任务中,LlamaV-o1 始终优于竞争对手。

但该模型不仅仅适用于高风险应用。其多功能性使其适用于从内容生成到对话代理的广泛任务。研究人员专门对 LlamaV-o1 进行了调整,使其在现实场景中表现出色,利用 Beam Search 来优化推理路径并提高计算效率。波束搜索

允许模型并行生成多个推理路径并选择最符合逻辑的一个。这种方法不仅提高了准确性,还降低了运行模型的计算成本,使其成为各种规模企业的有吸引力的选择。

LlamaV-o1 擅长各种推理任务,包括视觉推理、科学分析和医学成像,如 VRC-Bench 基准测试的示例所示。其分步解释提供了可解释且准确的结果,在图表理解、文化背景分析和复杂视觉感知等任务中优于竞争对手。(来源:arxiv.org)

VRC-Bench 对人工智能的未来意味着什么

的释放VRC-长凳与模型本身一样重要。与仅关注最终答案准确性的传统基准不同,VRC-Bench 评估各个推理步骤的质量,从而对 AI 模型的能力提供更细致的评估。

“大多数基准测试主要关注最终任务的准确性,而忽略了中间推理步骤的质量,”研究人员解释道。– [VRC-Bench] 提出了一系列多样化的挑战,涉及八个不同的类别,从复杂的视觉感知到科学推理,总共超过 [4,000] 个推理步骤,从而能够对法学硕士执行准确和可解释的视觉的能力进行稳健评估跨多个步骤进行推理。

这种对逐步推理的关注在科学研究和教育等领域尤其重要,在这些领域,解决方案背后的过程可能与解决方案本身一样重要。通过强调逻辑一致性,VRC-Bench 鼓励开发能够处理现实世界任务的复杂性和模糊性的模型。

LlamaV-o1 在 VRC-Bench 上的表现充分说明了其潜力。平均而言,该模型在以下基准测试中得分为 67.33%数学维斯塔人工智能二维,优于其他开源模型,例如拉瓦-CoT(63.50%)。这些结果使 LlamaV-o1 成为开源 AI 领域的领导者,缩小了与专有模型(如GPT-4o,得分为71.8%。

人工智能的下一个前沿:可解释的多模态推理

虽然 LlamaV-o1 代表了一项重大突破,但它也并非没有局限性。与所有人工智能模型一样,它受到训练数据质量的限制,并且可能会遇到高技术性或对抗性提示。研究人员还警告不要在高风险决策场景中使用该模型,例如医疗保健或财务预测,否则错误可能会造成严重后果。

尽管存在这些挑战,LlamaV-o1 强调了可以无缝集成文本、图像和其他数据类型的多模式人工智能系统日益增长的重要性。它的成功强调了课程学习和逐步推理在弥合人类和机器智能之间差距的潜力。

随着人工智能系统越来越融入我们的日常生活,对可解释模型的需求只会继续增长。LlamaV-o1 证明我们不必为了透明度而牺牲性能,并且人工智能的未来不会止步于给出答案。它向我们展示了它是如何到达那里的。

也许这才是真正的里程碑:在一个充满黑盒解决方案的世界中,LlamaV-o1 打开了盖子。

使用 VB Daily 每日洞察业务用例

如果您想给老板留下深刻印象,VB Daily 可以满足您的要求。我们为您提供有关公司在生成人工智能方面所做的事情的内幕消息,从监管转变到实际部署,以便您可以分享见解以实现最大投资回报率。

阅读我们的隐私政策

感谢您的订阅。查看更多VB 时事通讯在这里

发生错误。

关于《LlamaV-o1 是解释其思维过程的人工智能模型——这就是为什么它很重要》的评论


暂无评论

发表评论

摘要

MBZUAI 的研究人员推出了 LlamaV-o1,这是一种先进的人工智能模型,专为涉及文本和图像的复杂推理任务而设计。利用课程学习和 Beam Search 优化,LlamaV-o1 在分步推理方面表现出色,在 VRC-Bench 等基准测试中超越了 Claude 3.5 Sonnet 和 Gemini 1.5 Flash 等竞争对手,VRC-Bench 评估的是单个推理步骤的质量,而不仅仅是最终结果准确性。该模型的可解释性使其对于金融、医药和教育等需要透明度的行业很有价值。此外,MBZUAI还推出了VRC-Bench来全面评估AI模型的推理能力,凸显了LlamaV-o1在多模态AI研究和实际应用中的潜力。