作者:Breaking Defense
国防部加倍努力建设由人工智能支持的数据驱动型军队。然而,人工智能在国防关键任务应用中的使用却受到一个原因的阻碍,尤其是幻觉。
当 ChatGPT 等大型语言模型 (LLM) 生成听起来合理但实际上不正确的信息时,就会出现幻觉。卡内基梅隆大学研究人员的一项研究表明,法学硕士每 10 个回答中就有一个出现幻觉的情况并不少见。正是这 10% 的错误率减缓了国防部人工智能潜力的充分发挥。
然而,现在有一种名为检索增强生成验证 (RAG-V) 的新软件解决方案,可以通过大幅减少法学硕士中的幻觉发生率来解决幻觉问题。介绍者底漆RAG-V 为复杂的企业环境构建实用且值得信赖的人工智能,通过添加新颖的验证阶段几乎消除了幻觉。
– RAG-V 使得采用大型语言模型并将其放入关键任务环境中成为可能,以便战士可以依赖它;Primer 数据科学副总裁 John Bohanon 表示:“这就是问题的核心。”– 在某些情况下你需要幻觉;这就是所谓的创造力,比如当你想要举办派对的想法时。这些模型非常有创意,可以凭空想出一些东西。
——不好的一面是,如果你在一个以事实为依据来获取问题答案的环境中使用它,幻觉可能会很糟糕——尤其是当幻觉很微妙时。当一条明显不正确的信息时,人们很容易发现它。危险的事情是,当模型充满自信并且看起来正确时,但这只是一种幻觉,以一种看似合理、可信的方式表达出来,以至于可以欺骗你。”
Primer 的工作原理是结合类似于事实检查的验证步骤,将 LLM 的响应建立在经过证实的数据源中,将上述错误率从大约 5% 到 10% 降低——这是最先进的对于领先的法学硕士来说,这一比例仅为 0.1%。这种可靠性的显着提高对于事实准确性至关重要的应用至关重要,使作战人员和分析师能够信任人工智能生成的见解,并更有信心地做出时间敏感的决策。
除了检测幻觉之外,RAG-V 还提供任何错误的详细解释,使系统能够迭代改进并进一步增强信任。Primer 的方法代表了负责任的人工智能开发的重大进步,解决了透明度和问责制方面的关键挑战,这对于在国防部门采用这些变革性技术至关重要。
RAG-V 减少幻觉
高调的人工智能幻觉已经成为新闻,尤其是在法律界,一名律师提交了一份部分由发明判例法的 ChatGPT 创建的法庭摘要。
不过,幻觉发生的原因并不神秘。它们是由法学硕士的培训方式造成的。尽管它们看起来是一门神秘的新科学,但它们的训练方式相对简单,就像填空游戏一样。例如,法学硕士输入文本,隐藏一些单词,模型填充空白。
这样做数十亿次,法学硕士就会非常擅长将单词组合在一起——只是并不总是正确的单词。该模型试图做的是生成看起来概率尽可能高的单词,并且读起来就像是人类写的一样。
2021 年出现了一种名为 Retrieval Augmented Generation 的部分幻觉解决方案,它没有使用 Primer 创建的验证部分,可将幻觉减轻到今天的水平。RAG 的工作原理是从可信记录系统中检索相关信息,然后将其包含在生成模型的提示中。该提示还指示模型仅根据检索到的数据回答用户的问题,而不填写空白。
即使有了 RAG,这些模型也并不总是遵循方向,仍然会犯错误并产生幻觉。为了减少幻觉,让用户恢复信任,Primer 所做的就是添加一个新的最后一步,根据可验证的来源对数据进行事实检查,从而在 RAG-V 中进行验证。
借助 RAG-V,执行关键任务应用程序的战士现在可以在其工具包中添加值得信赖的 LLM 功能,在这个时代,伟大的竞争对手也在开发需要跨多个域和边缘操作的高级 AI 功能。
– 为了让我们保持领先于中国、俄罗斯、伊朗和朝鲜等竞争对手(所有这些国家都在使用法学硕士),我们的人工智能的核心是帮助最终用户通过以下方式更有效地做事:Primer 客户解决方案工程高级副总裁 Matthew Macnak 表示:“以更少的精力、更快的方式做到这一点。”– Primer 是一个完整的平台;它不仅仅是由法学硕士提供支持,因此我们实际上可以将其版本带入现场,并且由于 RAG-V,仍然能够以更少的人员和更高的可靠性处理大量非结构化信息。
– 想象一下,我们可以将人工智能系统放入手提箱大小的东西中,然后将其放置在执行 ISR 任务的飞机上。现在,您有一些操作员能够实时摄取(比如说)数千条语音或文本信息并进行分析,而不仅仅是收集数据、返回并等待数据进行分析。现在,他们可以就地得到结果,而不必等待别人告诉他们该怎么做。”
更多信任,更少幻觉
正如所强调的,即使使用 RAG,大型语言模型的错误率也非常严重(通常为 5-10%),以至于许多国防应用程序无法信任它们。该比率取决于数据以及法学硕士提出的问题,但这使得它们对于情报操作来说是不可接受的。
“如果你有一个东西,你每向它提问 10 次,就有 1 次会撒谎,那就意味着你每次都必须检查它的工作情况,”Bohanon 指出。– 你必须保持高度警惕,因此,在你使用它来实际增强人类的环境中,这会破坏交易。当风险很高时,您无法承担必须使用无法信任的工具的后果。”
当谈到法学硕士时,博哈农建议持怀疑态度的买家。例如,当分析师的集思广益需求可以通过 ChatGPT 得到解决时,他们很可能处于关于幻觉的安全区域。但如果需求是高风险的关键任务,用户应该对没有最后一步验证和事实检查的法学硕士保持警惕。
– 即使它们与 RAG 和其他大型语言模型护栏等最佳实践一起使用,它们仍然具有不可接受的错误率。潜在用户应该抱着这样的心态:这项技术是新技术,而且只有少数像 Primer 这样的商店认真对待这个问题。
Macnak 补充道:“我们都听说过“信任但验证”。RAG-V 的有价值之处在于,它允许用户准确了解其做出决定的原因,更重要的是,该输出是如何产生的已验证。我们的重点仍然是最终用户,无论是分析师、操作员还是战士。
– 为此,我们正在围绕那些实际工作的个人构建产品和技术,以便为他们提供服务。我们通过 RAG-V 达到的 0.1% 错误率是我们为用户做出关键任务决策而这样做的一个很好的例子。