信任但验证人工智能:陆军将让 genAI 起草采购文件,并有护栏 - Breaking Defense

2024-09-16 11:26:08 英文原文

华盛顿 生成式人工智能初创公司 Ask Sage 最近宣布,已将其 genAI 软件部署到陆军安全云 cArmy 中。该新闻稿吹捧了新技术可以自动化的一系列流程,例如软件开发、网络安全测试,甚至联邦采购系统的一部分,包括起草和生成 RFI、RFP、工作范围、定义要求、筛选投标人

最后一连串的任务可能是国防部在其长达一年且极其矛盾的 genAI 探索中要求算法解决的最微妙的任务之一。Ask Sage 和陆军都告诉 Breaking Defense,他们将密切关注这一领域,监控多层内置护栏的有效性。

自动化采办是一项特别雄心勃勃且高风险的任务。因失去投标人而引发的抗议非常常见,以至于项目经理经常在他们的日程安排中留出三个月的缓冲时间,以在政府问责局进行调查时考虑停工令。官方文件中的缺陷,例如 RFI [信息请求]、RFP [提案请求]、工作范围以及 Ask Sage 发布中提到的要求,可能会导致法庭诉讼,从而扰乱项目。使用 genAI 处理法律问题的早期实验并不成功,多名律师在使用 ChatGPT 和类似软件进行法律研究后面临制裁,结果却让它产生了看似合理但完全虚构的先例。

相关:五角大楼应该尝试像 ChatGPT 这样的人工智能,但还不要信任它们:国防部前人工智能负责人

Ask Sage 和陆军官员表示,第一道也是最后一道防线是使用该技术的人类。但软件本身也有算法保护。Ask Sage 不像 ChatGPT 那样简单地咨询单个大型语言模型 (LLM),而是使用多个程序(并非全部是 GenAI)作为检查和平衡,以便在人类发现错误之前捕获并纠正错误。

在上周 Ask Sages 宣布这一消息后,陆军在军种首席信息官办公室向 Breaking Defense 发表的一份声明中表示,所有合同仍将经过我们的法律程序,人类仍将参与其中。我们正在探索使用大语言模型来优化合同中的语言的方法,[因为]大语言模型可以分析大量合同数据并了解遵守复杂法律框架的要求。这减少了研究和生成语言所需的人力密集型工作,而是使用大语言模型快速找到初始解决方案;然后人类与大语言模型一起完善输出。这样,人力工作量就可以集中在运用批判性思维上。

沮丧地离开空军的前首席软件官尼古拉斯·柴兰 (Nicolas Chaillan) 表示,旧的军控原则“信任但要验证”仍然适用。2021 年,他克服了官僚作风,并于去年在 genAI 的热情爆发中创立了 Ask Sage。他在接受《Breaking Defense》采访时表示,它总是由人工审核。人类会阅读整篇文章。

相关:SOCOM 采购负责人:人工智能将成为每件事的关键

但是任何在繁琐的隐私页面上盲目点击“好”的人政策和用户协议非常清楚,事实上,人类并不总是阅读整个内容。人工智能伦理学家和界面设计师都在努力解决一个被称为自动化偏差的问题,在这个问题中,从不良的培训到微妙的感知线索,比如用威胁性的红色而不是警告性的黄色突出显示潜在的敌意接触,都可能导致操作员盲目地信任机器而不是检查它。.

因此,Ask Sage 确实非常努力地在软件本身中构建纠错、幻觉检测和其他安全措施,Chaillan 说。

人工智能制衡

抗议活动阻碍了陆军价值 9.9 亿美元的徘徊弹药合同

根据文件显示,GAO 预计将在 12 月 16 日之前对 Mistral, Inc. 提出的抗议做出裁决。

Chaillan 告诉 Breaking Defense,首先也是最重要的一点是,Ask Sage 软件不仅仅参考单一的大型语言模型。相反,一方面,它是人类用户及其数据之间的一个与模型无关的中介或抽象层,以及超过 150 个不同人工智能模型的整个议会。

你不想把所有的“你的鸡蛋放在一个篮子里,”柴兰说。他说,我们从未被开放人工智能或谷歌或任何其他特定的基础模型开发商所束缚。我们可以添加模型,甚至可以比较模型,看看哪些模型表现最好,甚至可以针对不同的任务选择不同的模型。

对于某些功能,还有老式的、可预测的、确定性的非人工智能算法Chaillan 强调,双重检查 AI 工作的 IF-THEN-ELSE 代码。

我一直希望拥有 .. 那些正确的护栏,而这不仅仅需要 genAI 来解决。因此,它将 genAI 与传统代码以及模型和防护栏的特殊训练相结合,以获得正确的答案。仅靠 genAI 是做不到的。

我们让它自我反思,他说。当它生成一段文档时,我们再次将其传递给另一个模型来说,嘿,评估这种语言。可能存在哪些潜在的法律风险?这是否符合并遵循 FARS 和 DFARS 要求?”

它不仅仅是像在 Chat GPT 上那样一泵即用,您可以在 Chat GPT 上输入一段文本,然后得到响应,他说。

事实上,即使是人工输入也受到限制和形式化,以防止错误:他继续说,编写 RFI 不仅仅是一个提示。该软件引导用户完成一系列问题,哪种类型的合同最好?工作范围是什么?我们应该如何向下选择获胜者?Chaillan 说,该输出不仅可以包括草稿文件,还可以包括人工智能的评论,突出显示算法自身不确定的潜在弱点。(这与许多聊天机器人为自己的错误辩护时的厚颜无耻的自信相去甚远)。

他们在审阅文档之前会收到一份报告,上面写着:嘿,你应该注意这些部分。他说,也许这还不清楚。你给他们列出了可能存在潜在问题的清单。

事实上,Chaillan 认为,人工智能通常比人类更擅长发现问题。他说,对于软件开发来说,通过正确的模型、正确的训练和正确的设置,代码实际上比人类编写的代码更好。

他声称,软件甚至更优越,毕竟,在解析法律语言和联邦采购法规时,这些法规不仅内容庞大,而且编写方式也非常复杂,人类的大脑无法轻易理解。他说,人类无法记住 FARS 和 DFARS 的每个部分,并且(不同的法规中)存在相互冲突的内容。问 10 个人,你会得到 10 个不同的答案。

摘要

华盛顿 生成型人工智能初创公司 Ask Sage 最近宣布,已将其 genAI 软件部署到陆军安全云 cArmy 中。美国空军前首席软件官尼古拉斯·柴兰 (Nicolas Chaillan) 表示,旧的军控原则“信任但验证”仍然适用。他于 2021 年因官僚主义而感到沮丧,离开了空军,并于去年在 genAI 的热情爆发中创立了 Ask Sage。当它生成一段文档时,我们再次将其传递给另一个模型来说,嘿,评估这种语言。Chaillan 表示,该输出不仅可以包括文件草案,还可以包括人工智能的评论,突出显示算法自身不确定的潜在弱点。(人类无法记住 FARS 和 DFARS 的每个部分,并且 [不同的法规] 中存在相互冲突的内容,他说。