作者:Sam Biddle
Meta 内部ChatGPT 竞争对手的营销方式与这家社交媒体巨头之前推出的任何产品都不同:它是一个规划空袭的便捷工具。
由于已投资数十亿美元开发机器学习技术,希望能够超越 OpenAI 和其他竞争对手,Meta 推出了其旗舰大语言模型,骆驼,作为一种方便的方法计划素食晚餐或与朋友一起度过周末。Llama 服务条款中的一项条款此前禁止军事用途,但 Meta 于 11 月 4 日宣布,它将加入其主要竞争对手的行列,涉足战争业务。“负责任地使用开源人工智能模型可以促进全球安全,并帮助美国在全球人工智能领导地位的竞争中确立地位,”Meta 在全球事务主管尼克·克莱格 (Nick Clegg) 的博客文章中宣称。
这些“负责任的用途”之一是与 Scale AI 的合作,Scale AI 是一家价值 140 亿美元的机器学习初创公司和蓬勃发展的国防承包商。
政策变更后,Scale 现在使用 Llama 3.0 为希望“将生成式人工智能的力量应用于其独特用例(例如规划军事或情报行动以及了解对手漏洞)”的政府用户提供聊天工具。根据新闻稿。
但有一个问题:专家告诉 The Intercept,这种名为“Defense Llama”的政府专用工具正在做广告,展示它对如何炸毁建筑物提供了糟糕的建议。Scale AI 为该广告辩护,告诉 The Intercept,其营销并非旨在准确代表其产品的功能。
Llama 3.0 是一种所谓的开源模型,这意味着用户可以免费下载、使用和更改它,这与 OpenAI 的产品不同。Scale AI 表示,它已经定制了 Meta 的技术来提供军事专业知识。
Scale AI 宣扬 Defense Llama 的准确性及其对规范、法律和法规的遵守: – Defense Llama 接受过大量数据集的训练,包括军事理论、国际人道主义法以及旨在与国防部 (DoD) 武装冲突指南以及国防部人工智能道德原则。这使得模型能够提供准确、有意义且相关的响应。
该工具不向公众开放,但 Scale AI 的网站提供了元增强准确性、意义和相关性的示例。该案例研究是武器工程,即为特定军事行动选择正确武器的过程。Defense Llama 主页上的一张图片描绘了一位假设的用户询问聊天机器人:“F-35B 可以使用哪些 JDAM 来摧毁钢筋混凝土建筑,同时最大限度地减少附带损害?”联合直接攻击弹药(JDAM),是一个硬件套件,可将非制导“哑”炸弹转换为“精确制导”武器使用 GPS 或激光来跟踪目标。
Defense Llama 依次提出了三种不同的制导炸弹单元弹药 (GBU),重量从 500 磅到 2,000 磅不等,具有聊天机器人特有的勇气,并将其中一种描述为“摧毁钢筋混凝土建筑物的绝佳选择。”
接受 The Intercept 采访的军事目标和弹药专家都表示,Defense Llama 所宣传的应对措施存在缺陷,甚至毫无用处。他们说,它不仅给出了糟糕的答案,而且还符合一个根本上糟糕的问题。虽然受过训练的人应该知道这样的问题是无意义和危险的,但大型语言模型(LLM)通常是为了用户友好和合规而构建的,即使它是生死攸关的问题。
“我可以向您保证,没有任何美国目标小组或作战单位使用这样的法学硕士来做出武器装备决策或减轻附带损害,”韦斯·J·布莱恩特(Wes J. Bryant),美国空军退休目标军官” 告诉 The Intercept,“如果有人提出这个想法,他们会立即被笑出房间。”
军需专家对国防骆驼的假设给予了全面的差评。布莱恩特告诉 The Intercept,法学硕士试图为目标推荐合适的武器,同时最大限度地减少平民死亡,但“完全失败了”。
“由于问题指定了 JDAM 和对建筑物的破坏,因此它消除了通常用于较低附带损害打击的弹药,”前美国陆军爆炸物处理技术人员特雷弗·鲍尔 (Trevor Ball) 告诉 The Intercept。——所有的答案都只是糟糕地提到了 JDAM(地堡破坏者),而且还有错误。例如,它所指的GBU-31和GBU-32弹头就不是(V)1。美国军火库中也没有 500 磅的穿甲弹。”
鲍尔补充说,如果聊天机器人只提供有关摧毁混凝土建筑的建议,而没有提供除该建筑由混凝土制成之外的任何信息,那么这将是“毫无价值的”。
N.R. 表示,Defense Llama 所宣传的产品“非常通用,几乎对所有用户来说都毫无用处”。Jenzen-Jones,军备研究服务部主任。他还对这个问题的前提表示怀疑。– 很难想象人类用户需要按措辞提出示例问题的许多场景。 –
在一份电子邮件声明中,Scale AI 发言人 Heather Horniak 告诉 The Intercept,营销形象并不是要真正代表 Defense Llama 的能力,而只是“表明法学硕士是为国防定制的”能 回答以军事为重点的问题。”霍尼亚克补充说,“声称假设网站示例的响应代表了实际来自已部署的、经过微调的法学硕士的说法,该法学硕士接受过针对最终用户的相关材料的培训,这是荒谬的. –
尽管 Scale AI 声称 Defense Llama 接受了军事知识“海量数据集”的训练,但 Jenzen-Jones 表示,人工智能的广告宣传是这样的: 回应的特点是“笨拙和不精确的术语”和事实错误,混淆和混淆了不同炸弹的不同方面。“如果有人问我这个确切的问题,我立刻就会发现我对弹药的选择或目标缺乏了解,”他说。为什么是 F-35?为什么是 JDAM?这栋建筑是什么?它在哪里?Jenzen-Jones 说,所有这些重要的东西都被 Scale AI 的例子剥夺了。
布莱恩特警告说,“没有什么法宝可以防止平民伤亡”,但他指出了营销形象中建议使用 2,000 磅重的 GBU-31 的建议,这种武器“被以色列广泛使用”加沙战役的头几个月,据我们所知,由于他们使用武器的方式造成了大量平民伤亡。”
当被问及国防部客户是否真的使用广告中所示的 Defense Llama 时,斯凯尔没有回答。在该工具发布的当天,Scale AI提供 DefenseScoop使用相同空袭场景的私人演示。该出版物指出,Defense Llama“提供了一份冗长的回复,其中还强调了一些值得考虑的因素。”在 The Intercept 请求发表评论后,该公司在宣传图片下添加了一个小标题:“仅用于演示目的。 –
梅塔拒绝发表评论。
虽然 Scale AI 的营销场景可能是假设的,但法学硕士的军事用途却并非如此。二月,DefenseScoop报道五角大楼的人工智能办公室选择了 Scale AI,以产生一种值得信赖的方法来测试和评估大型语言模型,该模型可以支持(并可能破坏)军事规划和决策。公司的法学硕士软件现已通过 Meta 在机器学习方面的大量投资得到增强,自 2020 年以来已与空军和陆军签订了合同。去年,规模人工智能宣布它的系统是“机密网络上第一个大型语言模型 (LLM)”,第十八空降军使用该模型进行“决策”。10 月,白宫发布了国家安全报告备忘录指挥国防部和情报界更加紧迫地采用人工智能工具。备忘录发布后不久,The Intercept报道美国非洲司令部已通过与微软签订的合同购买了 OpenAI 服务的访问权限。
与业界同行不同,Scale AI 从不回避国防承包。人工智能武器化的大力支持者、首席执行官亚历山大·王 (Alexandr Wang) 在 2023 年接受《华盛顿邮报》采访时,将自己描述为“对华鹰派”,并表示他希望 Scale 能够“成为一家帮助确保美国各国保持着这一领导地位。”它对军事工作的支持似乎吸引了投资者,这包括Peter Thiel 的创始人基金、Y Combinator、Nvidia、亚马逊和 Meta。“有了 Defense Llama,我们的军人现在可以更好地利用生成式人工智能来满足他们的特定任务需求,”王在产品公告中写道。
但接受 The Intercept 采访的弹药专家对 Defence Llama 到底是向谁推销空袭演示表示困惑,质疑为什么参与武器设计的人对其基本原理知之甚少,以至于他们需要首先咨询聊天机器人地方。“如果我们慷慨地假设这个例子是为了模拟一个不直接参与规划且没有弹药专业知识的分析师提出的问题,那么答案实际上要危险得多,”Jenzen-Jones 解释道。– 它强化了一个可能错误的假设(必须使用 JDAM),它未能澄清重要的选择标准,它提供了非专业用户不太可能质疑的不正确的技术数据,并且它对共享重要的上下文信息没有任何作用关于目标限制。
– 它提供了非专业用户不太可能质疑的不正确的技术数据。 –
科比同意了。“广告和假设的场景是相当不负责任的,”他解释道,“主要是因为美军减轻附带损害的方法不仅仅是使用弹药那么简单。”这是众多因素之一。”Bryant 表示,Scale AI 的示例场景暴露了一种兴趣,即“试图做出良好的宣传,并试图描述可能存在的事物的想法,同时对他们试图描绘的内容完全天真,并且对与实际目标相关的任何事情完全缺乏理解。”
转向法学硕士进行空袭规划也意味着回避典型的以人为本的流程和随之而来的责任。布莱恩特在空军期间帮助策划了针对伊斯兰国目标的空袭,他告诉 The Intercept,这一过程通常需要一个专家团队,他们最终会达成最终的目标决策。
乌得勒支大学法学院教授、自动化战争方法学者杰西卡·多尔西表示,咨询国防骆驼似乎完全规避了军事规划者应承担的表面法律义务。“这个例子所表明的还原论/简单化和近乎[业余]的方法是相当危险的,”她说。– 仅仅部署 GBU/JDAM 并不意味着平民伤害就会减少。毕竟这是一枚 500 到 2,000 磅重的炸弹。”