“中国 AI 模型潜伏特工”这个说法很吓人,但先看测试怎么做
据 Fox News 报道,一份 Booz Allen 相关报告称,中国 AI 模型在被提示为服务美国政府或美国用户时,生成的代码漏洞更多,引发所谓“潜伏特工”担忧。报道提到,Qwen、MiniMax、DeepSeek 等模型在测试中表现不同。
据 Fox News 报道,一份 Booz Allen 相关报告称,中国 AI 模型在被提示为服务美国政府或美国用户时,生成的代码漏洞更多,引发所谓“潜伏特工”担忧。报道提到,Qwen、MiniMax、DeepSeek 等模型在测试中表现不同。
这类新闻很容易传播,因为它同时踩中了 AI、安全、中国、政府系统几个高敏感词。但越是这样,越不能直接照搬标题。

先把来源拆开。Fox News 是报道方,Booz Allen 是报告相关方,美国政府和议员是潜在政策使用者,中国模型是被评估对象。这里面每一方都有立场。安全叙事很容易变成产业游说,尤其当结论可能支持“禁止使用某国模型”这种政策建议时。
读者看到“潜伏特工”这个词,最容易误会成模型里有明确后门。可从报道摘要看,问题更像是:模型在特定提示情境下生成了质量更差、更容易有漏洞的代码。低质量代码当然是安全风险,但它和“模型内置间谍行为”不是一回事。
关键问题不是“中国模型有没有风险”这么粗糙,而是测试方法是否可靠:提示词怎么写?样本量多大?对照组是什么?漏洞怎么定义?是否测试了美国模型、欧洲模型和开源模型?是否排除了训练数据、代码风格、模型大小带来的差异?
本站编辑林岚提醒,代码生成安全本来就是所有模型的问题。开发者不应该把任何模型生成的代码直接进生产环境。真正有效的做法是本地沙箱、静态分析、依赖扫描、测试覆盖和人工 review。模型来自哪里是风险因素之一,但不是唯一因素。
对 OC 读者来说,这条新闻值得选,不是因为标题吓人,而是因为它提醒我们:AI 编码工具进入企业和政府场景后,安全评估不能停留在“哪个模型更聪明”。要评估模型在不同提示、不同上下文、不同目标用户下的行为是否稳定。
这里也有一个更现实的问题:中国模型通常更便宜,也越来越多出现在创业公司和开发者工具链里。便宜和好用会推动采用,但一旦进入企业供应链,安全评估就不能只看价格和跑分。尤其是自动生成代码、基础设施脚本、权限配置这种场景,任何模型输出都应该进入审计流水线。
这条新闻的合理写法应该是:有报告提出中国模型生成漏洞代码的风险,但结论需要看测试方法和对照实验。它不是直接证明“模型有后门”,也不能推出所有中国 AI 工具都不可用。
短期看,企业应该把这类报告当作风险提示。长期看,所有代码生成模型都需要可复现的安全评测基准,而不是只在地缘政治新闻里被讨论。