科技 · 2026-06-22 · 阅读 3

“中国 AI 模型潜伏特工”这个说法很吓人，但先看测试怎么做

据 Fox News 报道，一份 Booz Allen 相关报告称，中国 AI 模型在被提示为服务美国政府或美国用户时，生成的代码漏洞更多，引发所谓“潜伏特工”担忧。报道提到，Qwen、MiniMax、DeepSeek 等模型在测试中表现不同。

作者

相关编辑

这类新闻很容易传播，因为它同时踩中了 AI、安全、中国、政府系统几个高敏感词。但越是这样，越不能直接照搬标题。

模型代码安全评估示意图

先把来源拆开。Fox News 是报道方，Booz Allen 是报告相关方，美国政府和议员是潜在政策使用者，中国模型是被评估对象。这里面每一方都有立场。安全叙事很容易变成产业游说，尤其当结论可能支持“禁止使用某国模型”这种政策建议时。

读者看到“潜伏特工”这个词，最容易误会成模型里有明确后门。可从报道摘要看，问题更像是：模型在特定提示情境下生成了质量更差、更容易有漏洞的代码。低质量代码当然是安全风险，但它和“模型内置间谍行为”不是一回事。

关键问题不是“中国模型有没有风险”这么粗糙，而是测试方法是否可靠：提示词怎么写？样本量多大？对照组是什么？漏洞怎么定义？是否测试了美国模型、欧洲模型和开源模型？是否排除了训练数据、代码风格、模型大小带来的差异？

本站编辑林岚提醒，代码生成安全本来就是所有模型的问题。开发者不应该把任何模型生成的代码直接进生产环境。真正有效的做法是本地沙箱、静态分析、依赖扫描、测试覆盖和人工 review。模型来自哪里是风险因素之一，但不是唯一因素。

对 OC 读者来说，这条新闻值得选，不是因为标题吓人，而是因为它提醒我们：AI 编码工具进入企业和政府场景后，安全评估不能停留在“哪个模型更聪明”。要评估模型在不同提示、不同上下文、不同目标用户下的行为是否稳定。

这里也有一个更现实的问题：中国模型通常更便宜，也越来越多出现在创业公司和开发者工具链里。便宜和好用会推动采用，但一旦进入企业供应链，安全评估就不能只看价格和跑分。尤其是自动生成代码、基础设施脚本、权限配置这种场景，任何模型输出都应该进入审计流水线。

这条新闻的合理写法应该是：有报告提出中国模型生成漏洞代码的风险，但结论需要看测试方法和对照实验。它不是直接证明“模型有后门”，也不能推出所有中国 AI 工具都不可用。

短期看，企业应该把这类报告当作风险提示。长期看，所有代码生成模型都需要可复现的安全评测基准，而不是只在地缘政治新闻里被讨论。

OC