GitHub：毕竟我们要对您的数据进行训练

微软的 GitHub 下个月计划开始使用客户交互数据（特别是输入、输出、代码片段和相关上下文）来训练其人工智能模型。

自 4 月 24 日起，代码锁修改后的政策适用于 Copilot Free、Pro 和 Pro+ 客户。由于合同条款，Copilot Business 和 Copilot Enterprise 用户可豁免。使用 Copilot 的学生和教师也将幸免。

受影响的人可以选择根据“既定的行业惯例”选择退出，即根据美国规范，而不是通常要求选择加入的欧洲规范。要选择退出，GitHub 用户应访问/设置/副驾驶/功能并禁用“隐私”标题下的“允许 GitHub 使用我的数据进行 AI 模型训练”。

GitHub 首席产品官 Mario Rodriguez 宁愿你不这样做。

“通过参与，您将帮助我们的模型更好地理解开发工作流程，提供更准确和安全的代码模式建议，并提高它们在潜在错误进入生产之前帮助您捕获它们的能力，”他在一份报告中写道博客文章。

为了原谅其贪婪的行为，GitHub 在其常见问题解答中指出：人择,捷脑公司，以及公司母公司微软执行类似的选择退出数据使用政策。

罗德里格斯表示，这一变化的理由是交互数据使公司人工智能模型表现更好。他声称，添加微软员工的交互数据带来了有意义的改进，例如人工智能模型建议的接受率提高。

GitHub 想要的数据包括：

政策转变确实在一定程度上改变了 GitHub 的含义私人存储库，理论上“只有您、您明确与之共享访问权限的人以及（对于组织存储库）某些组织成员才能访问。”这些可能更准确地描述为“GitHub 私有^*存储库”，星号表示 GitHub 对“私有”一词定义的限制。

正如常见问题解答所解释的那样：“如果 Copilot 用户的设置设置为对其交互数据启用模型训练，则可以收集私有存储库中的代码片段并将其用于模型训练，同时用户在该存储库中工作时积极与 Copilot 互动。”

GitHub 社区最近的玩笑并没有体现出对该计划的太多热情。仅从表情符号投票来判断，用户投了 59 票反对票，只有三艘火箭飞船，我们知道这表明了某种程度的兴奋。

但其中39 条帖子在撰写本文时评论这一变化时，除了 GitHub 开发者关系副总裁 Martin Woodward 之外，没有人真正支持这一想法。

如果 GitHub 用户认识到 OpenAI 的做法，用户的愤怒可能会有所缓解法典—在 GitHub Copilot 中使用â 是“根据 GitHub 公开可用的代码进行微调的 GPT 语言模型”。可以这么说，这些措辞表明，充满数据的人工智能马已经走出了谷仓。

此时关上大门并不会改变这样一个事实：人工智能行业是建立在收集数据的基础上，而不需要强烈的热情同意指标。®

OC