OC

Knowledge OS
鹦鹉螺口语
GitHub:毕竟我们要对您的数据进行训练
2026-03-26 00:13:00 · 英文原文

GitHub:毕竟我们要对您的数据进行训练

微软的 GitHub 下个月计划开始使用客户交互数据(特别是输入、输出、代码片段和相关上下文)来训练其人工智能模型。

自 4 月 24 日起,代码锁修改后的政策适用于 Copilot Free、Pro 和 Pro+ 客户。由于合同条款,Copilot Business 和 Copilot Enterprise 用户可豁免。使用 Copilot 的学生和教师也将幸免。

受影响的人可以选择根据“既定的行业惯例”选择退出,即根据美国规范,而不是通常要求选择加入的欧洲规范。要选择退出,GitHub 用户应访问/设置/副驾驶/功能并禁用“隐私”标题下的“允许 GitHub 使用我的数据进行 AI 模型训练”。

GitHub 首席产品官 Mario Rodriguez 宁愿你不这样做。

“通过参与,您将帮助我们的模型更好地理解开发工作流程,提供更准确和安全的代码模式建议,并提高它们在潜在错误进入生产之前帮助您捕获它们的能力,”他在一份报告中写道博客文章

为了原谅其贪婪的行为,GitHub 在其常见问题解答中指出:人择,捷脑公司,以及公司母公司微软执行类似的选择退出数据使用政策。

罗德里格斯表示,这一变化的理由是交互数据使公司人工智能模型表现更好。他声称,添加微软员工的交互数据带来了有意义的改进,例如人工智能模型建议的接受率提高。

GitHub 想要的数据包括:

  • 已接受或修改的模型输出;
  • 模型输入,包括显示的代码片段;
  • 光标位置周围的代码上下文;
  • 您撰写的评论和文档;
  • 文件名和存储库结构;
  • 与副驾驶功能的交互(例如聊天);和
  • 反馈(例如好评/差评)。

政策转变确实在一定程度上改变了 GitHub 的含义私人存储库,理论上“只有您、您明确与之共享访问权限的人以及(对于组织存储库)某些组织成员才能访问。”这些可能更准确地描述为“GitHub 私有*存储库”,星号表示 GitHub 对“私有”一词定义的限制。

正如常见问题解答所解释的那样:“如果 Copilot 用户的设置设置为对其交互数据启用模型训练,则可以收集私有存储库中的代码片段并将其用于模型训练,同时用户在该存储库中工作时积极与 Copilot 互动。”

GitHub 社区最近的玩笑并没有体现出对该计划的太多热情。仅从表情符号投票来判断,用户投了 59 票反对票,只有三艘火箭飞船,我们知道这表明了某种程度的兴奋。

但其中39 条帖子在撰写本文时评论这一变化时,除了 GitHub 开发者关系副总裁 Martin Woodward 之外,没有人真正支持这一想法。

如果 GitHub 用户认识到 OpenAI 的做法,用户的愤怒可能会有所缓解法典在 GitHub Copilot 中使用â 是“根据 GitHub 公开可用的代码进行微调的 GPT 语言模型”。可以这么说,这些措辞表明,充满数据的人工智能马已经走出了谷仓。

此时关上大门并不会改变这样一个事实:人工智能行业是建立在收集数据的基础上,而不需要强烈的热情同意指标。®

关于《GitHub:毕竟我们要对您的数据进行训练》的评论

暂无评论

发表评论

摘要

GitHub 计划下个月开始使用客户交互数据来训练其 AI 模型,这将影响 Copilot Free、Pro 和 Pro+ 客户,但商业和企业用户除外。数据包括输入、输出、代码片段和上下文。用户可以根据美国规范选择退出,尽管 GitHub 认为这种做法可以提高模型性能和准确性。社区反应基本上是负面的,许多用户对隐私问题表示不满。