信息源
正文(机器翻译)
今天,我们宣布一项更新:GitHub 将如何利用数据提供更智能、更契合上下文的编码辅助。自 4 月 24 日起,除非用户主动选择退出,Copilot Free、Pro 和 Pro+ 用户的交互数据(具体包括输入内容、输出内容、代码片段以及相关上下文)将被用于训练和改进我们的 AI 模型。Copilot Business 和 Copilot Enterprise 用户不受本次更新影响。
不感兴趣?您可在设置中的“隐私”选项下选择退出。若您此前已关闭 GitHub 收集此类数据以用于产品改进的功能,您的偏好设置将被保留——您的选择会被持续尊重,除非您主动选择加入,否则您的数据不会被用于模型训练。
该做法符合业界通行实践,有助于提升所有用户的模型性能。通过参与,您将帮助我们的模型更深入地理解开发工作流程,提供更准确、更安全的代码模式建议,并增强其在问题进入生产环境前协助您识别潜在缺陷的能力。
真实世界的数据 = 更智能的模型
我们的初始模型基于公开可用数据与人工编写的代码样本混合构建而成。过去一年中,我们开始引入微软员工的交互数据,并观察到显著改进,例如多种编程语言下的采纳率明显提升。
从整合微软交互数据所取得的成效可见,使用真实世界交互数据进行训练,可进一步提升模型在更广泛应用场景下的性能。若您决定参与本计划,我们可能收集并使用的交互数据包括:
- 您接受或修改过的输出内容
- 发送给 GitHub Copilot 的输入内容,包括向模型展示的代码片段
- 光标当前位置周围的代码上下文
- 您撰写的注释与文档
- 文件名、仓库结构及导航模式
- 与 Copilot 功能的交互行为(如聊天、行内建议等)
- 您对建议内容的反馈(点赞/点踩评分)
本计划不会使用以下数据:
- 来自 Copilot Business、Copilot Enterprise 或企业自有仓库的交互数据
- 在 Copilot 设置中选择退出模型训练的用户的交互数据
- 您的问题(Issues)、讨论(Discussions)或处于静止状态(at rest)的私有仓库中的内容。我们特意使用“处于静止状态”这一表述,是因为当您正在使用 Copilot 时,它确实会处理私有仓库中的代码。这些交互数据是服务正常运行所必需的;除非您主动选择退出,否则它们也可能被用于模型训练。
本计划中所使用的数据可能会与 GitHub 关联公司共享,即属于我们企业集团的公司(包括 Microsoft)。该数据不会与第三方 AI 模型提供商或其他独立服务提供商共享。
我们坚信,AI 辅助开发的未来,取决于像您这样的开发者在真实场景中产生的交互数据。这正是我们采用微软交互数据开展模型训练的原因,同时我们也即将开始使用 GitHub 员工的交互数据。
如果您愿意通过提供自己的交互数据来帮助我们改进模型,衷心感谢!您的贡献对于构建服务于全体开发者的 AI 工具具有重要意义。若您不愿参与,也完全没问题——您仍可继续完整使用您熟悉且喜爱的所有 AI 功能。
让我们携手共建 AI 工具,加速您的开发流程,助您以前所未有的速度构建更优质、更安全的软件。
如有疑问,请访问我们的常见问题解答及相关讨论。