26年 4 月 24 日起github copilot开始使用用户数据训练模型

資訊來源

正文(機器翻譯)

今天,我們宣布一項關於 GitHub 如何運用資料以提供更智慧、更具情境感知能力之程式碼輔助功能的更新。自 4 月 24 日起,除非使用者主動選擇退出,否則 Copilot Free、Pro 及 Pro+ 使用者的互動資料(特別是輸入內容、輸出內容、程式碼片段以及相關情境資訊)將用於訓練與改善我們的 AI 模型。Copilot Business 和 Copilot Enterprise 使用者不受此項更新影響。

不感興趣?請在「隱私權」設定中,透過設定取消參與。若您先前已關閉允許 GitHub 收集此類資料以進行產品改進的設定,則您的偏好設定將予以保留——您的選擇會被保存下來,且除非您主動選擇加入,否則您的資料不會用於模型訓練。

此做法符合業界既有的慣例,並將提升所有使用者的模型效能。透過參與,您將協助我們的模型更深入理解開發工作流程、提供更精準且更安全的程式碼模式建議,並增強其在錯誤進入正式環境前即協助您發現潛在問題的能力。

真實世界的資料 = 更智慧的模型

我們最初的模型係結合公開可取得的資料與人工撰寫的程式碼範例所建構而成。過去一年間,我們開始納入 Microsoft 員工的互動資料,並觀察到顯著的改善成果,例如多種程式語言的接受率均有所提升。

整合 Microsoft 互動資料後所見的改善成效顯示:若以真實世界互動資料進行模型訓練,我們將能進一步提升模型在更多元使用情境下的表現。若您決定參與本計畫,我們可能收集並運用的互動資料包括:

  • 您接受或修改過的輸出內容
  • 傳送至 GitHub Copilot 的輸入內容,包括呈現給模型的程式碼片段
  • 您游標所在位置周圍的程式碼情境資訊
  • 您撰寫的註解與文件說明
  • 檔案名稱、儲存庫結構與導覽模式
  • 與 Copilot 功能的互動行為(例如聊天、內嵌建議等)
  • 您針對建議內容所提供的回饋(例如按讚/倒讚評分)

本計畫不會使用以下資料:

  • 來自 Copilot Business、Copilot Enterprise 或企業自有儲存庫的互動資料
  • 在 Copilot 設定中選擇退出模型訓練之使用者的互動資料
  • 您於問題(issues)、討論串(discussions)或閒置狀態(at rest)下私有儲存庫中的內容。我們特意使用「閒置狀態」一詞,因為當您在實際使用 Copilot 時,Copilot 仍會處理私有儲存庫中的程式碼。這類互動資料為執行服務所必需;除非您選擇退出,否則這些資料亦可能用於模型訓練。

本計畫所使用的資料可能會與 GitHub 關係企業(即同屬 Microsoft 集團旗下的公司)共享。但此類資料不會與第三方 AI 模型供應商或其他獨立服務提供者共享。

我們相信,AI 輔助開發的未來,端賴像您這樣的開發人員所提供之真實世界互動資料。正因如此,我們才採用 Microsoft 的互動資料進行模型訓練,同時也將開始採用 GitHub 員工的互動資料。

若您選擇以自身互動資料協助我們改善模型,謹此致謝。您的貢獻對打造服務於整體開發者社群之 AI 工具具有重大意義。若您傾向不參與,亦無妨——您仍可完全享有您熟悉且喜愛的各項 AI 功能。

我們攜手合作,持續打造能加速您工作流程、並賦予您更快建構更優質、更安全軟體能力的 AI 技術。

若您有任何疑問,歡迎參閱我們的常見問題集與相關討論