首頁 > 科技

GitHub 被 "GitHub Copilot" 倒逼成為開源項目?

2021-08-05 14:23:01

出品|開源中國

文|局長

GitHub 在上週推出了一個名為"GitHub Copilot"的工具,此工具使用了機器學習技術來提供程式碼建議/自動補全,並因此引發了不小的爭議。原因是許多開發者認為,GitHub Copilot 宣稱的基於公開程式碼訓練其實是在未遵循開源許可證的情況下,肆意「抄襲」開原始碼。

個別比較激進的開發者為了抗議 GitHub 未經授權和許可便使用受版權保護的原始碼作為 GitHub Copilot 的訓練資料,宣佈棄用 GitHub

在眾多的質疑和批評聲中,被討論較多的一個問題是:如果 GitHub Copilot 的訓練模型使用了遵循 GPL 的軟體進行訓練,那麼會發生什麼?

題為"Is GitHub a derivative work of GPL'd software?(GitHub 是 GPL 軟體的衍生作品嗎?)"的部落格文章描述了對這個問題的一些想法。下面是對這篇文章的一些整理。

GPL 的一系列許可證被認為是"Copyleft"許可證,其特點是具備「傳染性」。特別是,Copyleft 作品的常見特徵是要求「衍生作品」使用與原始 Copyleft 許可相同的條款釋出其新作品。

這就引申出了一個有趣的法律問題:機器學習系統生成的作品,甚至是機器學習系統本身,是否屬於「投喂」給訓練模型的資料的衍生作品?如果答案為「否」,是不是意味著可以把 GitHub Copilot 作為一種手段,藉此將自己想使用的 GPL 程式碼進行「清洗」,從而達到無需遵循其許可協議的目的。

但是,如果答案為「是」呢?也就是說機器學習模型生成的作品屬於輸入資料的衍生作品,這樣一來,GitHub 本身也就可以被認為是 Copyleft 軟體的衍生作品。因為 GitHub 的部落格文章在說明"Copilot"的訓練資料時,曾發表如下的表述

「在 GitHub Copilot 的早期開發過程中,作為內部試用的一部分,近 300 名員工在日常工作中使用了它。」

如果 300 名 GitHub 員工將 Copilot 用作其日常工作流的一部分,他們很可能已將 Copilot 生成的程式碼整合到 GitHub 的幾乎所有軟體資產中,後者為使用者提供了 Web 服務。如果訓練模型是在遵循 AGPL 的軟體上進行訓練,並且 Copilot 使用該模型創造了一個衍生作品。那麼,所有 GitHub 使用者有權根據 AGPL 的條款獲得 GitHub 的原始碼副本——亦即倒逼 GitHub 被迫成為了一個開源項目。

事實上,這裡面還涉及到了機器學習的倫理問題,被納入機器學習訓練資料的內容的所有者應該有什麼權利?

舉個例子,如果我想發表一個不希望被納入訓練模型的作品,或者說如果自己的作品被用於訓練模型,但能讓公眾有權訪問此模型,是否可以實現?是否應該允許我這樣做?如果被使用的作品是我的個人資訊,並且在我不知情或未經同意的情況下被收集,怎麼處理?如果這些被收集的資訊被服務商濫用,甚至是用在一些對自己不利的場景,比如在做貸款決定時,怎麼辦?如果它被用來做違背整個社會利益的事怎麼辦?


IT145.com E-mail:sddin#qq.com