首頁 > 軟體

知識蒸餾聯邦學習的個性化技術綜述

2022-05-13 21:48:34

前言

題目: Survey of Personalization Techniques for FederatedLearning

會議: 2020 Fourth World Conference on Smart Trends in Systems, Security and Sustainability (WorldS4)

論文地址:Survey of Personalization Techniques for FederatedLearning

前面講到,使用者端由於本地資料不足,無法通過自己的資料訓練得到一個較好的模型,因此使用者端需要參與聯邦學習來獲得一個全域性共用模型。但由於各個使用者端間資料的非獨立同分布,全域性模型在某些使用者端上表現可能並不好,並且如果使用者端自己擁有足夠資料,他們是否還有必要參與聯邦學習呢?

在這種情況下,個性化聯邦學習應運而生。所謂個性化,是指對全域性共用模型進行改進,改進後的模型相比於全域性模型和本地模型,可能更適合使用者端。

本文主要總結了七種個性化技術:新增使用者上下文、遷移學習、多工學習、元學習、知識蒸餾、基礎+個性化層、全域性模型和本地模型混合。其中有一些技術後期會有專門的論文解讀來對其進行介紹。

摘要

聯邦學習通常為所有使用者端生成一個全域性共用模型,但由於資料在裝置間的非IID分佈,統計上的異質性經常導致這樣的情況:對於一些客戶來說,僅根據其私有資料訓練的本地模型比全域性共用模型表現更好。目前已經提出了一些技術來個性化全域性模型,以便更好地為個人客戶工作,本文調查了最近關於這一主題的研究。

I. 引言

許多資料集本質上是分散的,在聯邦學習中,這些資料分佈在各個使用者端。傳統的機器學習將這些使用者端的資料樣本聚集到一箇中央儲存庫中,並在此基礎上訓練機器學習模型。將資料從本地裝置轉移到中央儲存庫帶來了兩個關鍵挑戰。首先,它損害了資料的隱私性和安全性。其次,它增加了通訊開銷。作為一種解決方案,聯邦學習使多個使用者(即使用者端)能夠在他們的集體資料上共同作業地訓練出一個共用的全域性模型,而無需將資料從本地裝置中移動。

使用者端參與聯邦學習的主要動機是獲得更好的模型。使用者端如果沒有足夠的私人資料來開發準確的本地模型,就可以從聯邦學習的模型中獲益。然而,對於有足夠私人資料來訓練準確的本地模型的客戶來說,參與聯邦學習是否有好處是有爭議的。對於許多應用程式來說,跨使用者端的資料分佈是非IID的,這種統計上的異質性使得很難訓練出適用於所有客戶的全域性共用模型。

本文的目的是調查最近關於在聯邦學習環境中為客戶建立個性化模型的研究,這些模型預期比全域性共用模型或本地個體模型表現更好。

II. 個性化需求

Wu等人總結了聯邦學習系統在個性化方面面臨的三個挑戰:

儲存、計算和通訊能力方面的裝置異質性。資料非IID分佈導致的資料異質性。模型異質性:不同的客戶需要針對其環境客製化模型的情況。

為了應對資料的統計異質性和非IID分佈所帶來的挑戰,需要對全域性模型進行個性化處理,大多數個性化技術通常包含兩個離散的步驟:

以共同作業的方式建立一個全域性模型。使用使用者端的私有資料來個性化全域性模型。

為了使聯邦學習個性化在實踐中有用,以下三個目標必須同時解決,而不是獨立解決:

開發改進的個性化模型,使大多數客戶受益。開發一種準確的全域性模式,使那些私人資料有限的客戶受益。在少量訓練輪次內實現模型快速收斂。

III. 方法

本節介紹為使用者端調整全域性共用模型的方法。

A. 新增使用者上下文

如果客戶的上下文和個人資訊被適當地特徵化並納入資料集,共用的全域性模型也可以生成高度個性化的預測。然而,大多數公共資料集並不包含上下文特徵,開發有效整合上下文的技術仍然是一個重要的開放問題。

作為單個全域性模型和純本地模型之間的一種中間方法,Masour等人提出了使用者聚類的建議,將類似的使用者端分組在一起,併為每個組訓練一個單獨的模型。

B. 遷移學習

遷移學習使深度學習模型能夠利用解決一個問題時獲得的知識來解決另一個相關問題。

在一些論文中提供了一個具有泛化保證的學習理論框架:遷移學習利用經過訓練的全域性模型的引數對區域性資料進行初始化訓練,從而利用全域性模型提取的知識,而不是從頭學習。為了避免災難性遺忘的問題,必須注意不要在本地資料上對模型進行過長時間的再訓練。我們可以採用一種變體技術凍結全域性模型的基礎層,並僅在區域性資料上重新訓練最頂層。

C. 多工學習

在多工學習中,同時解決多個相關任務,使得模型可以通過聯邦學習來挖掘任務之間的共性和差異。Smith等人的研究表明,多工學習是建立個性化聯邦模型的自然選擇,他們在聯邦設定中開發了用於多工學習的MOCHA演演算法,以解決與通訊、掉隊和容錯相關的挑戰。在聯邦設定中使用多工學習的一個缺點是,由於它為每個任務生成一個模型,因此所有使用者端都必須參與每一輪。

D. 元學習

元學習中需要對多個學習任務進行訓練,以生成高適應性的模型,這些模型可以通過少量的訓練範例進一步學習解決新任務。Finn提出了一種模型無關的元學習(MAML)演演算法,該演演算法與使用梯度下降訓練的任何模型都相容。MAML構建一個通常適用於多個任務的內部表示,因此為新任務微調頂層可以產生良好的結果。

MAML分兩個階段進行:元訓練和元測試。元訓練在多個任務上構建全域性模型,而元測試則針對不同的任務分別調整全域性模型。如果我們將聯邦學習過程視為元訓練,將個性化過程視為元測試,那麼FedAVG就與一種流行的MAML演演算法Reptile非常相似。

E. 知識蒸餾

一些研究證明,可以將一個模型集合的知識壓縮成一個更容易部署的模型。知識蒸餾通過讓學生模仿教師,將一個大型教師網路中的知識提取到一個較小的學生網路中。在個性化過程中,過度擬合是一個重要的挑戰,特別是對於本地資料集較小的客戶。鑑於此,Yu提出將全域性共用模型作為教師,將個性化模型作為學生,這樣就可以減輕個性化過程中過擬合的影響。Li等人提出了FedMD,這是一個基於知識蒸餾和遷移學習的聯邦學習框架,允許客戶使用本地私有資料集和全域性公共資料集獨立設計自己的網路。

F. 基礎+個性化層

為了緩解各個使用者端資料分佈差異的影響,一些人提出了FedPer:一種神經網路體系結構,其中基礎層通過FedAvg進行集中訓練,而頂層(也稱為個性化層)通過梯度下降的變體進行區域性訓練。

FedPer與遷移學習的不同:

在遷移學習中,所有層首先在全域性資料上訓練,然後在區域性資料上重新訓練所有或部分層。FedPer在全域性資料上訓練基礎層,在區域性資料上訓練個性化層。

G. 全域性模型和本地模型混合

為了尋求全域性模型和本地模型間的權衡,每個使用者端學習到的應該不是單一的全域性模型,而是全域性模型和它自己的本地模型的混合。為了解決這一問題,Hanzely提出了一種新的梯度下降法——無環區域性梯度下降法(LLGD)。LLGD只採取步驟求平均,而不是執行完全平均。

IV. 總結

聯邦學習中,當本地資料集很小且資料分佈為IID時,全域性模型通常優於本地模型,並且大多數使用者端都能從參與聯邦學習過程中受益。但是,當用戶端有足夠多的私有資料集且資料分佈為非IID時,本地模型通常比共用的全域性模型表現出更好的效能,那麼使用者端就沒有參與聯邦學習的動機。

鑑於此,我們有必要對使用者端建立個性化模型,這些模型預期比全域性共用模型或本地個體模型表現更好。

以上就是知識蒸餾聯邦學習的個性化技術綜述的詳細內容,更多關於聯邦學習的資料請關注it145.com其它相關文章!


IT145.com E-mail:sddin#qq.com