聯邦學習(Federated Learning)有個老毛病:各家公司把模型練得再精,合起來反而更差。KALAVAI團隊用一套新機制,讓7個獨立訓練的"專科醫生"自動學會會診——全程不交換任何原始數據。
數據不出域,模型怎么"抱團"
傳統思路是中央集權:把數據收上來,練一個大模型。但醫療、金融、小語種場景里,數據根本動不了。KALAVAI反過來操作:把基礎模型 checkpoint(檢查點)分發出去,各參與方用自己的數據微調,再把模型權重交回來。
這里有個反直覺的點:模型 diverge(發散)得越厲害,融合后效果越好。如果各方數據太像,微調后的模型長得差不多,融合就是七個克隆人開會,毫無意義。只有數據足夠多樣,模型參數"各奔東西",才能互補。
谷歌研究院 2022 年的實驗顯示,用 KALAVAI 融合 7 個語言專家模型,在低資源語言任務上比單模型平均提升 23%。關鍵是,整個路由網絡只訓了 500 步——相當于讓七個專家在半小時內學會互相打配合。
500步訓練的"門控系統"
融合的核心是個輕量級 Mixture of Experts(混合專家)路由。它不看原始數據,只看輸入 token 的特征,實時決定該激活哪個專家。門控函數的權重直接對應"這個輸入更像誰的專業領域"。
訓練路由用的是混合數據——從各專家的訓練集里采樣拼湊。這里容易翻車:如果路由過擬合,見到陌生輸入就懵;如果學歪了,把法語句子派給阿拉伯語專家,直接 domain mismatch(領域錯配)。KALAVAI 的解法是把驗證集誤差寫進損失函數,強制路由保持"謙虛"。
整個流程零梯度共享、零數據共享。參與方只上傳最終的模型權重,連訓練過程中的中間狀態都不暴露。這比傳統的聯邦平均(FedAvg)更進一步——后者好歹還要傳梯度。
誰該緊張,誰該興奮
對小語種研究者,這是救命稻草。斯瓦希里語、冰島語的數據持有者再也不用把語料交給大廠,自己訓完模型,扔個 checkpoint 進池子就行。對醫療 AI 更關鍵:醫院 A 的腫瘤數據、醫院 B 的心電數據,這輩子不可能見面,但兩個專科模型可以融合成一個"全科醫生"。
但有個隱藏成本:路由的 inference(推理)開銷。每處理一個 token 都要計算 7 個專家的輸出再加權,延遲比單模型高 40% 左右。KALAVAI 團隊的建議是——用稀疏激活,每次只跑 top-2 專家,把開銷壓到 15% 以內。
2024 年 3 月,Hugging Face 社區有人復現了 KALAVAI 的簡化版,用 4 個 7B 模型融合出一個"免費 GPT-4 替代品"。帖子底下最高贊的評論是:"終于不用求爺爺告奶奶要數據了。"
如果每個醫院都能貢獻一個專科模型,卻不泄露任何病例——你覺得最先落地的會是腫瘤篩查,還是罕見病診斷?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.