![]()
本文作者包括來自杜克大學的高智輝、陳廷鈞教授和 MIT 的 Dirk Englund 教授團隊。高智輝,杜克大學電子與計算機工程系博士生。本科畢業于復旦大學電子工程系。研究興趣于下一代網絡系統,包括信息物理系統、機器學習加速等。
![]()
- 論文標題:Disaggregated machine learning via in-physics computing at radio frequency
- 論文鏈接:https://www.science.org/doi/10.1126/sciadv.adz0817
- 開源代碼:https://github.com/functions-lab/WISE
模型-數據的分解式計算
機器學習部署在邊端設備的時候,模型總是存儲在云端服務器上(5G 基站),而模型輸入輸出總是在邊端設備上(例如用照相機拍攝照片然后識別其中的目標)。在這種場景下,傳統有以下兩種方案完成機器學習的推理:
- 方案一:上傳模型輸入到云端。
這種方案需要每個用戶分別把自己的模型輸入上傳到云端,然后在云端完成推理,最后把模型輸出下載到各個用戶。
這種方案需要消耗大量的帶寬資源,尤其是在大用戶規模的情形下;其次,這種上傳用戶模型輸出的方案會涉及用戶隱私泄露的問題。
- 方案二:廣播模型下載到邊端。
這種方案要求是云端服務器把模型廣播給所有的用戶,每個用戶各自存儲模型,并且在邊緣端進行計算。
這種方案極大挑戰了邊緣用戶的算力,并且在模型存儲的過程中還有邊端存儲讀寫的開銷。
在我們的工作里,我們提出了第三種分離式計算(disaggregated computing)的方案:廣播模型并在射頻上完成計算。
![]()
在這種方案里,模型存儲在云端并且在射頻上廣播,用戶也把模型輸入調制到射頻上。所有的計算都在邊緣端的混頻器(frequency mixer)的模擬計算中完成,混頻器輸出直接就是模型的輸出。
這種方案成功解決了上述兩種方案的問題:模型不需要存儲在邊緣端,所以沒有存儲讀寫的開銷;混頻器是所有帶網絡連接功能的邊緣設備的必備元件,并且是無源的,所以功耗極低。
![]()
利用混頻器進行矩陣向量乘
混頻器的本質是一個時域上乘法器。它把收到的射頻信號和本地震蕩器產生的信號相乘,輸出就是解調后的基帶信號。在我們的工作中,我們把射頻信號換成了廣播的模型,本地震蕩器的信號換成了模型輸入,于是混頻器的輸出就成了模型的輸出。
在數字信號處理中,時域上的乘法就是頻域上的卷積。當我們把模型推理過程抽象成矩陣向量乘 y = Wx 的時候,我們就可以用卷積來完成這個矩陣向量乘。
另外,我們還需要提前在云端測量無線信道 H。在發送的時候就預調制一個無線信道的逆變成 V,這樣通過無線信道后在邊緣端接收到的信號就變成了我們希望得到的 W。
![]()
在測試平臺上的實驗
我們實現了一臺云端服務器廣播給三個邊緣設備的機器學習推理。我們在軟件定義測試平臺(software-defined radio testbed)上進行實驗驗證,其中我們使用 USRP X310 作為主要的無線收發機,外接 ZEM-4300+ 作為主要的混頻器。
我們使用了 915 MHz 的頻率和 25 MHz 的帶寬來無線廣播模型。
我們先考慮了通用復數域的 4096 點的向量內積進行計算精度的測試,實驗上得到的最高計算精度能達到 5.5 bit,對于大部分機器學習推理已經足夠。
![]()
計算能耗分析
考慮一個輸入維度是 N,輸出維度是 M 的矩陣向量乘,我們的模擬計算架構能耗來源于三個部分:
- 數模轉換器(DAC):用于產生模型輸入的信號 x,復雜度是 O(kMN)。這里的 k 取決于整個系統的能量效率(例如混頻器的插入損失、接收器的噪聲系數等),且遠小于 1。
- 模數轉換器(ADC):用于采樣模型輸出的信號 y,復雜度是 O(N)。
- 解碼器:使用 FFT 把輸出的信號 y轉到頻域,并且提取出最終的模型輸出 y,復雜度是 O(N)。
綜上所述,整個系統的能量消耗是 O(M + kMN) 對整個矩陣向量乘;均攤到一個乘累加(MAC)上就是 O(1/N + k)。也就是說,計算的矩陣向量乘規模越大,單個乘累加的能耗越低。
在我們的實驗平臺上,我們實現了最高到 32768 點的向量內積,能耗可以達到飛焦級,比傳統的數字計算(皮焦級)低了 2~3 個數量級。
![]()
機器學習推理
在 MNIST 數據集上,我們訓練了一個單全連接層的機器學習模型(等價于邏輯回歸),我們展示了一個視頻樣例。
此外,我們也考慮了三個全連接層的模型,傳統的數字計算可以達到 98.1% 的精確度。在用我們的框架時,精確度可以達到 95.7%,但是能耗僅需 6.03 fJ/MAC,也就是一次推理共計6.42 fJ。
我們也考慮了其他機器學習任務,例如 AudioMNIST 數據集上的語音識別,精確度達到了 97.2%,而能耗下降到了 2.8 fJ/MAC。
論文總結
我們的核心創新包括:
- 模型無線廣播,多終端同時推理
神經網絡模型被編碼為無線射頻信號,由中心無線節點統一廣播,覆蓋范圍內的任意數量邊緣設備都可同步完成推理,實現真正的「計算即廣播」的多終端 AI 推理范式。
- 無需改硬件,把「算力」直接搬進無線射頻
利用邊緣設備中本就存在的射頻頻率混頻器,該方法無需任何專用 AI 芯片或電路改動,就能在射頻信號域完成乘加運算,實現真正「零額外能耗」的模擬計算。
- 單個射頻器件即可支持規模化維度的神經網絡計算
通過頻域編碼,一個頻率混頻器即可完成高達 32,768 維的內積運算,突破了傳統模擬計算在規模上的限制,能夠支撐現代深度學習模型的推理需求。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.