![]()
本文由半導體產業縱橫(ID:ICVIEWS)綜合
硅光子學、集成光電子學的進步,以及模擬計算與人工智能概率算法的融合,使之成為光計算領域的一個重要轉折點。
光計算是人工智能領域的“新摩爾定律”。它突破了電子技術的規模限制,在矩陣運算方面,能夠提供更高的速度、更低的功耗以及與問題規模成正比的效率提升。
半個多世紀以來,摩爾定律一直引領著半導體行業的發展,決定著計算速度、效率和成本的提升方向。通過大約每兩年將晶體管密度翻一番,工程師們在降低成本的同時,實現了處理性能的指數級增長,從而推動了從移動設備到互聯網興起等各個領域的發展。但人工智能已經打破了這一規律。
我們所知的規模化時代的終結
訓練和部署大型神經網絡所需的計算資源增長速度遠超晶體管技術的進步速度。最先進的模型擁有數千億個參數,需要數千個GPU以及兆瓦甚至吉瓦級的電力。即使半導體工藝不斷改進并配備了專用加速器,實際性能提升也已達到瓶頸,而功耗卻持續攀升。
這就造成了一個悖論:我們擁有比以往任何時候都更多的數據、更優秀的算法和更大的需求,但僅靠電力卻難以滿足擴展需求。數據中心目前已消耗全球約1%—2% 的電力,而人工智能工作負載的激增更是推動了這一趨勢。到 2028 年,僅美國數據中心就可能消耗全國 12% 的電力,是目前用量的三倍。
正是在這個時候,光計算變得至關重要。
![]()
光學計算實現人工智能加速的速度比單獨使用電子系統快得多。
計算的另一種物理學
光計算用光子代替電子來完成某些計算任務,最顯著的是矩陣乘法,而矩陣乘法正是人工智能工作負載的核心(也是主導)運算。光系統并非通過晶體管和片上電阻連接來傳輸電荷,而是將數據編碼到光束中,利用光的物理特性來執行相同的數學運算。
光子相比電子具有根本性的優勢。由于光子不像電子那樣相互作用,它們傳播時不會因電阻而產生熱量,從而能夠實現超低能耗和高帶寬的計算。此外,光可以輕松支持并行處理,即可以使用多束光束同時處理信息。
這并非新概念,光計算研究可以追溯到幾十年前,但直到最近我們才達到技術成熟,并滿足了使其實用化的應用需求。如今,光計算已真正融入數據中心,最初用于機架間的長距離連接,現在也用于機架內的短距離連接。
光互連技術的普及帶來了光交換技術——例如,谷歌已經部署這項技術近十年了。硅光子學、集成光電子學的進步,以及模擬計算與人工智能概率算法的融合,使之成為光計算領域的一個重要轉折點。
兩種范式:集成光子學與三維光學
并非所有光計算方法都相同。該領域沿著兩條截然不同的架構路徑發展,每條路徑都有其獨特的優勢和不足。
集成光子學將光限制在波導(蝕刻在硅或其他材料上的狹窄通道)內,從而實現類似于傳統集成電路的緊湊型芯片級設計。這種方法與現有的半導體制造工藝具有良好的集成性。然而,集成光子學在計算方面面臨著固有的局限性:光在波導中傳播時會累積光損耗,密集封裝的組件之間的熱串擾會降低性能,芯片布局的二維特性也限制了可實現的并行度。
3D(自由空間)光學采用了一種截然不同的方法,它允許光在三維空間中傳播,而不是被限制在波導中。這消除了集成光子學中的損耗和串擾問題,同時實現了真正的并行性。在自由空間光學系統中,光束可以在所有三個空間維度上同時進行分束、調制和重組,從而能夠在一次傳輸中完成在電子或集成光子系統中需要數千個順序步驟才能完成的矩陣運算。
![]()
利用3D 維度,光學計算提供了一種新的擴展規律——效率隨著性能的提高而提高。
總部位于英國牛津的Lumai 公司正在開發一種應用這種 3D 光學方法的 AI 加速器。在其架構中,輸入向量由光源陣列編碼,并通過透鏡擴展到 3D 空間,從而覆蓋矩陣的整個寬度。矩陣權重在空間光調制器(例如電子顯示面板)上實現,其中每個像素的強度都會調制穿過它的光,從而有效地執行乘法運算。
最終透鏡將調制后的光線組合成輸出向量。在這種方案中,乘加運算(人工智能推理中的主要計算瓶頸)幾乎不消耗能量;功耗主要限于光源和轉換、矩陣更新以及數字控制電子設備。
這種3D光學方法可以利用市售技術實現,例如激光器、透鏡等,這些元件可以針對光學計算進行優化,從而降低大規模生產的成本。更重要的是,它提供了清晰的拓展路徑:隨著組件密度和精度的提高,并行運算的數量呈二次方增長而非線性增長,這為持續提升性能提供了空間。
光學人工智能加速器的架構
光學計算系統并非取代通用處理器,而是對其進行增強。關鍵在于,人工智能推理工作負載主要由矩陣向量乘法構成,而矩陣向量乘法可能占用80% 到 90% 的計算周期——光學系統能夠以極高的效率執行這些運算。
混合架構將用于矩陣運算的光內核與用于其他所有操作的數字電子器件相結合。
光核:利用光進行矩陣向量乘法。數字控制:基于ASIC 或 FPGA 的控制器處理非線性激活、歸一化、數據格式化和系統編排。
最終得到的協處理器可通過PCIe 插槽插入標準數據中心基礎設施,與現有軟件堆棧無縫集成,同時在推理工作負載的速度和能源效率方面實現數量級的提升。
![]()
基于光學計算的人工智能加速器采用標準數據中心外形尺寸。
近期的演示驗證了這種方法的有效性。微軟研究院的模擬光計算機(AOC)在優化問題和人工智能推理任務中實現了100倍的能效提升,解決了傳統計算方式難以實現的復雜銀行交易和MRI重建問題。
Lumai 的架構顯著擴展了這些概念。該公司的路線圖旨在實現比純硅系統性能提升高達 50 倍,同時功耗僅為后者的約 10%——這種 AI 代幣/瓦效率水平是純硅系統難以實現的。
由于光系統在模擬域中運行,信號電平可以調節,系統設計人員可以直接調整能耗:降低信號幅度即可減少整體計算能耗。結合能夠使模型精度適應模擬信號的優化量化算法,可以在保持模型精度的同時大幅降低功耗。由此可見,光計算的模擬特性提供了更大的設計自由度。
人工智能中的內存瓶頸與計算瓶頸
人工智能工作負載中內存帶寬和計算能力之間的關系比通常所描述的要復雜得多。雖然人們普遍認為人工智能工作負載受內存限制,但實際情況會因具體操作、模型架構和部署場景的不同而有顯著差異。
注意力層和全連接網絡中的稠密矩陣乘法計算量巨大,而這正是光計算的優勢所在。在光場中,整個矩陣向量運算可以在一個周期內完成,與需要數百個周期和大量數據傳輸的數字脈動陣列相比,顯著降低了延遲和能耗。
最佳的系統級解決方案結合了與每種操作類型相匹配的技術。例如,針對計算應用優化的光加速器可以處理現代Transformer模型中常見的繁重矩陣乘法運算(例如在預填充階段),而配備額外內存的版本則可以用于內存密集型操作。這種混合方法針對實際存在的瓶頸進行優化,而不是一概而論地應用單一解決方案。
光學尺度物理學
光學計算最顯著的特性,尤其是在三維應用中,是其效率會隨著問題規模的增大而提高。這與傳統電子器件形成鮮明對比,在傳統電子器件中,更大或更快的芯片會消耗不成比例的更多功率,而效率提升卻會遞減。
考慮光矩陣-向量乘法,這是許多人工智能模型的核心運算。所需的光能與向量寬度N成線性關系,但計算吞吐量與N2成正比,因為N個輸出中的每一個都依賴于所有N 個輸入。
由此得出了一個非凡的標度律:Energy ∝ N, Performance ∝ N2 → Efficiency ∝ N
換句話說,光學計算量越大,效率就越高。
與傳統硅芯片不同,光學器件的微縮并不依賴于晶體管的小型化,而是依賴于增加光矢量寬度、提高光電轉換效率和光時鐘頻率。區別在于,光學器件的微縮空間更大,而傳統的電子器件解決方案則需要增加晶體管數量,從而導致器件結構更加復雜、功耗和發熱量更高。
繼續擴展之旅
光計算開辟了電子技術無法企及的多種可擴展性維度:
矢量寬度縮放上,如前所述,矩陣尺寸越大,效率越高。更大的光學系統每焦耳性能更佳,使其成為數據中心和大型模型推理應用的理想選擇。
組件效率上,每一代調制器、探測器和光源都會提高電光轉換效率。這些提升直接轉化為系統級的節能效果。
更高的光時鐘頻率上,光信號可以以數十甚至數百吉赫茲的頻率進行調制和檢測。隨著光電接口技術的進步,時鐘頻率將持續提高,而不會像電子開關那樣產生熱損耗。
這些趨勢共同表明,光計算不僅會趕上硅計算,而且在晶體管技術進步達到瓶頸之后,它還將繼續發展壯大。
如果說摩爾定律定義了電子小型化和高密度化的時代,那么下一個時代或許將由計算多樣性來定義,即針對每項任務采用最佳的物理介質。光子并非取代電子,而是與之互補——利用光來處理關鍵的人工智能工作負載,并釋放出更符合人工智能發展軌跡的性能擴展能力。
在這種新興范式中,衡量進步的標準不再是晶體管的數量,而是利用光速和并行計算的特性在人工智能計算中所取得的成就。隨著這些特性的增長,每焦耳能量所能完成的工作量也隨之增加。
其結果是,計算領域的擴展性不再是通過更小的晶體管來實現,而是通過更智能的物理技術來實現。
*聲明:本文系原作者創作。文章內容系其個人觀點,我方轉載僅為分享與討論,不代表我方贊成或認同,如有異議,請聯系后臺。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.