![]()
芯東西(公眾號:aichip001)
作者 陳駿達
編輯 心緣
全球首個大規模全光生成式AI芯片,來自中國!
芯東西12月19日報道,今天,國際頂級學術期刊《科學(Science)》刊登了一項來自上海交通大學的最新研究——“All-optical synthesis chip for large-scale intelligent semantic vision generation(大規模智能語義視覺生成全光芯片)”。這項研究是新一代算力芯片領域的重大突破,首次實現了支持大規模語義媒體生成模型的全光計算芯片。這篇論文被Science官方選為高光論文重點報道。
![]()
LightGen突破了光子計算領域的三大難題。其團隊基于多模光學建立了光學潛空間(Optical Latent Space, OLS),實現了全光學條件下的維度變化,并提出了一種不依賴標簽的訓練算法。同時,該團隊設計了高度集成的超表面結構,通過三維封裝,在單芯片上集成了超過210萬個光子神經元。
LightGen在實驗中實現了多種先進生成式AI任務,包括無需圖像分塊的512×512分辨率語義圖像生成、三維生成、視頻語義操控、風格遷移以及去噪處理等。
![]()
當在特定任務中達到與Stable Diffusion、StyleGAN、NeRF和VGG-19相當的性能時,LightGen的端到端計算速度、能效和計算密度分別達到了3.57×10? TOPS、6.64×102 TOPS/W和 2.62×102 TOPS/mm2,這三項指標均比英偉達A100芯片高出兩個數量級。
![]()
▲LightGen與英偉達A100等芯片性能對比(圖源:論文補充材料)
上海交通大學集成電路學院(信息與電子工程學院)陳一彤助理教授為這篇論文的第一作者及通訊作者。她長期致力于光計算領域的研究,其團隊曾提出全模擬光電芯片ACCEL,國際首次實測驗證了復雜智能任務中光計算的系統級算力優越性。2023年,她提出的PED光計算架構,被Science子刊稱為“首個全光生成網絡”。
陳一彤2019年本科畢業于清華大學錢學森班,2024年獲清華大學自動化系博士學位。
![]()
▲陳一彤(圖源:上海交通大學微信公眾號)
論文鏈接:
https://www.science.org/doi/10.1126/science.adv7434
一、三大挑戰困住光子計算:集成規模、維度變化與訓練算法
學界認為,光子計算是重塑傳統計算范式最有潛力的方向之一。然而,目前大多數端到端的光子計算成果仍局限于判決類任務,例如圖像分類和元音識別等等,未能擴展到生成式AI模型領域。
是什么限制了光子計算在生成式AI中的應用?LightGen團隊總結了三大原因:
首先,先進的生成式AI模型通常需要數百萬個神經元,以學習并嵌入足夠的信息用于高維生成。而現有集成光子計算芯片通常僅能集成數千甚至數十個神經元。
如果通過數字電路對光子芯片進行互連和復用,則會引入顯著的延遲和能耗,功耗甚至可能提升數個數量級,從而削弱光計算的優勢。
另一個關鍵挑戰是模擬光學信號的維度變化。生成模型需要合適的維度變化才能學到有用特征,但在純光學系統中信息是以連續光斑的形式存在的,不像電子信號那樣有明確的維度。
即使改變光子神經元的尺寸,也只是改了調制方式,光斑本身仍然是連續的、理論上無限維的信號,因此在全光學系統里很難精確定義或改變維度。
第三個挑戰是訓練算法。現有的分類型光子芯片通常依賴人工定義的輸出作為真實標簽進行優化。然而,生成式AI的目標通常是輸出此前并不存在的數據,因此光子生成芯片亟需一種不依賴預定義真實標簽的新型訓練算法。
二、光學潛空間實現維度轉換,提出新算法BOGT告別標簽依賴
為解決上述問題,陳一彤領銜的研究團隊提出了LightGen。LightGen由光子編碼器、光學潛空間和光子生成器組成。
![]()
▲LightGen架構
LightGen的整體思路其實和電子生成模型很像,但成功把“編碼—潛空間—生成”這套流程完全搬到了光學域里。
光子編碼器由一系列集成衍射超表面構成,面積小于35mm2,用于從高維圖像域中提取低維特征。
編碼后的光場通過耦合進入單模光纖陣列進行特征子采樣,通過同時利用光的幅度和相位進行編碼,使得光纖陣列中的光學潛空間含有豐富的信息。
![]()
▲LightGen實物圖
由于單模光纖只允許基模傳播,除基模外的其他模式無法耦合進入光學潛空間,因此,光學潛空間在全光學條件下完成了模擬光斑維度的轉換,而不是像傳統光子系統那樣只是在無限維光場上做調制卻無法控制維度。
LightGen利用光斑所攜帶的復數信息來表征高維潛變量。光纖陣列中每一個單模光纖對應一個光斑,形成具有不同幅度和相位的高斯光斑陣列。
由此,LightGen在圖像域與光學潛域之間建立了橋梁。下圖展示了在以狗臉數據訓練的光學潛空間中均勻采樣得到的輸出結果。相近的光學潛空間值生成語義相似的圖像,而相距較遠的光學潛空間值生成語義差異明顯的對象,表明光學潛空間滿足連續性和自洽性,這是數學意義上潛空間進行合理生成所必需的特性。
![]()
光子編碼器將原始圖像嵌入到100維光學潛空間中,并通過t-SNE進行降維可視化,其分布如下圖所示。不同毛色的狗被成功聚類,說明光學潛空間能有效嵌入圖像中的細粒度特征。除前景外,背景特征(如草地與白色背景)也能被嵌入并區分。實驗結果表明,光學潛空間的功能與電子變分自編碼器(VAE)及β-VAE相當。
![]()
在訓練方面,LightGen團隊提出了一種基于貝葉斯思想的無監督訓練方法(BOGT),通過引入對語義數據概率分布的建模來提升生成質量,告別了對標簽的依賴。
三、集成超210萬個光子神經元,計算速度比A100高兩個數量級
論文稱,LightGen能在高分辨率彩色圖像上執行語義生成、去噪和風格遷移等多種任務。
下圖展示了針對動物類別的實驗生成結果。LightGen可生成512×512分辨率的動物圖像,涵蓋不同類別、顏色、表情和背景。放大區域顯示了豐富細節,如毛發紋理和眼睛反射光。
![]()
研究團隊還對生成圖像的特征進行了定量分析,結果顯示其分類準確率與真實測試數據相當,表明LightGen生成的數據在整體和細節特征上均接近自然數據。
![]()
LightGen在語義去噪方面同樣表現突出。自由空間模式與單模光纖基模之間的信息容量差異,使得LightGen在壞匹配像素比例(PBMP)較高的前提下,仍能有效去噪。
![]()
LightGen的另一大優勢是無需將高分辨率圖像切分為小塊進行處理。通過三維封裝,LightGen集成了超過210萬個光子神經元,可直接處理≥512×512分辨率的圖像。
在風格遷移任務中,LightGen成功實現了印象派(梵高風格)、金屬風格(馬列維奇風格)和馬賽克風格等多種轉換,其定性與定量性能均可與VGG-19、StyleGAN和StyleID等相媲美。
![]()
與基于分塊的方法相比,LightGen在處理全局結構和連續曲線方面具有顯著優勢,避免了塊間不連續和結構破壞的問題。
![]()
LightGen還可從二維擴展至三維生成與語義操控,用于生成高分辨率圖像和視頻。
在室內場景中,LightGen可生成包含多種家具的256×256分辨率圖像。通過二維投影訓練,LightGen無監督地學習了物體的三維結構及其在光學潛空間中的表示,性能可與NeRF相當。通過操控光學潛空間,LightGen可生成不同風格和視角的三維家具,在定性和PSNR指標上均與NeRF相當。
![]()
此外,光學潛空間中的潛變量直接對應生成對象的物理特征,使得語義操控具有良好的可解釋性。實驗表明,LightGen能在不干擾其他部分的情況下,精確操控目標特征。
研究團隊將LightGen與最先進的電子和光子芯片在生成任務中的性能進行了對比。在保守估計下,LightGen在實驗中實現了3.57×10? TOPS的計算速度、6.64×102 TOPS/W的能效和2.62×102 TOPS/mm2的計算密度,均比NVIDIA A100高出兩個數量級以上。若采用更高速的空間光調制器,其理論計算速度可達5.69×10? TOPS。
結語:解決光子生成芯片三大瓶頸,未來可擴展至更高分辨率
LightGen同時突破了光子生成芯片的三個關鍵瓶頸:集成規模、全光學維度變換和訓練算法。三維封裝方案解決了集成規模問題,光學潛空間實現了全光學維度變換,而BOGT解決了對標簽的依賴。
研究團隊認為,通過直接增加超表面的像素數和層數、提高光學潛空間的維度或以分塊生成的方式,LightGen可以進一步擴展到更高的處理分辨率。增加超表面規模通常會提升系統整體計算速度,因為總操作數增加,但這也需要更多的入射能量來維持足夠的計算精度。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.