這里說的不是大號透鏡那套光學計算(Optical Computing),而是能上芯片、能做產品路線圖的光子計算(Photonic Computing)。
1)它到底牛在哪里?
帶寬恐怖:光的并行度高、天然支持多路復用(顏色=波長),數(shù)據(jù)大巴一車一車拉。
幾乎沒熱:波導里沒有電阻電容那套焦耳熱,通道級能耗很低(注意,是通道,不是系統(tǒng))。
時延極低:光速加成,尤其適合超低時延互連/推理鏈路。
翻譯成人話:做“搬運”和“加權求和”類的密集操作,光子像開了掛;但要當全能選手,還早。2)為什么現(xiàn)在你買不到“光子計算芯片”? 工程大Boss:兩座“轉換大山”
光?電(OE/EO)轉換
模?數(shù)(ADC/DAC)轉換
真正燒功耗的往往不是“光算”,而是這些轉換環(huán)節(jié),系統(tǒng)里能吃掉大半的能耗。
產業(yè)界的務實選擇:先把“光互聯(lián)”做強做滿(NVLink的光版、Intel Optical I/O、Ayar Labs 這類 ),先不做“光計算”核心。
因為今天把芯片間/板間的電連線換成光纖,賬能算得過;把矩陣乘法全丟給光,賬常常算不過。
光器件要“喂光”才耦合得進去,尺寸很難無腦縮;微環(huán)諧振器做到 ~10 μm 左右已經(jīng)逼近極限,再小耦合就崩。
端側/可穿戴不友好:你不會給手環(huán)塞個 5 cm × 5 cm 的芯片。
但在數(shù)據(jù)中心/HPC:大 die 不是原罪。甚至可以玩wafer-scale(整片晶圓上陣),工藝節(jié)點也不用卷 7 nm,150 nm 級就能跑。
Possible 路線:光子晶體、超表面、薄膜鈮酸鋰等新型器件,把“有效尺寸”再往納米量級推。坑B:可重構性與通用性
純衍射“全光計算”(比如固定光掩模做卷積)能效爆表但難以重構,換任務要換“mask”。
做成“通用圖靈機”意義上,光+電混合是現(xiàn)實解:可編程、可更新、可上量產配套。
你繞不開一圈外圍:DAC/ADC、驅動、探測、時鐘、溫穩(wěn)、校準……
項目管理翻譯:BOM 胖、版圖大、良率風險高、測試門檻高。
學術爽點:傅里葉、卷積、矩陣乘法等能“光學一次性做完”。
產品現(xiàn)實:重構難、任務窄,一換任務就要換結構;相比之下,存內計算(電子)在小模型推理上又快又可編程。
結論:做特定算法的“光加速器”可以;做通用CPU/GPU的替身,不現(xiàn)實(目前)。
光互聯(lián)優(yōu)先(Now)
芯片內/芯片間/機柜間的高速低功耗鏈路,最有ROI。
KPI 關注:帶寬密度(Tbps/mm)、能效(pJ/bit)、BER、插損預算、耦合良率。
“少轉換”的光子計算(Next)
目標:減少 OE/EO + ADC/DAC 次數(shù),把“算”盡量放在光域里做完、一次性讀出。
典型器件:MZI(馬赫-曾德爾陣列)、微環(huán)諧振器(MRR)做矩陣運算。
光子存內計算 / 相變材料(PCM)(Next-Plus)
用相變材料當“可調電/光學權重”,做類模擬矩陣乘。
風險點:耐久度、器件偏差、寫入一致性、溫漂。
適配場景:推理為主、低精度友好的模型塊(如注意力/全連接)。
光學蓄水池(Reservoir)計算(Exploring)
很前沿,偏黑箱;適合時序/信號處理。
產品不確定性高,先做PoC別一上來排期。
光子 cache/register(延遲環(huán))(Exploring)
用延遲環(huán)暫存數(shù)據(jù),做流水/調度。
難點在系統(tǒng)級調度與時鐘對齊,工程復雜度爆表。
算存融合(Compute-in-Memory with Photonics)(Moonshot)
MZI/MRR + 其他存儲體融合,潛在收益大,工藝復雜度更大。
需求場景
光互聯(lián)
光子計算
芯片/板/機柜之間超大帶寬(> Tbps)
? 立刻上
? 不必
超低時延鏈路
? 高性價比
?? 僅特定算子
數(shù)據(jù)中心/HPC(面積不敏感)
?? 試點特定算子(如矩陣乘)
端側/可穿戴(面積/成本敏感)
?? 極少數(shù)高速接口
? 基本不考慮
特定固定算子(卷積/矩陣)且低重構需求
??
? 作為加速器
通用可編程計算
? 還是交給CPU/GPU/ASIC
7)做產品要盯的 KPI/風控點
系統(tǒng)能效:別只看“光路”pJ/OP,要把 OE/EO + ADC/DAC 算進去。
帶寬密度 & 耦合效率:fibre-to-chip / chip-to-chip 的耦合良率、封裝良率。
可重構規(guī)模:權重更新速度、可編程維度(多少×多少的矩陣)、精度(比特數(shù))。
溫度與漂移:諧振器熱漂補償成本(功耗+控制復雜度)。
良率 & 測試:大面積/wafer-scale 的工藝波動、量產測試時長。
軟硬協(xié)同:編譯棧/校準/映射工具是否跟上(沒有工具鏈,硬件等于擺設)。
Phase 0:光互聯(lián)打底(0–12個月)
目標:把板級/機柜級鏈路先光起來,做實測 pJ/bit閉環(huán)。
里程碑:可量產的800G/1.6T 模塊或Chiplet 光I/O小批驗證。
Phase 1:特定算子光加速(并行推進,PoC 6–12個月)
選單一矩陣乘場景(如 Transformer FC/Attention 的某段),用MZI/MRR 陣列做演示。
做系統(tǒng)級能效對比(含轉換),設定“贏面閾值”(比如 >1.5× GPU 的系統(tǒng)能效才考慮集成)。
Phase 2:少轉換架構(12–24個月)
系統(tǒng)架構把ADC/DAC 從環(huán)外挪到環(huán)內,或降低位寬/采樣率;
打通編譯/映射/校準工具鏈,和模型同學一起定精度容錯策略。
Phase 3:量產可行性評審(18–36個月)
看BOM/良率/可測性是否達標;選DC/HPC 單一場景先小規(guī)模商用。
我們的目標算子是什么?是矩陣乘還是卷積?算子稀疏/低比特能不能利用?
一條數(shù)據(jù)從“電域進”到“電域出”,經(jīng)歷了幾次轉換?每次的能耗/時延是多少?
溫控怎么做?熱漂補償的功耗是否把優(yōu)勢吃掉了?
良率與校準策略是什么?大規(guī)模陣列如何快速量產測試?
上層軟件/編譯棧是否能把模型自動映射到光域陣列,并做誤差感知訓練/校準?
短期:把“光”用在互聯(lián)上,立竿見影。
中期:把“光”用在特定算子的加速器上,謹慎嘗鮮,一切以系統(tǒng)級能效為王。
長期:等“少轉換”架構與新器件成熟,才可能迎來通用性更強的光子計算平臺。
歡迎加入行業(yè)交流群,備注崗位+公司,請聯(lián)系老虎說芯
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.