<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      四萬字全景解讀CPO技術演進、產業生態與未來展望

      0
      分享至

      聲明:本文轉載自semianalysis,一切版權歸他們所有,本文僅供參考。

      共封裝光器件 (CPO) 長期以來一直被寄予厚望,有望改變數據中心的連接方式,但這項技術走向市場卻歷經漫長過程,真正可部署的產品要到 2025 年才能面世。與此同時,可插拔收發器憑借其相對較低的成本效益、易于部署以及基于標準的互操作性,一直緊跟網絡需求,并保持著默認的選擇。

      然而,人工智能工作負載帶來的高網絡需求意味著這次的情況有所不同。人工智能網絡帶寬的發展路線圖表明,互連速度、范圍、密度和可靠性要求很快就會超過收發器所能提供的水平。CPO 將帶來一些好處,并為橫向擴展網絡提供更多選擇,但它對于縱向擴展網絡至關重要。在未來十年后半段及以后,CPO 將成為縱向擴展網絡帶寬增長的主要驅動力。

      當今基于銅纜的擴展解決方案,例如 NVLink,每個 GPU 可提供高達 7.2 Tbit/s 的帶寬——在 Rubin 架構中,每個 GPU 的帶寬將達到 14.4 Tbit/s。然而,銅纜鏈路的有效距離最多只有兩米,這意味著擴展規模最多只能覆蓋一到兩個機架。此外,通過銅纜擴展帶寬也越來越困難。在 Rubin 架構中,NVIDIA 將通過雙向 SerDes 將每個銅纜通道的帶寬再次翻倍,但通過開發速度更快的 SerDes 來實現銅纜帶寬翻倍是一個極具挑戰性的擴展方向,進展緩慢。CPO架構可以提供相同甚至更高的帶寬密度,并提供更多擴展帶寬的途徑,同時還能支持更大的擴展規模。

      要理解CPO的推動作用,首先要考慮使用收發器進行光通信時存在的諸多效率低下和權衡取舍。收發器可以實現更遠的鏈路距離,但網絡交換機或計算托架前面板上用于插入收發器的接口通常距離XPU或交換機ASIC僅15-30厘米。這意味著信號必須先通過LR SerDes進行電信號傳輸,經過這15-30厘米的距離后,再由收發器內部的數字信號處理器(DSP)對電信號進行恢復和處理,最后轉換為光信號。而CPO則將光引擎放置在XPU或交換機ASIC旁邊,這意味著可以省去DSP,并且可以使用低功耗的SerDes將數據從XPU傳輸到光引擎。與DSP收發器相比,這可以將數據傳輸所需的能量降低50%以上——許多廠商的目標是將每比特的能耗降低高達80%。


      盡管英偉達和博通等公司的橫向擴展CPO解決方案越來越受到關注,并受到終端客戶的密切關注,但大型超大規模數據中心運營商已經開始規劃其縱向擴展CPO戰略,并與供應商達成合作。例如,Celestial AI預計到2028年底,其年化收入將達到10億美元——我們認為這主要得益于其基于亞馬遜Trainium 4平臺的縱向擴展CPO解決方案。

      專注于CPO的公司如今已不再局限于論文、試點項目和演示,而是正在制定關鍵的產品決策,例如光端口架構,以解決大規模生產的問題。對于規模化生產而言,CPO 的問題不再是是否以及為何,而是何時以及如何——如何將這些系統投入批量生產,以及激光器制造商等關鍵零部件供應鏈公司何時能夠提高產能。

      本文將深入探討CPO的優勢和挑戰、CPO 架構的工作原理、當前和未來的 CPO 產品、專注于 CPO 的公司、CPO 相關組件及其各自的供應鏈。本文旨在為從業人員、行業分析師、投資者以及所有對互連技術感興趣的人士提供指導。

      本文目錄及閱讀指南:

      我們將文章分為五個部分——讀者可以根據自己的興趣或感受選擇閱讀部分。

      在第一部分:CPO 總擁有成本 (TCO) 分析中,我們首先分析采用 CPO 如何改變橫向擴展和縱向擴展網絡的總擁有成本。我們認為,總擁有成本、可靠性和設備供應商的議價能力將是橫向擴展網絡中采用 CPO 的主要考慮因素。我們將探討 CPO 在橫向擴展領域是否已成熟,并提及我們目前掌握的解決方案可靠性數據,例如Meta 在 ECOC 2025 上發布的 CPO 橫向擴展交換機研究。

      在第二部分:CPO 簡介與實現中,我們將深入探討 CPO 的工作原理。本部分將探討市場從銅到共封裝銅、從數字信號處理器 (DSP) 光器件到線性可插拔光器件 (LPO) 再到 CPO 的演變歷程,以及采用 CPO 的動力和理由。此外,我們還將討論SerDes 的擴展極限以及作為 SerDes 替代方案的 Wide I/O (尤其是在與 CPO 結合使用時)。

      在第三部分“CPO市場化”中,我們將介紹推動CPO獲得市場認可并最終推向市場的關鍵技術。首先,我們將討論主機和光引擎封裝,并詳細解釋臺積電COUPE封裝及其為何成為首選集成方案。我們將深入探討光纖連接單元(FAU)、光纖耦合以及邊緣耦合與光柵耦合器的區別。此外,我們還將介紹馬赫-曾德爾調制器(MZM)、微環調制器(MRM)和電吸收調制器(EAM)等調制器類型。本部分最后將闡述CPO被廣泛采用的核心原因——利用CPO擴展帶寬的多種途徑:連接更多光纖、采用波分復用(WDM)以及更高階的調制。

      在第四部分“CPO產品現狀與展望”中,我們將分析目前市場上的CPO產品及其相關供應 鏈。我們將首先介紹英偉達和博通的解決方案,然后再討論主要的CPO公司。我們將涵蓋Ayar Labs、Nubis、Celestial AI、Lightmatter、Xscape Photonics、Ranovus和Scintil,詳細介紹每家供應商的解決方案,并分析每家公司方案中的重要優缺點。

      CPO 總擁有成本 (TCO) 分析

      在今年早些時候舉行的英偉達GTC 2025大會上,最受矚目的議題之一是Jensen宣布公司首款支持CPO的橫向擴展網絡交換機。值得注意的是,在縱向擴展( scale-up)方面,英偉達仍然堅持使用銅纜,并竭盡全力避免采用光纖,即便到2027年和2028年也是如此。

      讓我們首先討論這些新型 CPO 交換機的總擁有成本,分析橫向擴展 CPO 可以帶來的成本和節能效益。

      英偉達在 GTC 2025 主題演講中發布了三款不同的 CPO 橫向擴展交換機,它們采用了兩種不同的 CPO 交換機 ASIC。雖然這些交換機在總體擁有成本 (TCO)、功耗和部署速度方面具有優勢,但這些優勢并不足以促使客戶立即轉向完全不同的部署模式,因此我們預計首批 CPO 橫向擴展(scale-out)交換機的市場應用將十分有限。讓我們來分析一下原因。


      典型的AI集群網絡配置和總擁有成本

      典型的AI集群包含三個主要網絡架構:后端、前端和帶外管理架構(out of band management fabric)。后端網絡架構是利用率最高、技術要求也最高的網絡架構。后端網絡架構用于GPU之間的橫向擴展通信,使GPU能夠相互通信并在集體操作中交換數據,從而實現訓練和推理的并行化。后端網絡通常使用InfiniBand或以太網協議。

      由于后端網絡對性能要求極高,因此其在總網絡成本和功耗中占據主導地位。對于部署在 InfiniBand 網絡上、采用 Nvidia X800-Q3400 后端交換機的三層 GB300 NVL72 集群而言,后端網絡成本占比高達 85%,功耗占比更是高達 86%。基于 CPO 的交換機和網絡解決方案可用于后端和前端網絡,但我們認為現階段的部署重點將放在后端網絡。

      從宏觀角度來看,網絡成本是僅次于AI服務器本身的AI集群總成本的第二大組成部分。在采用三層InfiniBand網絡的GB300 NVL72集群中,網絡成本占集群總成本的15%,而對于四層網絡,這一比例則高達18%。光收發器是這部分成本的重要組成部分,在使用相對昂貴的Nvidia LinkX收發器時,三層網絡光收發器成本占總成本的60%。此外,它們還消耗三層網絡總功耗的45%。


      AI集群中GPU數量越多,所需的網絡層數就越多。從兩層網絡擴展到三層甚至更多層網絡,意味著更高的成本和更大的功耗預算。CPO既可以在保持網絡層數不變的情況下幫助降低功耗和成本,也可以通過增加給定層數網絡中可連接的GPU數量來降低總功耗和成本需求。

      CPO橫向擴展功耗預算

      今年早些時候,在 GTC 2025 大會上,英偉達 CEO 黃仁勛強調,光收發器本身巨大的功耗是推動 CPO 的關鍵因素。根據上表中的機架功耗預算,一個部署在三層網絡上的 20 萬 GB300 NVL72(每個機架 72 個 GPU 封裝和 144 個計算芯片)GPU 集群將消耗 435 兆瓦的關鍵 IT 電源,其中僅光收發器就消耗了 17 兆瓦。顯然,通過減少大部分光收發器組件,可以節省大量電力。

      通過比較單個 800G DSP 收發器的功耗與 CPO 系統中光引擎和激光源(每 800G 帶寬)的功耗,這一點很容易看出。雖然一個 800G DR4 光收發器的功耗約為 16-17W,但我們估計,Nvidia Q3450 CPO 交換機中使用的光引擎和外部激光源每 800G 帶寬的功耗約為 4-5W,功耗降低了 73%。

      這些數據與 Meta 在 ECOC 2025 上發表的論文中提出的數據非常接近。在該報告中,Meta 展示了 800G 2xFR4 可插拔收發器消耗約 15W 的功率,而 Broadcom Bailly 51.2T CPO 交換機中的光引擎和激光源每提供 800G 帶寬消耗約 5.4W 的功率,節能 65%。


      讓我們將分析擴展到集群層面。以基于三層網絡的 GB300 NVL72 集群為例,我們發現,后端網絡從 DSP 收發器切換到 LPO 收發器,可以將總收發器功耗降低 36%,總網絡功耗降低 16%。完全過渡到 CPO 相比 DSP 光模塊,節能效果更為顯著——收發器功耗降低 84%——盡管部分節能效果會被交換機中新增的光引擎 (OE) 和外部光源 (ELS) 所抵消,這些組件的總功耗增加了 23%。在下面的示例中,CPO 方案下每個服務器的光收發器功耗仍然保持在 1000W,因為我們假設前端網絡仍然使用 DSP 收發器。


      使用英偉達的CPO橫向擴展交換機意味著默認(default)使用高基數網絡,但最終用戶并不會感受到這一點,因為端口切換發生在交換機內部,而使用非CPO高基數(high radix )交換機時則需要通過配線架或八爪魚線纜在交換機外部進行。這些英偉達CPO交換機的優勢在于擁有極高的端口數量——例如,Quantum 3450提供144個800G端口,Spectrum 6800提供512個800G端口。

      之所以使用“默認”一詞,是因為英偉達的非CPO InfiniBand Quantum Q3400交換機也提供144個800G端口,而其其他InfiniBand交換機(例如QM9700)僅提供32個800G端口——只有前者提供了這種“一體式高基數”(high radix in a box)方案,從而提供大量的有效端口。如此高的端口數量可能使客戶能夠將三層網絡簡化為兩層網絡,同時還能省去客戶部署交換機、配線架或笨重的八爪魚線纜的麻煩,這可能成為一項關鍵的賣點。在兩層網絡中,與傳統的DSP收發器相比,收發器功耗降低了84%,交換機功耗降低了21%,整個網絡功耗降低了48%。

      Spectrum 6800 交換機擁有大量端口,在兩種邏輯配置下均可提供 512 個 800G 端口,相比之下,Spectrum 6810 僅提供 128 個 800G 端口、256 個 400G 端口或 512 個 200G 端口。例如,Spectrum 6810 的 128 個 800G 端口配置下,一個雙層網絡最多可連接 8,192 個 GPU;而 Spectrum 6800 的 512 個 800G 端口配置則可連接 131,072 個 GPU。

      順便提一下,在L層網絡中,使用具有k個端口的交換機所能支持的最大主機數量由以下公式給出:


      神奇之處在于端口數 k 與網絡層數呈指數關系。因此,對于一個兩層網絡,通過為每個端口分配一半帶寬(例如,將一個 800G 端口拆分為兩個 400G 端口),使用內部端口切換(如 Spectrum 6800 那樣)、分支電纜或雙端口收發器,可以將邏輯端口數翻倍,這意味著支持的主機數量將增加四倍!

      本節目前討論的節能效果,三層CPO網絡可節省23%,兩層CPO網絡可節省48%,聽起來非常可觀。但問題在于,三層網絡中的網絡功耗原本就只占集群總功耗的9%。因此,最終切換到CPO的效果至少對于橫向擴展網絡而言會被大幅稀釋。三層網絡切換到CPO可降低23%的網絡功耗,但僅節省2%的集群總功耗。遷移到兩層網絡可降低48%的網絡成本,但僅節省4%的集群總功耗。


      從集群總資本成本來看,情況也類似。

      CPO 橫向擴展總擁有成本 (TCO)

      讓我們簡要地看一下將收發器與CPO解決方案進行比較時的一些成本細節。首款Nvidia CPO交換機Quantum X800-Q3450 CPO將使用72個光引擎,每個引擎的運行速度為1.6Tbit/s;后續版本的Quantum CPO交換機可能會過渡到36個光引擎,每個引擎的運行速度為3.2Tbit/s,每個單元的成本約為1000美元(包括FAU),這意味著每個系統的總OE(optical engines)成本約為3.6萬美元。

      為了更直觀地理解這一點,不妨考慮一下如果使用傳統光收發器模塊的總成本。非CPO的X800-Q3400交換機配備72個OSFP插槽,并使用一個1.6T雙端口收發器來提供144個800G端口。假設一個通用的1.6T DR8收發器的價格為1000美元,那么為這臺交換機配備收發器的總成本將達到72000美元,是CPO交換機所需光引擎和ELS模塊(預計成本為35000-40000美元)成本的兩倍,才能實現相同的帶寬。

      然而,這還沒有考慮交換機廠商的利潤。如果毛利率為60%,那么最終用戶購買光引擎的成本將達到80000美元-90000美元——這比同等規格的收發器成本更高。此外,光纖換線器等其他組件的成本也會受到這種利潤率的影響。這就解釋了為什么,根據收發器的成本和交換機供應商的利潤,轉向 CPO 時節省的成本可能不會很大。

      從下表可以看出,在三層網絡中從收發器切換到CPO時,CPO組件的額外成本會使交換機成本增加81%,抵消了不購買收發器所節省的86%的成本。盡管CPO的總網絡成本仍然比使用DSP收發器低31%,但與電源成本的情況類似,服務器機架在集群總擁有成本(TCO)中占比過高,這意味著集群總成本僅下降了3%。

      將網絡從三層簡化為兩層可以節省更多成本——集群總成本最多可降低 7%,收發器成本降低 86%,網絡總成本降低 46%。


      因此,如果CPO一方面只能節省高達7%的成本和4%的能耗,另一方面卻引發了人們對現場維護困難、可靠性和影響范圍(無論這種擔憂是否合理)以及與多家收發器供應商談判時議價能力下降的擔憂——那么,為什么GPU云平臺還要采用它呢?答案很簡單:它尚未被廣泛采用——我們預計在短期內,超大規模數據中心不會迅速采用橫向擴展的CPO系統。

      面向規模化網絡的CPO

      相反,我們認為面向規模化部署的CPO才是真正的殺手級應用。正如前文所述,大型超大規模數據中心運營商已經向供應商承諾,將在本十年末之前部署基于CPO的規模化部署解決方案。

      目前,基于銅纜的現有擴展模式正面臨極限挑戰,原因在于銅纜傳輸距離有限——在每通道 200Gbit/s 的速率下,最佳傳輸距離僅為兩米,而且每通道帶寬翻倍的難度也日益增加。CPO 可以解決這些問題,因為它既能滿足帶寬密度要求,又能提供多種未來帶寬擴展途徑,還能實現更大規模的擴展。

      一旦部署了 CPO 以實現縱向擴展網絡,縱向擴展域將不再受互連距離的限制。原則上,客戶可以將縱向擴展域擴展到任意大小。當然,如果希望將縱向擴展域保持在允許全連接(all-to-all connected)的單層扇出網絡中,則縱向擴展域的大小將受到交換機基數的限制。

      橫向擴展與縱向擴展的TAM

      縱向擴展架構的網絡需求遠高于后端橫向擴展網絡。GPU 間或交換機間的鏈路需要更高的帶寬和更低的延遲,才能實現 GPU 間的互連,從而使它們能夠協同共享內存等資源。

      舉例來說,Nvidia Blackwell 平臺上的第五代NVLink 為每個 GPU 提供 900GB/s(7200Gbit/s)的單向帶寬。這比后端橫向擴展網絡(使用 CX-8 網卡連接 GB300 NVL72)上每個 GPU 的 100GB/s(800Gbit/s)帶寬高出 9 倍。這也使得主機需要更高的岸邊帶寬密度,而這正是推動 GPU SerDes 線路速度不斷提升的動力。

      同樣重要的是要認識到,隨著縱向擴展域規模的擴大以及縱向互連速度的提升,縱向互連(以及最終的縱向互連網絡)的潛在市場規模已經遠遠超過了橫向擴展網絡。橫向擴展網絡的潛在市場規模很可能主要由縱向擴展網絡應用而非橫向擴展網絡應用占據。


      銅與光學器件在規模化應用中的比較:全球規模、密度和覆蓋范圍

      目前,出于種種原因,橫向擴展網絡完全依賴銅纜。在當前的插拔架構下,要使光收發器的帶寬與 NVLink 相匹配,成本和功耗都將極其高昂,而且還會引入不必要的延遲。此外,計算托架上的面板空間可能不足以容納所有這些收發器。銅纜在低延遲、高吞吐量連接方面表現出色。然而,正如上文所述,銅纜的傳輸距離有限,限制了“世界規模”——即單個橫向擴展域內可連接的 GPU 數量。

      擴大規模是計算擴展的關鍵途徑。在當今基于推理的模型擴展和測試時計算的時代,在單個規模擴展域中增加計算能力、內存容量和內存帶寬變得越來越重要。

      英偉達的GB200系統之所以能帶來巨大的性能提升,是因為它將原本僅由8個互連GPU組成的網絡規模擴展到了72個互連GPU,并采用了全連接拓撲結構。其結果是,通過實施在橫向擴展網絡中無法實現的更復雜的協同通信技術,實現了巨大的吞吐量提升。

      在銅纜上,這只能在單個機架的占地面積內實現,對供電、散熱和可制造性提出了極高的要求。該系統的復雜性使得下游供應鏈仍在努力提升產能。

      英偉達將繼續堅持使用銅纜。為了保持領先于AMD等競爭對手以及那些正在構建自有縱向擴展網絡的超大規模數據中心運營商,英偉達還需要進一步擴大其縱向擴展的規模。因此,英偉達不得不采取極端措施,在單個機架內擴展縱向擴展能力。在GTC 2025大會上展示的英偉達Rubin Ultra的Kyber機架架構,可擴展至144個GPU封裝(576個GPU核心)。該機架的密度是現有GB200/300 NVL72機架的四倍。鑒于GB200的制造和部署已經非常復雜,Kyber機架架構更是將這一難度提升到了新的高度。

      光器件技術實現了相反的方案,它可以通過多個機架進行擴展,從而擴大系統規模,而無需像以往那樣在密集的空間內塞入更多加速器,因為后者對供電和散熱提出了更高的要求。雖然目前使用可插拔收發器可以實現這一點,但光收發器的成本及其高功耗使得這種方案并不實用。


      銅纜與光纖在規模化應用中的比較:帶寬擴展

      在銅纜上擴展帶寬也變得越來越困難。英偉達的 Rubin 芯片采用了一種新型的雙向 SerDes 技術,實現了帶寬翻倍。在該技術中,發送和接收操作共享同一信道,從而實現了每個信道 224Gbit/s 的全雙工通信(發送 + 接收)。在銅纜上實現每通道 448G 的“真正”帶寬仍然是一項極具挑戰性的任務,其上市時間也難以確定。相比之下,CPO 提供了多種擴展帶寬的途徑:波特率、DWDM、額外的光纖對以及調制方式——所有這些都將在本文后續部分詳細討論。CPO何時才能做好迎接黃金時段的準備?

      那么,如果CPO是解決方案,為什么英偉達最初只將其應用于橫向擴展交換機,而不將其應用于Rubin Ultra呢?這歸根結底是供應鏈不成熟、制造工藝面臨挑戰以及客戶對部署的猶豫。推出Quantum和Spectrum CPO交換機的目的是為了幫助提升供應鏈效率,并獲取更多關于數據中心可靠性和可維護性的實際數據。

      在此期間,Meta 在 ECOC 期間發布的 CPO 可靠性數據提供了一些有用的信息。Meta與 Broadcom 合作開展了這項研究,Broadcom也發布了一些有用的幻燈片。在這項研究中,Meta 對 15 臺 Bailly 51.2T CPO 交換機進行了規模適中的測試,累計 400G 端口設備小時數高達 104.9 萬小時,并發布了最大非零 KP4 前向糾錯 (FEC) 值:


      該論文還解釋了在測試期間,鏈路中沒有觀察到任何故障或不可糾正的碼字 (UCW),并指出在整個測試期間(400G 端口設備運行時間達 1,049k 小時)只觀察到一次 FEC bin > 10 的情況。

      然而,Meta的研究并未止步于此。在ECOC大會上發表同一篇論文時,他們展示了高達1500萬400G端口設備小時數的擴展結果。這些結果表明,在前400萬400G端口設備小時內未出現UCW(未解決的故障),并且400G 2xFR4收發器(全球2xFR4收發器為55萬)的平均故障間隔時間(MTBF)為0.5-1M設備小時,而CPO的MTBF為260萬設備小時。(原文:Meta did not stop there, however. In the talk at ECOC presenting the same paper, they presented expanded results for up to 15M 400G port-device hours. These results showed that there were no UCWs for the first 4M 400G port device hours, and they also showed a 0.5-1M device hour mean time before failure (MTBF) for 400G 2xFR4 transceivers (550k for 2xFR4 globally) vs 2.6M device hour MTBF for CPO.)


      雖然 1500 萬端口設備小時聽起來很大,但這是以 400G 端口小時為單位的。也就是說,一臺 51.2T 交換機運行一小時相當于 128 個 400G 端口小時。15 臺 51.2T 交換機共計 1500 萬個 400G 端口小時,相當于 7812 個實際運行小時,約合 325 天。事實上,這 1500 萬小時通常被簡單地稱為“小時”或“設備小時”,而省略了“端口”部分。盡管在 400 萬端口設備小時內零故障和零 UCW 統計數據非常有價值,但在轉向 CPO 橫向擴展交換并投入數十億美元之前,業界需要的遠不止是在實驗室環境中測試 15 臺 CPO 交換機 11 個月。

      在動態的現場環境中運行數千臺橫向擴展交換機是一項截然不同的挑戰,這些交換機在生產環境中的性能表現還有待觀察。生產環境中的溫度波動可能比實驗室環境更大,從而導致組件性能或耐久性出現意想不到的變化。Meta公司在其 Llama 3 論文中指出,數據中心 1-2% 的溫度波動會對功耗波動產生不利影響——這種波動是否會以難以預料的方式影響整個網絡架構?


      即使是數據中心灰塵這種看似平常的問題,也令技術支持人員頭疼不已,他們可能需要花費大量時間清理光纖端面——當然,CPO交換機通常配備LC或MPO型前置可插拔連接器,但CPO交換機機箱內部的灰塵又該如何處理呢?0.06%的故障率聽起來很誘人,但這種故障的影響范圍可達64個800G端口。本文主要討論的是基于FR光模塊的CPO交換機,而下一代CPO交換機將基于DR光模塊。以上僅列舉了一些已知的未知因素,在現場測試中還可能出現更多未知的未知因素。

      事實上,這些結果通過提供切實可靠的可靠性數據,有力地說服了業內人士。我們的目的并非制造恐慌、不確定性或疑慮(FUD),而是呼吁開展更大規模的現場測試,以便業界能夠快速了解并解決未預見的問題,從而為更廣泛地采用CPO(網絡性能優化)技術鋪平道路,尤其是在規模化網絡建設方面。

      歸根結底,英偉達此次橫向擴展CPO產品的發布,實際上是為真正的大規模部署進行一次演練和清理。我們認為,鑒于縱向擴展相比橫向擴展具有更顯著的總體擁有成本 (TCO) 和性能/TCO 比優勢,其部署規模和影響將遠超橫向擴展。

      此外,就橫向擴展型CPO而言,Rubin Ultra計劃于2027年發布(我們認為最終會是2027年底),但供應鏈屆時還無法滿足數千萬個CPO終端的交付需求,從而無法滿足GPU的需求。即使是這樣的時間表對英偉達來說也過于雄心勃勃。因此,費曼世代似乎是CPO注入英偉達生態系統的重點。

      現在讓我們深入探討一下 CPO 的含義、技術考量、挑戰以及當前生態系統的狀況。

      CPO介紹和實施

      CPO是什么?為什么大家都這么興奮?

      CPO將光引擎直接集成到與高性能計算或網絡ASIC相同的封裝或模塊中。這些光引擎將電信號轉換為光信號,從而實現通過光鏈路進行高速數據傳輸。由于銅纜上的高速電信號傳輸距離有限,因此必須使用光鏈路進行幾米以上的遠距離數據通信。

      如今,大多數電光轉換都是通過可插拔光收發器實現的。在這種情況下,電信號會從交換機或處理芯片出發,經過數十厘米甚至更遠的PCB板,最終到達機箱前面板或后面板上的物理收發器外殼。可插拔光收發器就位于該外殼內。收發器接收電信號,經光數字信號處理器(DSP)芯片進行重新處理后,再發送到光引擎組件,由其將電信號轉換為光信號。然后,光信號可以通過光纖傳輸到鏈路的另一端,在那里,另一個收發器會反向執行此過程,將光信號轉換回電信號,最終返回到目標芯片。

      在這個過程中,電信號(至少對于銅線而言)需要經過相對較長的距離,并經過多個轉換點才能到達光鏈路。這會導致電信號衰減,并且需要大量的功率和復雜的電路(例如串行器/解串器)來驅動和恢復信號。為了改善這種情況,我們需要縮短電信號的傳輸距離。這就引出了“共封裝光器件”的概念,即將原本位于可插拔收發器中的光引擎與主機芯片共封裝。由于光引擎距離擴展處理器(XPU)或交換機專用集成電路(ASIC)更近,因此可以將電氣走線長度從幾十厘米縮短到幾十毫米。這顯著降低了功耗,提高了帶寬密度,并通過最大限度地減少電氣互連距離和緩解信號完整性挑戰來降低延遲。

      下圖展示了一種CPO(芯片封裝優化)方案,其中光引擎與計算芯片或交換芯片封裝在同一芯片上。光引擎最初將位于基板上,未來將放置在中介層上。


      如今,如下圖所示,前置可插拔光模塊解決方案已十分普及。該圖的主要意義在于說明,電信號需要沿著銅線或架空電纜傳輸一段較長的距離(15-30厘米)才能到達收發器中的光引擎。正如上文所述,這也意味著需要使用長距離(LR)SerDes 來驅動可插拔模塊。


      此外,還有一些介于 CPO 和傳統前插拔光學器件之間的中間實現方式,例如近封裝光學器件 (NPO) 和板載光學器件 (OBO)。

      近年來,非封裝光引擎(NPO)已成為實現復合封裝光引擎(CPO)的中間步驟。NPO有多種定義。NPO指的是光引擎并非直接封裝在ASIC基板上,而是封裝在另一個基板上。光引擎仍然保持可插拔狀態,可以從基板上拆卸下來。電信號仍然會從XPU封裝上的SerDes通過銅通道傳輸到光引擎。


      還有一種方案是板載光模塊(OBO),它將光引擎集成到機箱內的系統PCB上,使其更靠近主機ASIC。然而,OBO繼承了CPO的諸多挑戰,但在帶寬密度和功耗方面卻優勢不明顯。我們認為OBO是“兩頭不討好”的方案,因為它既包含了CPO的復雜性,又繼承了前插拔式光模塊的一些局限性。


      共封裝銅

      CPO 的另一種替代方案是“共封裝銅”(CPC:Co-packaged Copper)。CPC 使用直接從基板上的連接器引出的銅纜。CPC 使用的電纜與飛線電纜相同,用途也相同:繞過 PCB 走線。CPC 在飛線電纜的基礎上更進一步,其插座直接位于封裝基板上。所使用的電纜是絕緣良好的雙軸電纜(Twinax 電纜),可有效降低串擾,從而顯著降低插入損耗,遠低于傳統的電氣走線。雖然該方案仍然使用銅,但它在信號完整性方面具有關鍵優勢。CPC 可以為部署 448G SerDes 提供切實可行的途徑,從而進一步擴展封裝外互連技術。


      CPC 的挑戰在于封裝基板的復雜性增加。基板必須將電源和信號路由到數千根這樣的電纜。盡管面臨這一挑戰,CPC 仍然比 CPO 簡單得多,后者仍需克服供應鏈多個環節的諸多制造難題。我們認為 CPC 對于某些短距離應用(例如機架內擴展連接)尤其具有吸引力,我們將在下文探討這一點。通過繞過損耗較大的 CCL 走線,CPC 有望成為實現 448G 線路速度的技術。此外,由于這種帶寬的信號在 PCB 中傳輸時會遭受不可接受的衰減,因此 CPC 也被廣泛用于實現 448G 傳輸。

      過去阻礙 CPO 市場準備的障礙:為什么現在才出現?

      盡管CPO技術具有顯著優勢,但由于諸多挑戰導致成本居高不下,其在實際應用中仍然非常有限。這些挑戰包括:封裝的復雜性(其成本甚至高于原始設備制造商本身)、制造工藝的復雜性、可靠性和良率問題,以及由緊密集成的光學和電子元件引起的散熱管理問題。另一個障礙是缺乏行業標準。此外,客戶對可維護性的擔憂也阻礙了從傳統可插拔光學器件向CPO解決方案的過渡。

      客戶的另一個主要擔憂是,采用CPO模式可能會讓他們失去控制成本的能力。相比于少數交換機廠商,向數量較多的收發器廠商壓榨成本要容易得多。

      與此同時,可插拔光器件(CPO 將取代的現有技術)不斷改進,并且仍然能夠為幾乎所有應用提供足夠好的性能,同時大大減少了最終用戶的焦慮。

      在第二部分的剩余部分,我們將深入探討采用CPO的驅動因素。

      首先,我們將解釋SerDes的擴展性已達到瓶頸,因此需要采用其他接口類型,例如Wide I/O與CPO相結合。然后,我們將討論制造方面的考量以及市場推廣策略。我們將討論CPO的關鍵組件,例如光引擎、光纖耦合器、外部激光源和調制器。最后,我們將介紹CPO帶寬擴展的路線圖。

      超越基于DSP的收發器:從LPO到CPO

      數字信號處理收發器負責光信號的發射和接收,其內部包含一個“光引擎”(OE),用于進行電光轉換。光引擎由驅動器(DRV)和調制器(MOD)組成,用于發射光信號;同時還包含跨阻放大器(TIA)和光電探測器(PD),用于接收光信號。

      另一個重要組件是光DSP芯片,它有時會將驅動器和/或TIA集成在一個封裝中。從主機交換或處理芯片發出的高頻電信號需要沿著損耗較大的銅線傳輸相對較長的距離,才能到達服務器機箱前端的收發器。DSP負責對該信號進行重定時和重新調整。它執行糾錯和時鐘/數據恢復,以補償信號從交換機或ASIC芯片通過基板或其他傳輸介質傳輸過程中產生的電信號劣化和衰減。對于調制,以PAM4調制(四級脈沖幅度調制)為例,DSP將二進制信號映射到四個不同的幅度級別,以增加每個信號的比特數,從而實現更高的比特率和更大的帶寬。


      DSP芯片是收發器中最耗電、最昂貴的組件之一,甚至可以說是最耗電、最昂貴的組件。對于800G SR8收發器而言,DSP芯片的功耗幾乎占模塊總功耗的50%,這也是為什么人們如此重視如何去除DSP芯片的原因。


      構建一個包含 18k GB300 服務器的集群,采用雙層 InfiniBand 網絡,需要 18,432 個 800G DR4 收發器和 27,648 個 1.6T DR8 收發器。使用 DSP 帶來的額外成本和功耗會顯著增加總擁有成本。假設每個 800G DSP 的功耗為 6-7W,每個 1.6T DSP 的功耗為 12-14W,那么僅整個集群的后端網絡就需要 480kW 的 DSP 功耗,相當于每個服務器機架約 1.8kW。如果從知名品牌供應商采購,收發器的成本可能占集群總擁有成本的近 10%。因此,DSP 的功耗占總功耗的 50%,物料清單成本 (BOM) 的 20-30%,一些人甚至將其視為降低成本和提高能效的頭號敵人。


      反對DSP的運動

      數字信號處理器(DSP)的高成本和高功耗促使業界尋找能夠繞過DSP的技術。第一波攻擊DSP的浪潮是線性可插拔光(LPO)——它試圖完全移除DSP,讓交換機中的SerDes直接驅動收發器中的TX和RX光元件。然而,正如DSP專家Loi Nguyen在2023年接受我們采訪時準確預測的那樣,LPO尚未普及。

      CPO 將 LPO 的概念提升到了一個新的層次,它將光引擎與計算或交換芯片封裝在同一芯片上。CPO 的一個關鍵優勢在于,由于主機和光引擎之間的距離非常短,因此不再需要收發器中的 DSP。此外,CPO 還超越了 LPO,因為它無需使用功耗和面積都較大的長距離 SerDes,而是采用短距離 SerDes,甚至在寬 I/O 接口的情況下采用時鐘轉發的寬 D2D SerDes,從而顯著提高了芯片的海岸線密度。

      人們常說,CPO技術其實近在咫尺,但過去二十年來它為何始終未能普及?為什么業界更傾向于使用可插拔DSP收發器?

      可插拔收發器的一大優勢在于其高度互操作性。憑借 OSFP 和 QSFP-DD 等標準封裝形式以及對 OIF 標準的遵循,客戶通常可以獨立于交換機和服務器供應商選擇收發器供應商,從而享受采購靈活性和更強的議價能力。

      另一個巨大的優勢是現場可維護性。收發器的安裝和更換非常簡單,只需由遠程人員將其從交換機或服務器機箱上拔下即可。相比之下,對于CPO(光纖光模塊),光引擎的任何故障都可能導致整個交換機無法使用。即使是可維護的故障,排查和修復也可能非常復雜。通常,激光器是最常見的故障點,目前大多數CPO方案都采用可插拔的外部激光器以提高可維護性和可更換性,但人們仍然擔心其他不可插拔的CPO組件會發生故障。

      為什么需要CPO?I/O挑戰、帶寬密度和瓶頸

      除了擺脫耗電且成本高昂的 DSP 和最大限度地減少或消除 LR SerDes 的使用之外,采用 CPO 的另一個巨大好處是相對于能耗而言更高的互連帶寬密度。

      帶寬密度衡量單位面積或信道內傳輸的數據量,反映了有限空間用于高速數據傳輸的效率。能量效率量化了傳輸單位數據所需的能量。

      因此,互連帶寬密度與能耗之比是衡量給定互連客觀質量的一個非常重要的指標(FoM)。當然,最優互連方案還應滿足距離和成本參數的要求。

      觀察下圖,可以發現一個明顯的趨勢:對于電鏈路而言,隨著距離的增加,該性能指標呈指數級下降。此外,從純電接口過渡到需要光電轉換的接口,效率會大幅下降——甚至可能下降一個數量級。這種下降是由于需要能量來驅動信號從芯片傳輸到前面板的收發器。而為光DSP供電則需要更多能量。基于CPO的通信的性能指標曲線明顯高于可插拔接口。如下圖所示,在相同的距離范圍內,CPO在單位面積和單位能耗下具有更高的帶寬密度,因此是一種客觀上更優的互連方式。


      這張圖表也印證了“能用銅纜就用銅纜,必須用光纖才用”這句格言。如果條件允許,短距離銅纜通信性能更優。英偉達在其機架級GPU架構中秉承了這一理念,其設計目的就是為了突破機架內部密度的極限,最大限度地提高可通過銅纜聯網的GPU數量。這正是GB200 NVL72所采用的縱向擴展網絡架構背后的邏輯,而英偉達在其Kyber機架中更進一步地實踐了這一理念。然而,CPO技術的成熟只是時間問題,它終將使縱向擴展能夠充分利用其在性能優化曲線中的優勢,并從總體擁有成本(TCO)的角度帶來更高的性價比。

      輸入/輸出 (I/O) 障礙和阻礙

      雖然晶體管密度和計算能力(以 FLOPs 表示)得到了很好的擴展,但 I/O 的擴展速度卻慢得多,這造成了整體系統性能的瓶頸:由于要傳輸到片外的數據需要通過有機封裝基板上有限數量的 I/O,因此可用于片外 I/O 的可用帶寬是有限的。

      此外,提高每個I/O的信號傳輸速度變得越來越困難且耗電,進一步限制了數據傳輸。這正是互連帶寬在過去幾十年中相對于其他計算趨勢而言擴展性如此糟糕的一個關鍵原因。


      由于單個倒裝芯片BGA封裝中凸點數量的限制,高性能計算(HPC)應用的封裝外I/O密度已達到瓶頸。這制約了逃逸帶寬的擴展。


      電氣串行器/解串器擴展瓶頸

      在I/O數量有限的情況下,提高帶寬的關鍵在于提升每個I/O信號的傳輸頻率。目前,英偉達和博通在SerDes IP領域處于領先地位。英偉達在其Blackwell芯片中采用了224G SerDes,這正是其高速NVLink芯片的核心所在。同樣,博通也從2024年底開始在其光DSP中提供224G SerDes的樣品。這兩家在AI浮點運算能力方面領先的公司同時也是高速SerDes IP領域的領軍者,這絕非巧合。這進一步印證了AI性能與吞吐量之間的根本聯系:最大化數據傳輸效率與提供強大的計算能力同樣至關重要。

      然而,在理想傳輸距離下提供更高的線路速度正變得越來越具有挑戰性。如下圖所示,隨著頻率的增加,插入損耗也會增加。我們可以看到,在更高的SerDes信號傳輸速度下,損耗會增加,尤其是在信號路徑延長的情況下。


      SerDes 的擴展性已接近瓶頸。在不增加信號恢復組件的情況下,更高的傳輸速率只能在極短的距離內維持——而這些組件反過來又會增加復雜性、成本、延遲和功耗。因此,實現 224G SerDes 一直困難重重。

      展望 448G SerDes,能否突破幾厘米的傳輸距離仍存在諸多不確定性。英偉達在 Rubin 芯片中采用雙向 SerDes 技術,實現了每個電通道 448G 的連接。要實現真正的 448G 單向 SerDes,還需要進一步的研發。我們可能需要采用更高階的調制方式,例如 PAM6 或 PAM8,而不是自 56G SerDes 時代以來一直沿用的 PAM4 調制。使用每個信號編碼 2 位的 PAM4 來實現 448G 傳輸速率,需要 244Gbaud 的波特率,這很可能由于過高的功耗和插入損耗而難以實現。SerDes 擴展瓶頸成為 NVLink 擴展的障礙

      在 NVLink 協議中,NVLink 5.0 的帶寬相比 NVLink 1.0 提升了 11 倍以上。然而,這種增長并非源于通道數量的顯著增加,通道數量僅從 NVLink 1.0 的 32 條略微增加到 NVLink 5.0 的 36 條。帶寬擴展的關鍵驅動因素是 SerDes 通道速度的 10 倍提升,從 20G 提升至 200G。然而,在 NVLink 6.0 中,Nvidia 預計將繼續使用 200G SerDes,這意味著它必須將通道數量翻倍——Nvidia 巧妙地利用雙向 SerDes 實現了這一點,在物理銅線數量不變的情況下,有效地將通道數量翻倍。除此之外,無論是提升 SerDes 速度,還是克服有限的線路容量來容納更多通道,都將變得越來越困難,最終總帶寬將無法滿足需求。

      對于那些以吞吐量作為競爭優勢的尖端企業而言,擴展逃逸帶寬至關重要。對于擁有NVLink擴展架構的英偉達來說,這一障礙可能會讓AMD等競爭對手以及超大規模數據中心運營商更容易迎頭趕上。



      解決這一難題的方案——或者說,必要的折衷方案——是盡可能縮短電氣輸入/輸出距離,并將數據傳輸卸載到盡可能靠近主機ASIC的光鏈路上,以實現更高的帶寬。這就是為什么CPO被認為是互連領域的“圣杯”。CPO允許在ASIC封裝上進行光通信,無論是通過基板還是中介層。電信號只需在封裝基板上傳輸幾毫米,理想情況下,通過更高質量的中介層傳輸更短的距離,而無需像傳統方式那樣通過損耗較大的覆銅層壓板(CCL)傳輸數十厘米。

      SerDes可以針對短距離傳輸進行優化,所需的電路比同等長距離的SerDes少得多。這不僅簡化了設計,還降低了功耗和芯片面積。這種簡化使得高速SerDes更容易實現,并擴展了SerDes的擴展路線圖。然而,我們仍然受到傳統帶寬模型的限制,即帶寬密度仍然與SerDes的速度成正比。

      為了實現更高的帶寬密度,在極短距離下,寬 I/O PHY 是更佳選擇,其單位功耗帶寬密度優于 SerDes 接口。寬 I/O 也意味著需要更復雜的封裝。然而,對于 CPO 而言,這無關緊要:其封裝技術已經非常先進,因此集成寬 I/O PHY 幾乎不會增加額外的封裝復雜性。

      寬 I/O 與 SerDes

      一旦不再需要將電信號傳輸到相對較遠的距離,我們就可以完全擺脫串行接口,轉而使用寬接口,從而在短距離內提供更好的海岸線密度。

      UCIe接口就是一個例子。UCIe-A可提供高達~10 Tbit/s/mm的海岸線密度,專為高級封裝(例如,通過距離小于2mm的中介層連接的芯片組)而設計。在光罩尺寸芯片的長邊上,這相當于高達330 Tbit/s(41TByte/s)的封裝外帶寬。這意味著從芯片兩側邊緣可獲得660 Tbit/s的雙向帶寬。相比之下,Blackwell接口的封裝外帶寬僅為23.6 Tbit/s,相當于約0.4 Tbit/s/mm的海岸線密度,兩者差距巨大。


      當然,這并非完全等同的比較,因為這些封裝外的PHY芯片需要用于遠距離傳輸。恰恰相反,這正是本文要說明的重點:采用CPO技術后,傳輸距離不再是問題,因為信號無需通過電信號進行遠距離傳輸。在10 Tbit/s/mm的帶寬密度下,瓶頸不再是電接口,而是鏈路的其他部分,即另一端光纖能夠傳輸多少帶寬。

      達到這種限制條件距離目前的實際情況還很遙遠,而且OE必須與主機共享一個中介層。將CPO集成到中介層本身,其研發進度甚至比將OE可靠地集成到基板上還要慢。當然,基板上的PHY性能會更差,UCIe-S的海岸線密度約為1.8Tbit/s/mm。但這仍然比我們認為224G SerDes的約0.4Tbit/s/mm的性能有了顯著提升。

      然而,盡管寬接口具有諸多優勢,博通和英偉達仍然堅持在其產品路線圖中推進電控SerDes技術。主要原因是他們相信SerDes仍具有可擴展性,并且需要針對銅纜進行設計,尤其是在光芯片普及速度緩慢的情況下。此外,混合封裝的銅纜和光芯片解決方案似乎更有可能長期存在,這就要求他們同時針對這兩種封裝進行優化。采用這種方法是為了避免為不同的解決方案進行多次芯片流片。

      鏈路彈性(Link Resiliency

      鏈路彈性和可靠性是CPO技術的其他重要驅動因素。在大型AI集群中,鏈路中斷會顯著影響集群的整體可用性,即使鏈路可用性和穩定性方面有微小的提升,也能為基礎設施投資帶來巨大的回報。

      如今,在一個擁有近百萬條鏈路且采用可插拔模塊的大型人工智能集群中,每天可能會發生數十次鏈路中斷。其中一些是“硬”故障,由組件故障或硬件質量問題導致;而許多則是“軟”故障,其根本原因多種多樣,源于可插拔解決方案固有的復雜性和可變性。故障模式多種多樣,包括但不限于信號完整性問題和波動、連接器和引線鍵合質量、組件和引腳污染、噪聲注入以及其他瞬態效應。這些故障與組件故障的相關性很低。因鏈路故障而退回的光模塊中,80%經檢測“未發現故障”。

      CPO 通過以下方式顯著降低了大規模 AI 網絡中高速信號路徑固有的復雜性和可變性:

      1、顯著減少光接口中的組件數量。光子級和芯片/封裝級的高集成度降低了關鍵高速組件的復雜性,并提高了系統級的可靠性和良率。電光接口的數量也減少了,從而最大限度地降低了每個接口處的功率損耗。

      2、顯著改善主機ASIC(例如交換機)與光引擎之間主機電氣接口的信號完整性。通過將光引擎封裝在具有非常明確且確定的設計規則和制造公差的第一級封裝上,顯著降低了插入損耗、反射和其他非線性損傷。

      3、降低交換機高速信號路徑中端口間的差異,可以減少DSP信號處理、主機和模塊均衡、主機和模塊固件以及鏈路優化算法的開銷和復雜性。所有可插拔模塊解決方案以及主機SerDes都必須設計成能夠適應這種端口間性能的差異,否則會導致復雜性增加和故障點增多。

      消除光鏈路配置中的“人為”因素。CPO交換機或光引擎在出廠前已完成組裝和測試,確保“已知良好”,無需進行大量的現場操作來配置交換機中的光模塊,從而避免了安裝差異、損壞、污染以及系統和光模塊之間的兼容性問題。

      CPO上市及部署挑戰

      CPO光學引擎制造考量及市場推廣

      CPO 的產量尚未達到大規模應用所需的水平。博通是唯一一家交付搭載 CPO 的生產系統的廠商,其產品包括 Bailly 和 Humboldt 交換機,但現在英偉達也加入了競爭。不過,這些產品的出貨量仍然非常低。CPO 引入了許多新的制造工藝,給生產制造帶來了巨大的挑戰。可以理解的是,考慮到供應鏈的不成熟以及可靠性數據的缺乏,客戶也不愿貿然采用這項技術。

      要使CPO獲得市場認可,行業領導者必須投資于這些產品的交付,并推動供應鏈開發可擴展的制造和測試流程。英偉達率先邁出了這一步,他們的目標是讓供應鏈做好準備,識別并解決問題,并幫助數據中心運營商為我們認為的“殺手級”應用——縱向擴展網絡——做好準備。關于CPO,有幾個關鍵組成部分和注意事項需要關注,所有這些都會對性能和可制造性產生影響。這些組成部分和注意事項包括:

      1、主機和光引擎封裝(Host and Optical Engine packaging)

      2、光纖和光纖耦合(Fibers and Fiber coupling)

      3、激光源和波長復用(Laser Sources and Wavelength Multiplexing)

      4、調制器類型(Modulator Type)

      一、主機和光引擎封裝

      顧名思義,“共封裝光學器件”從根本上來說是一個封裝和組裝方面的挑戰。

      光引擎包含光學元件和電子元件。光電探測器和調制器是光學元件,包含在光子集成電路(PIC)中。驅動器和跨阻放大器是電子電路,包含在電子集成電路(EIC)中。光引擎需要將PIC和EIC集成在一起才能正常工作。目前存在多種封裝方法來實現PIC-EIC的集成。


      光引擎可以通過在同一片硅晶圓上制造光子集成電路 (PIC) 和電子集成電路 (EIC) 來實現單片集成。就寄生參數、延遲和功耗而言,單片集成是最理想的方案。

      Ayar Labs 的第二代 TeraPHY 芯片就采用了這種方案(盡管他們的下一代芯片將轉向臺積電 COUPE 工藝)。GlobalFoundries、Tower 和 Advanced Micro Foundry 等代工廠可以提供單片 CMOS 和 SiPho 工藝。然而,由于光子工藝無法像傳統 CMOS 工藝那樣擴展,單片工藝的幾何尺寸通常止步于 35nm 左右。這限制了 EIC 的性能,尤其是在 CPO 系統中,由于需要更高的通道速度,單片集成就顯得尤為重要。

      盡管單片集成本身具有簡潔性和優勢,但這也使得它難以擴展。因此,Ayar Labs 正在將其產品路線圖轉向異構集成光引擎,以實現進一步的擴展。

      異構集成正逐漸成為主流方法,該方法包括使用硅光電(SiPho)工藝制造光子集成電路(PIC),并通過先進封裝技術將其與CMOS晶圓上的電子集成電路(EIC)集成。目前存在多種封裝解決方案,更先進的封裝方案可提供更高的性能。其中,3D集成可提供最佳的帶寬和能效。EIC與PIC通信的一大難題是寄生效應,它會降低性能。大幅縮短走線長度可以顯著降低寄生效應,從而提高耦合效率:從帶寬和功耗的角度來看,3D集成是實現CPO性能目標的唯一途徑。

      臺積電 COUPE 正在成為首選的集成方案

      臺積電正迅速成為下一代光引擎(OE)的首選代工合作伙伴,無論是大型無晶圓廠廠商還是初創公司都對其青睞有加。首批采用CPO(緊湊型通用光子引擎)終端的大批量產品以“COUPE”之名推出,COUPE是“Compact Universal Photonic Engine”(緊湊型通用光子引擎)的縮寫。這包括EIC(電子集成電路)和PIC(光子集成電路)的制造,以及在臺積電COUPE解決方案下的異構集成。

      英偉達在GTC 2025大會上自豪地展示了其COUPE光引擎,這些產品將成為首批交付的COUPE產品。博通也已將COUPE納入其未來產品路線圖,盡管其現有幾代光引擎由其他供應鏈合作伙伴提供。如前所述,此前依賴Global Foundries的Fotonix平臺制造單片光引擎的Ayar Labs,現在也已將COUPE納入其產品路線圖。

      與在傳統CMOS邏輯領域的統治地位不同,臺積電此前在硅光子學領域的份額有限,GlobalFoundries和Tower Semi是其首選的代工合作伙伴。然而,近年來,臺積電在光子學方面的能力正在迅速追趕。臺積電在用于EIC組件的尖端CMOS邏輯方面擁有無可爭議的優勢,以及領先的封裝能力——臺積電是唯一一家成功實現合理規模的芯片-晶圓混合鍵合技術的代工廠,已批量交付了多款AMD混合鍵合芯片。

      混合鍵合是一種性能更高的PIC和EIC鍵合方法,但成本也顯著更高。英特爾正在努力開發類似的技術,但在開創這項技術方面面臨著諸多挑戰。

      總體而言,盡管臺積電此前在獨立硅光電器件(SiPho)領域實力較弱,但如今已成為封裝封裝(CPO)領域的關鍵參與者。與其他主要廠商一樣,臺積電的目標是盡可能多地占據價值鏈。通過采用臺積電的COUPE解決方案,客戶實際上承諾使用臺積電制造的光子集成電路(PIC),因為臺積電不封裝其他代工廠的硅光電晶圓。許多專注于封裝封裝的公司已果斷地將臺積電的COUPE方案納入其未來幾年的市場推廣解決方案中。


      芯片制造:臺積電提供全面的芯片制造解決方案。EIC采用N7工藝制造,集成了高速光調制器驅動器和TIA。它還包含加熱器控制器,以實現波長穩定等功能。而PIC則采用SOI N65工藝制造,臺積電為光子電路設計、光子布局設計和驗證,以及光子電路的仿真和建模(涵蓋射頻、噪聲和多波長等方面)提供廣泛的支持。

      EIC 和 PIC 采用 TSMC-SoIC 鍵合工藝進行鍵合。如前所述,較長的走線長度意味著更多的寄生效應,從而降低性能。TSMC 的 SoIC 是一種無凸點接口,可在不采用單片集成的情況下提供盡可能短的走線長度,因此是實現 EIC 和 PIC 異構集成的最佳性能方案。如下所示,在等功耗下,基于 SoIC 的 OE 的帶寬密度是采用凸點集成的 OE 的 23 倍以上。


      COUPE 支持整個光學引擎設計和集成流程。在光學 I/O 方面,它支持微透鏡設計,可在晶圓或芯片級集成微透鏡,并支持涵蓋反射鏡、微透鏡、光柵耦合器 (GC) 和反射器等光學 I/O 路徑的仿真。在 3D 堆疊方面,它支持 3D 布局規劃、SoIC-X/TDV/C4 凸點布局實現、接口物理檢查以及高頻通道模型提取和仿真。為確保無縫開發,公司提供完整的 COUPE 設計和驗證 PDK 和 EDA 工作流程,使設計人員能夠高效地實現其技術。

      耦合:稍后我們將詳細介紹,主要有兩種耦合方式——光柵耦合 (GCgrating coupling ) 和邊緣耦合 (ECedge coupling)。COUPE 在無凸點 PIC 堆疊結構上使用相同的 EIC 來實現 GC 和 EC。然而,COUPE-GC 結構將采用硅透鏡 (Si 透鏡) 和金屬反射器 (MR),而 COUPE-EC 結構則具有獨特的 EC 端面(用于將 EC 端接至光纖)。對于 GC,Si 透鏡設計在 770μm 厚的硅載體 (Si 載體) 上,MR 位于 GC 正下方,并帶有優化光學性能所需的介質層。然后,Si 載體通過晶圓級 (WoW) 鍵合到芯片級 (CoW) 晶圓上。


      光纖連接單元 (FAUFiber Attach Unit) :FAU 的設計需要與 COUPE 的光路相匹配。FAU 的作用是以低插入損耗將來自硅透鏡的光耦合到光纖中。隨著 I/O 數量的增加,制造難度也會增加,但如果業界能夠遵循特定標準,則可以縮短開發時間并降低成本。總而言之,每個組件都需要優化設計才能實現最佳光學性能。


      產品路線圖:COUPE 的首批迭代產品將是基板上的光引擎,最終目標是將光引擎放置在中介層上。中介層可提供更高的 I/O 密度,從而實現光引擎與 ASIC PHY 之間更大的帶寬,單個光引擎的帶寬最高可達 12.8Tbit/s,相當于約 4Tbit/s/mm。集成中介層的挑戰在于如何縮小中介層的尺寸(中介層比封裝基板更昂貴)以容納光引擎。

      這就是為什么博通盡管此前已采用SPIL開發的扇出型晶圓級封裝(FOWLP)技術迭代了多代CPO解決方案,最終還是決定轉向臺積電的COUPE技術。值得注意的是,博通已承諾在其未來的交換機和客戶加速器產品路線圖中采用COUPE技術。我們了解到,由于寄生電容過大,FOWLP技術無法實現單通道100G以上的擴展,因為電信號必須通過模內通孔(TMV)才能到達EIC。為了保持產品路線圖的競爭力,博通必須轉向COUPE技術,因為該技術具有更優異的性能和可擴展性。這凸顯了臺積電的技術優勢,使其即使在以往被認為較弱的光學領域也能贏得市場。


      將 OE 與主機打包

      OE本身被放置在基板上,之后基板通過倒裝芯片鍵合連接到主機封裝上。共封裝OE需要很大的封裝面積。這就需要顯著增大封裝基板或中介層的尺寸,具體取決于OE的放置位置。例如,英偉達Spectrum-X Photonics開關ASIC封裝的基板尺寸為110mm x 110mm。相比之下,Blackwell封裝的尺寸為70mm x 76mm,而Blackwell本身也是一個非常大的芯片。

      此外,將更多元件連接到基板上會帶來良率方面的挑戰。同樣,對于 Spectrum-X 而言,需要先將 36 個已知良率良好的 OE 元件倒裝鍵合到基板上,然后再將中介層模塊鍵合到基板上,完成“基板上”組裝步驟,從而完成 CoWoS 組件的組裝。

      同樣,對于中介層而言,制造尺寸更大的中介層成本更高,需要粘合更多元件,這會帶來良率方面的挑戰。此外,隨著中介層/基板尺寸的增大,翹曲問題會更加突出,從而加劇這些挑戰。

      二、FAU 和光纖耦合

      光纖從OE引出用于數據傳輸。一條光通道由兩根光纖或一對光纖組成(發送加接收)。光纖耦合——即將光纖與片上波導精確對準以實現平滑高效的光傳輸——是芯片光子輸出 (CPO) 中至關重要且極具挑戰性的步驟,而光纖陣列單元 (FAU) 在 CPO 中被廣泛用于輔助這一過程。實現光纖耦合主要有兩種方式:邊緣耦合 (EC) 和光柵耦合 (GC)。

      邊緣耦合

      邊緣耦合將光纖沿芯片邊緣對齊。從下圖可以看出,光纖末端必須與芯片的拋光邊緣精確對齊,以確保光束準確進入邊緣耦合器。光纖末端的微透鏡將光聚焦并導向芯片,引導光束進入波導。波導的錐形部分逐漸變寬,從而實現平滑的模式過渡,減少反射和散射,確保耦合效率。如果沒有這樣的透鏡和錐形部分,光纖端面和波導端面之間的界面處將存在顯著的光損耗。


      邊緣耦合因其耦合損耗低、可與寬波長范圍的光配合使用以及對偏振不敏感而備受青睞。然而,它也存在一些缺點:

      1、制造過程更加復雜,需要進行底切和深蝕刻;

      2、由于纖維是一維結構,因此纖維密度可能受到限制;

      3、它與芯片堆疊不兼容(因為TSV需要減薄);

      4、機械可靠性方面的挑戰包括外形尺寸、機械應力、翹曲和纖維處理;

      5、它的熱可靠性較低;

      6、總體而言,生態系統兼容性不足。

      在今年的超大規模集成電路(VLSI)大會上,Global Foundries(GFS)展示了一款單片集成的SiN邊緣耦合器,該耦合器在其標志性的45nm“Fotonix”平臺上實現了32個通道和127μm間距。

      光柵耦合(GC)

      在光柵耦合器(GC)中,光從頂部進入,光纖以較小的角度位于光柵上方。當光到達光柵時,周期性結構會散射光并將其向下彎曲進入波導。

      光柵/垂直耦合的主要優勢在于能夠容納多排光纖,從而允許每個光引擎使用更多光纖。此外,光柵耦合器無需放置在基板底部,因此可以將光引擎放置在中介層上。最后,光柵耦合器的定位精度要求不高,并且可以通過簡單的兩步蝕刻工藝輕松制造。光柵耦合器的缺點是單偏振光柵耦合器僅適用于有限的波長范圍,并且對偏振非常敏感。

      英偉達之所以偏愛GC技術,是因為它具有諸多優勢——它能實現二維高密度封裝,占地面積更小,制造工藝更簡便,并且相比EC技術,晶圓級測試也更簡單。然而,該公司也意識到GC技術的幾個缺點——它通常會引入更高的光損耗,并且光帶寬比EC技術更窄(后者通常可以容納更寬的光譜范圍)。

      臺積電顯然也更偏愛GC,其COUPE平臺支持GC。


      三、激光器類型和波分復用(WDM)

      將激光器集成到 CPO 中主要有兩種方法。

      第一種方法是片上激光器,它將激光器和調制器集成在同一光子芯片上,通常是通過將 III-V 族(InP)材料鍵合到硅上來實現的。雖然片上激光器簡化了設計并降低了插入損耗,但也存在一些挑戰:

      眾所周知,激光器是系統中故障率最高的組件之一——如果將其集成到 CPO 引擎中,故障將產生巨大的影響范圍,因為它會摧毀整個芯片;

      激光器對熱也很敏感,將它們放在共封裝的 OE 上會使激光器暴露在高溫下,因為它會非常靠近系統中溫度最高的部分——主體硅,這只會加劇這個問題;

      片上激光器通常難以提供足夠高的功率輸出。

      目前業界普遍認同的方案是采用外部光源(ELS)。激光器位于一個獨立的模塊中,通過光纖連接到光引擎。通常,這種激光器采用可插拔封裝,例如OSFP。這種設計簡化了激光器故障(這種情況相當常見)的現場維修。

      ELS的缺點是功耗較高。如下圖所示,在基于ELS的系統中,由于連接器損耗、光纖耦合損耗和調制器效率低下等多種因素,輸出功率會在多個階段損失。因此,該系統中的每個激光器必須提供24.5 dBm的光功率來補償損耗并確保可靠傳輸。高功率激光器會產生更多熱量,并且在熱應力下性能下降更快,激光器和熱電冷卻器約占ELS功耗的70%。雖然激光器設計、封裝和光路方面的改進有所幫助,但激光器高功率需求的問題尚未得到徹底解決。

      在今年的 VLSI 大會上,Nvidia 重點介紹了其生態系統中的幾家激光合作伙伴:Lumentum 提供單個高功率 DFB,Ayar Labs 提供 DFB 陣列,Innolume 提供量子點鎖模梳,以及 Xscape、Enlightra 和 Iloomina 提供泵浦非線性諧振梳。

      英偉達也曾討論過探索使用VCSEL陣列作為潛在的替代激光解決方案。雖然單根光纖的數據速率會較低,并且可能存在一些散熱問題,但VCSEL或許能夠提供更高的功率和成本效益,并且適用于“寬帶寬、低速”的應用。不過,我們認為這并非英偉達的當務之急。


      波分復用 (WDM) 是指在同一根光纖上傳輸多個不同波長(或稱λ)的光。WDM 的兩種常見變體是粗波分復用 (CWDM) 和密集波分復用 (DWDM)。CWDM 通常承載較少的通道,通道間距相對較大(通常為 20 nm),而 DWDM 則承載許多通道,通道間距非常小(通常小于 1 nm)。CWDM 較寬的通道間距限制了其容量,而 DWDM 較窄的通道間距可以容納 40、80 甚至 100 多個通道。WDM 非常重要,因為目前大多數 CPO 實現方案都受到可連接到光引擎的光纖數量的限制。有限的光纖對意味著必須最大化利用每一對光纖。

      四、調制器類型

      當激光進入光子集成電路(PIC)時,它們會經歷一個調制階段(由驅動器驅動),在此階段,電信號被編碼到激光的波長中。用于此過程的三種主要調制器是馬赫-曾德爾調制器(MZM)、微環調制器(MRM)和電吸收調制器(EAM)。每個波長(單個光路上的單個波長)都需要一個調制器。馬赫-曾德爾調制器(MZM)

      1、馬赫-曾德爾調制器( MZM:Mach-Zehnder Modulator )

      通過將連續波光信號分成兩路波導臂來編碼數據,這兩路波導臂的折射率可通過施加電壓來改變。當兩路波導臂重新組合時,它們的干涉圖樣會調制信號的強度或相位。


      在三種調制器中,MZM 最易于實現,且熱敏感性低,因此無需精確的溫度控制。其高線性度支持 PAM4 和相干 QAM 等高級調制格式(盡管 QAM 不適用于高性能計算/人工智能工作負載)。MZM 的低啁啾特性提高了高階調制和遠距離傳輸的信號完整性。此外,MZM 還支持更高的單通道帶寬:已證實每通道 200G 的帶寬可行,并且據信使用非相干 PAM 調制可以實現每通道 400G 的帶寬。

      然而,MZM的缺點是:

      由于MZM需要兩個波導臂和一個合路區,其尺寸較大,以毫米級測量(相比之下,MRM的尺寸以微米級測量),這會占用更多的芯片面積,并限制光電集成電路(OE PIC)中調制器(以及通道)的密度。MZM的尺寸約為12,000mm2 ,EAM約為250mm2 (5x50mm),而MRM的尺寸在25mm2到225mm2之間(直徑5-15mm2 )。這是MZM的一個關鍵缺點,會限制其尺寸的縮小。然而,如果考慮到包含驅動器和調制器周圍光電控制電路的完整PIC/EIC組合的尺寸,MZM的尺寸劣勢可能就不那么明顯了。

      由于相移過程需要大量能量,因此馬赫-曾德爾調制器(MZM)的功耗較高。此外,其偏置條件(即啟動電壓)也高于工作在亞電壓下的MRM。然而,像Nubis這樣的公司正在嘗試開發巧妙的設計來改善MZM的功耗劣勢。

      在創業生態系統中,Nubis是主要利用MZM構建其規模化CPO解決方案的公司之一。由于MZM體積較大且lambda函數數量有限,因此在創業生態系統中并未得到廣泛應用。微環調制器(MRM)

      2、調制反射調制器( MRM:Micro-Ring Modulators )

      使用一個緊湊的環形波導,該波導與一個或多個直波導耦合。電信號會改變環形波導的折射率,從而改變其諧振波長。通過調節諧振頻率使其與輸入光波長對齊或錯位,MRM 可以調制光信號的強度或相位,從而實現數據編碼。

      光源從輸入端口進入環形諧振器——對于大多數波長的光,環形諧振器不會發生諧振,因此光會從輸入端口穿過器件到達直通端口。如果波長滿足諧振條件,則光會在環形諧振器中發生相長干涉,并被引入下端口。如下圖所示的歸一化功率曲線所示,特定波長的光會在下端口引起傳輸功率的尖峰,并在直通端口引起相應的傳輸功率下降。這種效應可用于調制。


      光引擎通常使用多個 MRM,每個環都可以調諧到不同的波長,從而可以使用環本身實現波分復用 (WDM),而無需額外的設備來實現 WDM。

      MRM具有以下幾個主要優勢:

      它們極其緊湊(尺寸在幾十微米以內),因此可以比 MZM 具有更高的調制器密度。MZM 的尺寸約為 12,000mm2 ,EAM 約為 250mm2 (5x50mm),MRM 的尺寸在 25mm2到225mm2之間(直徑 5-15mm2);

      環形天線非常適合 WDM 應用(包括 8 或 16 個波長的 DWDM),并且具有內置復用/解復用功能;

      MRM 可以非常節能(每比特功耗更低);

      最后,環形天線的啁啾聲很低,這提高了信號質量。

      然而,MRM也面臨一些挑戰:

      MRM 的溫度敏感度可能比 MZM 和 EAM 高 10-100 倍,因此需要非常精確的控制系統,而這些控制系統的設計和制造都具有挑戰性;

      它們是非線性的,這使得 PAM4/6/8 等高階調制變得復雜;

      由于每個設計都有精確的要求,因此 MRM 的靈敏度和嚴格的溫度控制公差使得標準化變得困難。

      在眾多解決方案提供商中,英偉達對微控制器模塊(MRM)表現出明顯的偏好。他們聲稱是首家設計并將MRM應用于CPO系統的公司。該公司認為MRM的關鍵優勢在于其緊湊的尺寸和低驅動電壓,這有助于降低功耗。然而,MRM技術也以難以控制而著稱,因此設計精度對于成功實施至關重要——而這恰恰是英偉達的優勢所在。

      在制造方面,臺積電先進的CMOS技術非常適合制造高精度、高品質因數的微反射鏡。此外,Tower公司在光子學節點方面也擁有強大的制造能力。

      MRM(混合存儲器模塊)的實現雖然具有挑戰性,但并非完全不可行。它們有望實現比MZM(混合零模存儲器)更高的帶寬密度。正因如此,臺積電、英偉達以及眾多CPO(芯片產品)公司,例如Ayar Labs、Lightmatter和Ranovus,都將目光聚焦于這項技術路線圖。電吸收調制器(EAM)

      3、電吸收調制器(EAM:Electro-Absorption Modulators)

      通過改變其對光的吸收能力來調制信號,這種改變取決于所施加的電壓。更具體地說,當對EAM施加低電壓或無電壓時,該器件允許大部分入射激光通過,使其呈現透明或“開放”狀態。當施加較高電壓時,鍺硅(GeSi)調制器的帶隙會移動以覆蓋高C波段范圍(1500nm以上),從而增加這些波長的吸收系數,并衰減“關閉”通過附近波導的光信號。這被稱為弗朗茨-凱爾迪什效應。這種“開放”和“關閉”狀態之間的切換會調制光的強度,從而有效地將數據編碼到光信號上。


      如今,采用電吸收調制激光器 (EML) 進行調制的收發器也運用了相同的原理。連續波 (CW:continuous wave) 分布式反饋 (DFB:distributed feedback) 激光器和基于磷化銦 (InP) 的電吸收調制器 (EAM) 耦合在一起,構成一個獨立的 EML,可以調制一條光纖通道。例如,一個 800G DR8 收發器在 8 條獨立的光纖通道上使用 8 個 EML,每個 EML 使用 PAM4 調制(2 比特/信號),信令速率約為 56 GBaud。與基于鍺硅 (GeSi) 的調制器不同,InP 調制器的帶隙對應于 O 波段 (1310nm),這是所有數據通信 DR 光器件的標準波長,從而實現了高度的互操作性。

      InP調制器存在一些缺點,使其不太適合用于CPO工藝。InP晶圓尺寸通常較小(3英寸或6英寸),且良率較低——這兩個因素都會導致基于InP的器件單位成本高于可采用8英寸或12英寸工藝制造的硅器件。此外,將InP與硅耦合也比將GeSi與其他硅器件耦合要困難得多。

      與 MRM 和 MZI 相比,EAM 具有以下幾個優勢:

      顯然,EAM 和 MRM 都具有控制邏輯和加熱器,用于穩定其工作溫度,但 EAM 對溫度的敏感性從根本上來說要低。與 MRM 相比,EAM 在 50°C 以上具有更好的熱穩定性,而 MRM 對溫度非常敏感。MRM 的典型穩定性為 70-90 pm/°C,這意味著 2°C 的溫度變化會導致諧振頻率偏移 0.14nm,遠遠超過 MRM 性能崩潰所需的 0.1nm 諧振頻率偏移。相比之下,EAM 可以承受高達 35°C 的瞬時溫度變化。這種耐受性對于 Celestial AI 的方案尤為重要,因為他們的 EAM 調制器位于高功耗 XPU 計算引擎下方的中介層中,該引擎會消耗數百瓦的功率。EAM 還可以承受高達 80°C 的環境溫度,這可能適用于位于 XPU 旁邊而非下方的芯片組應用。

      與馬赫-曾德爾調制器 (MZI) 相比,電吸收調制器 (EAM) 的尺寸要小得多,功耗也更低。這是因為 MZI 的尺寸相對較大,需要較高的電壓擺幅,而 EAM 需要通過放大串行器/解調器 (SerDes) 來實現 0-5V 的擺幅。馬赫-曾德爾調制器 (MZM) 的面積約為 12,000mm2 ,EAM 約為 250mm2 ( 5x50mm),而馬赫-曾德爾調制器 (MRM) 的面積則在 25mm2 到 225mm2 之間(直徑5-15mm2 )。此外,MZI 還需要更高的功率來驅動加熱器,以維持如此大的器件在所需的偏置電壓下工作。

      另一方面,使用GeSi EAM進行CPO也存在一些缺點:

      基于硅或氮化硅的物理調制器結構,例如MRM和MZI,通常被認為比基于GeSi的器件具有更高的耐久性和可靠性。事實上,鑒于鍺基器件的加工和集成難度,許多人對基于GeSi的器件的可靠性表示擔憂。但Celestial公司認為,基于GeSi的EAM(本質上是光電探測器的逆過程)的可靠性是毋庸置疑的,因為如今光電探測器在收發器中應用廣泛。

      GeSi調制器的能帶邊緣天然位于C波段(即1530nm-1565nm)。設計量子阱將其移至O波段(即1260nm-1360nm)是一個非常棘手的工程難題。這意味著基于GeSi的EAM很可能構成一個封閉式CPO系統,而難以融入開放式芯片生態系統。

      與使用成熟的O波段連續波激光器生態系統相比,圍繞C波段激光器構建激光生態系統可能會存在規模不經濟的問題。大多數數據通信激光器都是為O波段設計的,但Celestial指出,目前也生產相當數量的1577nm XGS-PON激光器。這些激光器通常用于家庭和企業光纖到戶連接應用。

      SiGe EAM 的插入損耗約為 4-5dB,而 MRM 和 MZI 的插入損耗約為 3-5dB。雖然 MRM 可以直接復用不同波長,但 EAM 需要單獨的復用器來實現 CWDM 或 DWDM,這會略微增加潛在的損耗預算。

      總體而言,EAM 在當前的 CPO 實施中并未得到廣泛應用,而 Celestial AI 是少數積極采用這種方法的公司之一。

      OE路線圖——擴大OE規模

      目前市面上的光學引擎通常提供 1.6T 到 3.2T 的總帶寬。英偉達的 Quantum CPO 包含一個 1.6T 的引擎,并計劃為 Spectrum 推出 3.2T 版本。博通展示了其為 Bailly 平臺開發的 6.4T 光學引擎,但其尺寸非常大(寬度是英偉達產品的 2-3 倍),并且需要兩個 FAU,因此其帶寬密度可能與英偉達的產品類似。Marvell 的 6.4T 光學引擎也存在同樣的問題,需要兩個 FAU,因此占用空間較大。據我們所知,Marvell 的光學引擎近期也不會應用于任何量產系統。


      正如我們之前討論過的,英偉達Spectrum-X光子交換機中采用的3.2T光引擎(OE)方案,其海岸線帶寬密度并不比采用長距離SerDes的可插拔交換機更高。換句話說,光引擎密度必須成倍提升才能帶來顯著的性能優勢并推動客戶采用。這意味著既要擴展主機芯片與光引擎EIC之間的電氣接口,也要擴展光纖輸出的帶寬。

      但是,如果我們能夠自由地設計下一代互連技術,那么有哪些方法可以為這一代以及未來的互連技術釋放更大的帶寬呢?擴展帶寬的關鍵方法

      讓我們來探討一下擴展共封裝光引擎帶寬的關鍵方法:

      1、繼續采用基于電SerDes的PHY:通過使用短距離(SR)SerDes而非長距離SerDes,可以簡化設計實現、減小面積并降低功耗。但最終,這仍然會受到電接口處SerDes速度的限制,而我們在這方面已經接近極限。此處的想法是采用一種過渡方案,使芯片設計人員無需重新設計其I/O。此外,使用電SerDes還可以靈活地在同一芯片上使用現有的可插拔光模塊和/或銅箔。

      2、使用寬 I/O PHY(例如 UCIe),并采用較低的波特率(例如 56G)和 NRZ 調制。這可以降低光引擎的 EIC 要求,甚至可以省去昂貴的混合綁定,因為在低速傳輸時寄生效應的影響較小。然而,使用低信號速率意味著離開光引擎的光纖數量更容易成為瓶頸。波分復用 (WDM) 通過允許每根光纖并行傳輸多個數據流來解決這個問題。

      3、使用諸如 UCIe 之類的寬 I/O PHY,然后讓 EIC 將信號串行化到較少數量的光纖通道。繼續使用高波特率和 PAM4 調制來最大化每條光通道的速度,如果需要,可以使用 WDM 方案添加多個波長,從而允許每對光纖傳輸多個波長,以進一步提高帶寬。

      解決了電氣方面的問題后,下一個挑戰是光纖能夠承載多大的逃逸帶寬。光纖總帶寬取決于三個關鍵因素:1)光纖數量(決定光通道數量);2)每條光通道的傳輸速度;3)每根光纖的波長數量——每個因素都代表著一個擴展維度。

      近來,業界將光纖傳輸理念分為兩大類:快速窄帶和慢速寬帶(Fast and Narrow vs Slow and Wide)。快速窄帶方案設想每個光纖單元 (FAU) 使用較少的光纖(最多不超過兩位數),并且每對光纖都提供高速鏈路;而慢速寬帶方案則基于更多的光纖對(可能采用更小的間距)以及每對光纖更低的帶寬。

      1、更多光纖對:光纖密度受光纖間距限制,而單個光纖陣列單元 (FAU) 內的光纖總數則受限于制造工藝,超過此限制,良率就會受到影響。目前,光纖的最小間距為 127 微米 (μm),這意味著每毫米最多可容納 8 根光纖。業界正致力于研發 80 μm 間距和多芯光纖,以進一步提高特定區域可容納的光纖數量。然而,增加光纖數量會帶來制造方面的挑戰:

      A) 光纖對準仍然需要大量人工操作,容易造成良率損失,而且每增加一根需要對準的光纖,FAU 的良率都會下降;雖然像 Ficontec 這樣的公司提供了自動化工具,但它們的吞吐量仍然很低;

      B) 耦合方式的選擇也很重要:邊緣耦合將光纖陣列限制為單行,而光柵耦合可以支持多行。目前我們見過的最大光纖陣列是 Nubis 的二維 FAU,它包含 36 根光纖。

      2、每lane的速度:影響lane速度的因素有兩個:

      A)波特率:定義每秒發送的符號數;目前先進的系統運行在 100 Gbaud,而業界正在努力實現 200 Gbaud。然而,更高的波特率對調制器提出了更高的要求,即需要以更高的頻率進行切換;在各種類型的調制器中,MZM 在這方面表現最佳,并且相對而言,實現 200 Gbaud 的路徑也最為清晰。

      B)調制方式:定義每個符號攜帶的比特數。NRZ(每個符號 1 比特)和 PAM4(每個符號 2 比特,通過 4 種不同的幅度)目前被廣泛采用。研究正在擴展到 PAM6(每個符號約 2.6 比特)和 PAM8(每個符號 3 比特)。通過使用不同相位的光信號以及多個幅度級別,可以實現更高階的調制方案。 DP-16QAM 可實現兩個正交平面,每個平面具有 4 種不同的幅度、4 種不同的相位,總共可產生 256 種可能的信號——每個信號可提供 8 位。

      3、波分復用 (WDM) :光纖可以同時傳輸多個波長的光。例如,一根具有 8 個波長的光纖,每個波長傳輸 200Gbit/s 的數據,總傳輸容量可達 1.6Tbit/s。目前市售的 DWDM 解決方案通常提供 8 波長或 16 波長配置。研究人員也在探索寬光譜、頻帶復用和交織技術來增加波長數量。擴展波長數量的一個關鍵挑戰是開發能夠可靠高效地產生多條光通道的激光光源。

      Ayar Labs 的 Supernova 光源配備了一個能夠產生 16 個波長的激光器(該激光器由 Sivers 提供)。Scintil 的晶圓級 InP 激光器同樣可以提供多達 16 個波長,而 Xscape Photonics 正在致力于開發一種可調諧的梳狀激光器,其波長可達 64 個。在調制器中,MRM 最適合處理多個波長,并且具有內置的復用(mux)和解復用(demux)功能。

      下表概述了將光學引擎擴展到 12.8T 及以上的幾種方法。


      CPO 的采用速度和部署挑戰

      英偉達的首批CPO產品將面向后端橫向擴展交換機,其中InfiniBand CPO交換機將于2025年下半年上市,以太網CPO交換機將于2026年下半年上市。我們認為,這一初期階段主要目的是進行市場測試,并為供應鏈的成熟做好準備。我們預計2026年的總出貨量將在1萬至1.5萬臺之間。

      要使CPO部署能夠更快、更廣泛地推進并真正普及,就必須有更令人信服的理由來支持采用CPO。可能的原因有兩種:一是采用CPO能夠顯著降低總體擁有成本;二是驅動信號從交換機ASIC傳輸到交換機盒前面板所需的長距離SerDes在速度或傳輸距離方面遇到了瓶頸。

      數據中心運營商不喜歡部署基于 CPO 的系統,而這主要體現在兩個方面,即缺乏互操作性和可維護性挑戰,從而抵消了 TCO 的任何優勢。

      CPO的挑戰不僅限于封裝內部,還延伸至整個系統。光纖管理、前面板密度、外部激光器等都是至關重要的環節,但也極具挑戰性。為了實現CPO,芯片公司需要提供客戶可部署的端到端解決方案。這延續了我們目前觀察到的趨勢,尤其是在英偉達(Nvidia)身上,該公司專注于系統設計以擴展性能。

      專有解決方案與標準

      CPO 采用面臨的一個關鍵挑戰是實現互操作性,同時克服業界對成熟且高度互操作的可插拔光模塊模型的根深蒂固的依賴。

      互操作性主要有三種類型:(1)電氣互操作性,(2)光學互操作性,以及(3)機械互操作性。對于可插拔設備而言,互操作性:

      1、通常由光互聯網論壇 (OIF) 負責處理,

      2、通常由 IEEE(有時也由 OIF)負責處理。IEEE 通過其 IEEE 802.3 標準發揮著核心作用,該標準定義了以太網物理介質相關 (PMD) 層。這些規范涵蓋了關鍵參數,例如調制格式、通道速度、通道數量、傳輸距離、介質類型以及光信號的波長。通過遵循這些標準化的 PMD,不同廠商的收發器可以互換使用,從而確保在多廠商生態系統中實現真正的即插即用兼容性,

      3、通常由多源協議 (MSA) 負責處理。MSA 定義了專門的解決方案,并確保在官方 IEEE 標準之外的多廠商互操作性。

      通過 OIF、IEEE 標準和 MSA 的結合,可插拔收發器實現了廣泛的互操作性和強大的多廠商生態系統。對于 CPO 而言:

      1、CPO 模塊的電氣兼容性至關重要,否則它們將無法與最先進的 SerDes 通信。

      2、光兼容性也十分重要,因為它可以與集群中其他位置的標準可插拔設備兼容。

      3、需要注意的是,CPO 目前仍處于“蠻荒西部”階段,一些解決方案和架構決策導致了完全專有的外形尺寸。這正是新的 OIF 高密度互連方案(例如 CPX 范式)試圖解決的問題。

      一旦滿足了 (1)+(2)+(3) 的要求,CPO 的操作方式將與可插拔設備非常相似,這將有助于其廣泛應用。

      然而,目前CPO在標準化方面還不如可封裝芯片那樣成熟,也無法像光收發器那樣保證互操作性。部分原因是廠商更傾向于推廣系統級解決方案,而不是單獨向芯片制造商銷售芯片。這是因為CPO的挑戰不僅限于封裝內部,還延伸到整個系統。光纖管理、前面板密度、調制器架構和外部激光器等都是至關重要的環節,同時也帶來了諸多挑戰。為了推動CPO的普及,像英偉達這樣的公司需要首先提供端到端的解決方案。

      實現這一目標的一種方法是采用組件級標準化解決方案,其中共封裝的光電器件(OE)采用標準化的光纖接口,并集成符合以太網標準或多標準協議(MSA)的波長、速度和調制方式的光子組件,例如激光器、調制器和光電二極管。這將實現真正的互操作性,使客戶能夠混合搭配不同供應商的產品,而無需從單一...

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      一份“煮熟的三文魚”火了,原來低認知的家長,真能搞出人命!

      一份“煮熟的三文魚”火了,原來低認知的家長,真能搞出人命!

      妍妍教育日記
      2026-03-07 08:45:06
      伊朗大規模發射新一代導彈,摧毀美軍多個基地雷達、飛機燃料庫、MQ-9無人機機庫等,以及多套薩德,“整個地區都能看到滾滾濃煙”

      伊朗大規模發射新一代導彈,摧毀美軍多個基地雷達、飛機燃料庫、MQ-9無人機機庫等,以及多套薩德,“整個地區都能看到滾滾濃煙”

      每日經濟新聞
      2026-03-07 01:03:56
      項立剛質問莫言不為伊朗兒童說話,項立剛為中國患兒捐款了嗎?

      項立剛質問莫言不為伊朗兒童說話,項立剛為中國患兒捐款了嗎?

      書寫者
      2026-03-06 19:33:38
      中東打仗,駐韓美軍異動?

      中東打仗,駐韓美軍異動?

      新民周刊
      2026-03-07 09:17:30
      69年周總理擔心蘇聯動用核武器,毛主席反問總理:你讀過明史嗎

      69年周總理擔心蘇聯動用核武器,毛主席反問總理:你讀過明史嗎

      兵卒史
      2026-03-07 07:01:17
      伊朗發起第16輪反擊后,不到48小時,有兩國反水,特朗普氣到跳腳

      伊朗發起第16輪反擊后,不到48小時,有兩國反水,特朗普氣到跳腳

      浪子阿邴聊體育
      2026-03-06 09:22:21
      周杰倫突然發文:給我等著

      周杰倫突然發文:給我等著

      觀察者網
      2026-03-07 07:33:08
      血虧466億,京東虧的到底值不值?

      血虧466億,京東虧的到底值不值?

      風聲聲
      2026-03-06 18:21:45
      白巖松兩會大談養老金!言語犀利口碑暴增,句句說到網友的心坎里

      白巖松兩會大談養老金!言語犀利口碑暴增,句句說到網友的心坎里

      大魚簡科
      2026-03-06 19:23:22
      美國伊朗沖突,那些造“官謠”的人已經魔怔了

      美國伊朗沖突,那些造“官謠”的人已經魔怔了

      清書先生
      2026-03-06 17:06:21
      謝謝謝娜,貢獻出26年內娛的第一個笑話!

      謝謝謝娜,貢獻出26年內娛的第一個笑話!

      娛樂圈筆娛君
      2026-03-04 14:03:54
      騰訊大廈排長隊!市民爭相免費安裝AI“龍蝦”,線下代裝500元一次

      騰訊大廈排長隊!市民爭相免費安裝AI“龍蝦”,線下代裝500元一次

      極目新聞
      2026-03-06 22:11:40
      老年人的性生活多久一次合理?要戴套嗎?答案顛覆認知

      老年人的性生活多久一次合理?要戴套嗎?答案顛覆認知

      賤議你讀史
      2026-03-06 23:28:50
      1只都不行!2015年,廣東老人半個小時徒手抓了22只,想煲湯喝

      1只都不行!2015年,廣東老人半個小時徒手抓了22只,想煲湯喝

      萬象硬核本尊
      2026-03-06 14:10:17
      豪門悲喜夜:巴黎圣日耳曼1-3,拜仁4-1,皇馬2-1,利物浦3-1晉級八強

      豪門悲喜夜:巴黎圣日耳曼1-3,拜仁4-1,皇馬2-1,利物浦3-1晉級八強

      側身凌空斬
      2026-03-07 06:10:33
      伊方:因美以襲擊喪生的伊朗人三成為青少年

      伊方:因美以襲擊喪生的伊朗人三成為青少年

      環球網資訊
      2026-03-07 06:39:29
      伊朗學校葬禮上的這個中國書包,令人心碎

      伊朗學校葬禮上的這個中國書包,令人心碎

      補壹刀
      2026-03-05 00:24:07
      中國石油股東賭贏了!數百艘油輪堵在石油海峽,德黑蘭突然踩剎車

      中國石油股東賭贏了!數百艘油輪堵在石油海峽,德黑蘭突然踩剎車

      有范又有料
      2026-03-06 18:35:54
      女子實名舉報某團外賣:不上大額券就讓我變成“凌晨營業”,你們真黑!

      女子實名舉報某團外賣:不上大額券就讓我變成“凌晨營業”,你們真黑!

      回旋鏢
      2026-03-06 21:13:59
      難道伊朗背后真有高人指導?紐約時報:他專挑美國弱點下死手!

      難道伊朗背后真有高人指導?紐約時報:他專挑美國弱點下死手!

      青青子衿
      2026-03-06 00:13:50
      2026-03-07 12:07:00
      線纜行業朋友分享圈 incentive-icons
      線纜行業朋友分享圈
      線纜行業最新資訊分享
      1433文章數 1604關注度
      往期回顧 全部

      科技要聞

      OpenClaw爆火,六位"養蝦人"自述與AI共生

      頭條要聞

      中東局勢動蕩 歐盟"女外長"污蔑:中國趁機拿捏歐洲

      頭條要聞

      中東局勢動蕩 歐盟"女外長"污蔑:中國趁機拿捏歐洲

      體育要聞

      塔圖姆歸來:凱爾特人的春之綠

      娛樂要聞

      周杰倫田馥甄20年地下情 被扒得底朝天

      財經要聞

      針對"不敢休、不讓休"怪圈 國家出手了

      汽車要聞

      逃離ICU,上汽通用“止血”企穩

      態度原創

      藝術
      房產
      家居
      數碼
      軍事航空

      藝術要聞

      Mark Grantham | 城市街景

      房產要聞

      傳統學區房熄火?2月海口二手房爆火的板塊竟然是…

      家居要聞

      暖棕撞色 輕法奶油風

      數碼要聞

      英特爾酷睿Ultra 5 250K Plus處理器PassMark跑分曝光

      軍事要聞

      伊朗:使用無人機擊中美軍"林肯"號航母

      無障礙瀏覽 進入關懷版