告別銅纜，英偉達(dá)CPO光互連明年落地

2025-08-25 18:20:13　來源: 半導(dǎo)體產(chǎn)業(yè)縱橫

北京舉報

分享至

本文由半導(dǎo)體產(chǎn)業(yè)縱橫（ID：ICVIEWS）編譯自tomshardware

英偉達(dá)的CPO能夠以更低的功耗實(shí)現(xiàn)更快的連接。

當(dāng)前AI技術(shù)高速迭代，大規(guī)模GPU集群在訓(xùn)練與推理過程中產(chǎn)生的海量數(shù)據(jù)交互需求呈指數(shù)級增長，傳統(tǒng)互連方式已難以滿足低延遲、高帶寬的通信要求，這一趨勢正推動行業(yè)加速向光通信技術(shù)轉(zhuǎn)型，以突破跨網(wǎng)絡(luò)層數(shù)據(jù)傳輸?shù)男阅芷款i。

今年早些時候，英偉達(dá)率先布局這一領(lǐng)域，宣布其下一代機(jī)架級AI平臺將融合兩大關(guān)鍵技術(shù)——硅光子互連技術(shù)與共封裝光學(xué)器件（CPO）。其中，硅光子技術(shù)憑借光子傳輸?shù)母咚偬匦蕴嵘龜?shù)據(jù)交互效率，CPO則通過將光學(xué)引擎與芯片封裝集成，減少信號損耗，兩者結(jié)合旨在同時實(shí)現(xiàn)更高的傳輸速率與更低的功耗，為AI集群的高效運(yùn)行提供底層支撐。

在今年舉辦的Hot Chips大會（國際高性能芯片領(lǐng)域重要會議）上，英偉達(dá)進(jìn)一步披露了該方向的技術(shù)落地細(xì)節(jié)，重點(diǎn)發(fā)布了下一代Quantum-X和Spectrum-X兩款光子互連解決方案的更多參數(shù)與功能信息。同時，官方明確了這兩款解決方案的上市時間節(jié)點(diǎn)——計(jì)劃于2026年正式推向市場，標(biāo)志著英偉達(dá)在AI集群光互連領(lǐng)域的技術(shù)布局已進(jìn)入商業(yè)化落地的關(guān)鍵階段。

英偉達(dá)的路線圖很可能與臺積電的 COUPE 路線圖緊密相關(guān)，后者分為三個階段。第一代是用于 OSFP 連接器的光學(xué)引擎，可提供 1.6 Tb/s 的數(shù)據(jù)傳輸率，同時降低功耗。第二代將采用 CoWoS 封裝技術(shù)，并采用同封裝光學(xué)器件，在主板級別實(shí)現(xiàn) 6.4 Tb/s 的數(shù)據(jù)傳輸率。第三代的目標(biāo)是在處理器封裝內(nèi)實(shí)現(xiàn) 12.8 Tb/s 的數(shù)據(jù)傳輸率，并進(jìn)一步降低功耗和延遲。

為什么是CPO？

在大規(guī)模 AI 集群中，數(shù)千個 GPU 必須像一個系統(tǒng)一樣運(yùn)行，這給這些處理器的互連方式帶來了挑戰(zhàn)：每個機(jī)架不再擁有自己的一級（架頂式）交換機(jī)，并通過短銅纜連接，而是將交換機(jī)移至機(jī)架末端，以便在多個機(jī)架之間創(chuàng)建一致、低延遲的結(jié)構(gòu)。這種遷移極大地延長了服務(wù)器與其第一個交換機(jī)之間的距離，這使得銅纜在 800 Gb/s 這樣的速度下變得不切實(shí)際，因此幾乎每個服務(wù)器到交換機(jī)以及交換機(jī)到交換機(jī)的鏈路都需要光纖連接。

圖片來源：英偉達(dá)

在這種環(huán)境下使用可插拔光模塊存在明顯的局限性：此類設(shè)計(jì)中的數(shù)據(jù)信號離開ASIC，穿過電路板和連接器，然后才轉(zhuǎn)換為光信號。這種方法會產(chǎn)生嚴(yán)重的電損耗，在200 Gb/s通道上損耗高達(dá)約22分貝，這需要使用復(fù)雜處理進(jìn)行補(bǔ)償，并將每個端口的功耗增加到30W（這又需要額外的冷卻并造成潛在的故障點(diǎn)）。據(jù)英偉達(dá)稱，隨著AI部署規(guī)模的擴(kuò)大，這種損耗幾乎變得難以承受。

圖片來源：英偉達(dá)

CPO 通過將光轉(zhuǎn)換引擎與交換機(jī) ASIC 并排嵌入，避免了傳統(tǒng)可插拔光模塊的缺點(diǎn)，信號無需通過長距離電氣線路傳輸，而是幾乎立即耦合到光纖中。因此，電氣損耗降低至 4 分貝，每端口功耗降至 9W。這種布局省去了眾多可能出現(xiàn)故障的組件，并大大簡化了光互連的實(shí)施。

英偉達(dá)聲稱，通過放棄傳統(tǒng)的可插拔收發(fā)器，并將光學(xué)引擎直接集成到交換機(jī)芯片中（得益于臺積電的 COUPE 平臺），其在效率、可靠性和可擴(kuò)展性方面實(shí)現(xiàn)了顯著提升。英偉達(dá)表示，與可插拔模塊相比，CPO 的改進(jìn)非常顯著：功率效率提高了 3.5 倍，信號完整性提高了 64 倍，由于有源設(shè)備減少，彈性提高了 10 倍，并且由于服務(wù)和組裝更簡單，部署速度提高了約 30%。

以太網(wǎng)和InfiniBand的CPO

英偉達(dá)宣布將推出基于 CPO 的光互連平臺，該平臺可兼容支持以太網(wǎng)與 InfiniBand 兩大主流互連技術(shù)，應(yīng)用場景涵蓋數(shù)據(jù)中心、高性能計(jì)算等領(lǐng)域。

Quantum-X InfiniBand 交換機(jī)是該平臺的首發(fā)產(chǎn)品之一，英偉達(dá)計(jì)劃于 2026 年初推出該設(shè)備。從性能指標(biāo)來看，每臺 Quantum-X InfiniBand 交換機(jī)的整機(jī)吞吐量為 115 Tb/s，可用于大規(guī)模數(shù)據(jù)集群的數(shù)據(jù)傳輸，對數(shù)據(jù)擁塞問題有緩解作用。在端口配置上，該交換機(jī)支持 144 個端口，單個端口速率為 800 Gb/s，其端口密度與單端口速率的配置，可適配不同規(guī)模數(shù)據(jù)中心的組網(wǎng)需求。

在功能配置方面，該交換機(jī)集成了專用 ASIC（專用集成電路），該 ASIC 的網(wǎng)絡(luò)內(nèi)處理能力為 14.4 TFLOPS，可在網(wǎng)絡(luò)層面完成數(shù)據(jù)計(jì)算、處理任務(wù)，無需將數(shù)據(jù)回傳至服務(wù)器 CPU，對數(shù)據(jù)處理延遲及整體系統(tǒng)運(yùn)算效率存在影響。同時，該交換機(jī)支持英偉達(dá)第四代可擴(kuò)展分層聚合縮減協(xié)議（SHARP），該協(xié)議可優(yōu)化集體操作的處理流程，對分布式計(jì)算場景下的延遲及系統(tǒng)協(xié)同工作效率產(chǎn)生作用。

針對設(shè)備運(yùn)行中的散熱需求，Quantum-X InfiniBand 交換機(jī)采用液冷散熱方案。與傳統(tǒng)風(fēng)冷散熱相比，液冷散熱在散熱效率、噪音控制、空間占用方面存在差異，可將設(shè)備內(nèi)部熱量導(dǎo)出，使交換機(jī)在高吞吐量、高負(fù)載運(yùn)行狀態(tài)下維持工作溫度，為系統(tǒng)運(yùn)行提供散熱支持。

*聲明：本文系原作者創(chuàng)作。文章內(nèi)容系其個人觀點(diǎn)，我方轉(zhuǎn)載僅為分享與討論，不代表我方贊成或認(rèn)同，如有異議，請聯(lián)系后臺。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.