隨著AI浪潮的不斷發(fā)展,人們越來越強烈地意識到:除了算力之外,運力對于發(fā)展AI也同樣重要。
AI智算,說白了,就是算力結合算法,對數(shù)據(jù)進行處理。而如何將數(shù)據(jù)輸送給算力,或者將算力輸送給數(shù)據(jù),就是運力所要面對的問題。
AI智算需要海量算力,數(shù)據(jù)規(guī)模也空前龐大。傳統(tǒng)的通信技術根本無法提供所對應的運力。所以,新一輪運力技術革命,已經全面啟動。
在這輪技術革命中,最大的主角,就是光通信。
目前,業(yè)界已經達成共識:光通信一定是支撐AI浪潮的基石,但傳統(tǒng)光網絡在面對AI智算帶來的海量數(shù)據(jù)傳輸需求時,仍然存在不足。因此,需要在性能、靈活性、可靠性、安全性等方面進行全面升級演進。推動“全光運力”持續(xù)創(chuàng)新、打通“毫秒用算”通道,是現(xiàn)階段光通信發(fā)展的重要目標。
業(yè)界有不少企業(yè)在探索如何構建AI時代的光互聯(lián)網絡,也提出了一些技術路線。在今年的517電信日、中國國際信息通信展等多場產業(yè)活動中,來自運營商、設備商及業(yè)內企業(yè)的專家們紛紛介紹了各自對光網絡與AI技術深度融合的理解。
其中,華為光傳送領域總裁谷云波提到的AI-OTN架構,成功吸引了大家的關注。
![]()
這個架構充分考慮了AI時代的場景需求,旨在為快速發(fā)展的AI應用構建確定性、毫秒級的高品質全光底座,非常有參考性。
接下來,小棗君就給大家做個深入解讀。
█OTN for AI,全光升級助力AI浪潮
AI-OTN,顧名思義,就是在傳統(tǒng)OTN的基礎上,針對AI時代的新場景、新需求,進行全面升級演進,從而發(fā)展出的新型OTN網絡。它包括了兩大戰(zhàn)略方向,即:“OTN for AI”以及“AI for OTN”。
我們先看看“OTN for AI”。在這個方向上,主要考慮的是光傳送網需要具備哪些能力,才能滿足AI時代對運力的要求。
AI-OTN提出的目標,是通過構建超寬彈性、安全可靠的運力底座,實現(xiàn)“一點接入、算力隨取”的極致體驗。具體來說,包括了算間和入算兩個場景:
在算間場景(智算中心之間的互聯(lián)互通),AI-OTN可以通過Beyond 1T、OTN集群、DC-OTN等創(chuàng)新技術,實現(xiàn)算力資源的超寬無損互聯(lián),有效打破算力孤島。
在入算場景(用戶與智算中心之間的互聯(lián)互通),AI-OTN可以通過端到端全光交換、AI增強型WSON、fgOTN細顆粒調度及量子加密等先進技術,為用戶提供極致低時延、高可靠、高安全的“毫秒用算”體驗。
![]()
我們分別來看這幾個關鍵技術點的具體含義。
●Beyond 1T(超高速率)
想要支撐AI智算的需求,帶寬是基本前提。
目前,國內三家運營商建成全球規(guī)模最大的全光骨干網和政企OTN精品專網,國家樞紐間正在加快規(guī)模部署400G光傳輸系統(tǒng)。800G和1.6T相關技術,也在積極驗證之中。對于AI的長遠發(fā)展來看,帶寬肯定還是要繼續(xù)往1T以上升級演進。AI-OTN提出的Beyond 1T,就是指在帶寬上必須超越(beyond)1T。
這離不開光器件的迭代升級、新頻段(“C+L”等)的探索以及新型光纖的普及。
帶寬的升級,還必須考慮對反向復用的支持。這一點,AI-OTN將通過多個子波長來實現(xiàn)。通過光層子波長FlexOP技術,AI-OTN可以做到G比特到T比特任意高速業(yè)務的平滑傳輸。
例如,在1.6T帶寬下,基于子載波技術,可以切分為16個100G,或者8個200G,能夠更好地提供不同子波長的業(yè)務調度和互通,提升靈活性。
![]()
● OTN集群(敏捷調度)
目前,上海、北京、武漢、西安等重點城市的節(jié)點業(yè)務容量已經非常大,甚至達到了百T級別。東西向、南北向的算力,都在這些節(jié)點匯聚,帶來了巨大的業(yè)務壓力。
AI-OTN能夠實現(xiàn)一個站點多個OTN集群的跨環(huán)敏捷調度,支持單站400Tbps的集群OTN應用。
很多核心機房的單位功耗達到8000瓦甚至10000瓦。如果沒有集群能力,各個OTN框之間無法實現(xiàn)保護,相當于把一個核心站點變成多個站點,增加了業(yè)務發(fā)放的復雜性。
●DC-OTN(無損傳輸)
在可靠性方面,AI-OTN需要為DCI(數(shù)據(jù)中心互聯(lián))場景提供嚴格的無損傳輸保障。
在AIGC大模型分布式訓練過程中,成百上千的GPU需要跨數(shù)據(jù)中心同步參數(shù)和梯度。傳統(tǒng)傳輸網絡一旦出現(xiàn)光纖中斷或劣化,會導致數(shù)據(jù)包丟失,進而觸發(fā)TCP(傳輸控制協(xié)議)重傳或RDMA(遠程直接內存訪問)降速,造成算力集群效率急劇下降甚至訓練中斷。
為屏蔽傳輸層異常對業(yè)務的影響,AI-OTN通過雙發(fā)選收等無損倒換機制,在保護切換過程中保持數(shù)據(jù)流不間斷,實現(xiàn)業(yè)務零丟包與無感切換,確保業(yè)務連續(xù)性。
剛才介紹的幾個技術,都是面向算間場景(骨干網)。接下來,我們再看看入算場景(城域網)。想要實現(xiàn)真的“毫秒用算”,這個場景最為關鍵。
●極致時延
為了支持用戶毫秒級算力接入,國內全光網建設正從省級核心節(jié)點向城域匯聚與邊緣層快速延伸。
當前,省級、城域核心層已基本完成全光交換升級,而匯聚與邊緣層正成為下一階段部署重點。只有實現(xiàn)從核心到邊緣的端到端全光交換,才能為千行百業(yè)提供確定性的“毫秒用算”體驗。
面對城域匯聚及邊緣站點空間緊張、部署復雜的難題,華為聯(lián)合產業(yè)合作伙伴,在器件、模塊集成度等端到端環(huán)節(jié)持續(xù)創(chuàng)新,最終實現(xiàn)設備在尺寸與性能上的雙重突破,推出小型化OXC設備。其體積僅為傳統(tǒng)設備的四分之一,可在普通匯聚機房及重要接入點實現(xiàn)全光調度與靈活組網。
![]()
●極致高效
前面討論的子載波技術,體現(xiàn)了靈活性的理念。在城域網場景中,面對用戶業(yè)務需求多樣化、動態(tài)化的特點,網絡帶寬也需要具備相應的靈活彈性。
傳統(tǒng)OTN技術受限于較大的最小承載顆粒度(通常為1G),難以高效承載小顆粒業(yè)務,導致帶寬資源利用率偏低。而華為fgOTN/OSU技術將最小承載顆粒精細至10M級別,實現(xiàn)了真正的帶寬彈性化。
這一突破使得網絡能夠按需分配精準的帶寬資源,顯著提升傳輸通道的利用效率,讓每單位帶寬都發(fā)揮最大價值,為運營商構建高效、集約的城域網絡奠定了堅實基礎。
●極致可靠
在智能時代,所有依賴算力的業(yè)務都對網絡可靠性提出了極高要求。面對自然災害等潛在風險和多樣化的業(yè)務需求,在城域場景下我們需要構建成本可承受的高效保護機制。
傳統(tǒng)網絡在應對光纖中斷等故障時,ASON的收斂時間往往超過10秒,難以滿足實時業(yè)務的需求。如今,通過AI能力與智能算法的引入,結合oDSP、光放、WSS等關鍵技術的協(xié)同創(chuàng)新,AI增強型ASON將故障恢復時間從秒級壓縮至50毫秒以內——這意味著網絡自愈能力實現(xiàn)了千倍提升。
這一突破不僅大幅提升了城域網絡的可靠性,更在可控成本范圍內為企業(yè)用戶和家庭用戶提供了接近"無損"的業(yè)務體驗,大幅提升算力服務質量。
●極致安全
在智能時代,無論是AI訓練、推理還是各類智能應用的部署,數(shù)據(jù)傳輸?shù)陌踩砸殉蔀椴豢苫蛉钡暮诵囊螅瑯I(yè)務場景對安全等級的需求不斷提升。
傳統(tǒng)加密方式在面對日益復雜的網絡攻擊時,已經力不從心。華為AI-OTN創(chuàng)新引入QKD量子加密解決方案,通過量子密鑰分發(fā)技術實現(xiàn)密鑰的不可破解與動態(tài)更新,從根本上提升系統(tǒng)的安全防護水平,為智算數(shù)據(jù)流動構建起一道堅實可靠的防線,助力用戶在AI時代實現(xiàn)數(shù)據(jù)傳輸?shù)臉O致安全。
█AI for OTN,AI賦能OTN全方位能力躍升
新型OTN可以為AI業(yè)務和場景保駕護航,而反過來,AI也能夠大幅提升新型OTN的能力。
![]()
我們可以從設備和網絡的角度分別來看:
●AI賦能OTN設備
AI-OTN將AI技術深度融入OTN設備全棧,從光器件、光模塊到整機系統(tǒng),全面提升設備智能水平。
在光器件層面,引入AI算法增強,可以實現(xiàn)光電聯(lián)合損傷補償,也可以感知信道動態(tài),提升能效。例如,針對oDSP算法,可以通過AI能力進行算法模型優(yōu)化。
在光模塊層面,借助AI算法,可以對光模塊亞健康狀態(tài)進行預警,提前發(fā)現(xiàn)并排除風險。在業(yè)務開通階段,也可以主動隔離亞健康模塊,降低故障發(fā)生概率,減少對模型訓推的影響。
在單板層面,可以實現(xiàn)對光纜的感知,達到路由還原、外破預警的效果。
在設備層面,基于AI可以實現(xiàn)業(yè)務應用的秒級識別,提供差異化品質保障。設備內部的內生智能,可以做到小于1dB的性能評估精度。
●AI賦能OTN規(guī)建維優(yōu)
剛才介紹的是設備層面,AI在網絡層面能夠做什么呢?事實上,在OTN網絡的規(guī)劃、建設、維護以及優(yōu)化階段,AI都已經顯現(xiàn)出巨大的潛力。
例如,在規(guī)劃階段,傳統(tǒng)的規(guī)劃方式是離線規(guī)劃,光纖參數(shù)復雜加上設備器件的老化,會帶來很多問題。引入AI,可以將光纖物理參數(shù)和器件物理參數(shù)做成AI模型,快速完成網絡的整體在線規(guī)劃和資源部署,還可以進行配置仿真,大幅提升規(guī)劃的效率和準確性。
再例如,在運維階段,AI-OTN依托網元內置算力、數(shù)字孿生等技術,將OTN升級為“智能管道”。通過對業(yè)務特征、光器件性能參數(shù)、光纖狀態(tài)的感知,構建了業(yè)務、網絡、光纜三層的數(shù)字化感知模型,具備“通感算一體”的能力。
![]()
基于AI,還可以建立光網絡品質分析模型,對網絡中出現(xiàn)的各種問題進行智能優(yōu)化,顯著提升優(yōu)化的效率。此外,AI還能對故障進行快速定位和診斷,提供修復建議,縮短故障恢復時間。
當OTN遇上AI,光通信網絡仿佛突然多了很多數(shù)字員工。網絡的規(guī)建維優(yōu)都變得更加簡單高效。這不僅降低了運營商的成本,也能釋放出更多的精力,專注于新業(yè)務場景的開拓以及客戶體驗的提升。
█最后的話
近日,工業(yè)和信息化部辦公廳已發(fā)布《關于開展城域“毫秒用算”專項行動的通知》。
其中明確提出:聚焦算力網絡發(fā)展,構建高速大容量、確定低時延、泛在廣覆蓋的城域網絡,在城域內提供毫秒級算力資源網絡通達能力,即面向基礎設施實現(xiàn)算力中心毫秒互連(<1毫秒),面向重點場所實現(xiàn)算力資源毫秒接入(<1毫秒),面向應用終端實現(xiàn)算力應用毫秒可達(網絡時延<10毫秒)。以專項行動為牽引,帶動產業(yè)各方聚焦暢通毫秒用算通道,在全國范圍內梯次推進毫秒用算網絡建設,到2027年基本形成全域覆蓋、高效暢通的城域毫秒用算網絡能力體系。
我們也可以看到,國內運營商正在不斷增加在全光運力基礎設施上的投入,并積極探索金融、在工業(yè)、交通、能源、教育等重要行業(yè)的“毫秒用算”應用實踐。
例如,上海移動打造了“1ms浦江算力光網”,以超低時延連接城市核心算力節(jié)點,支撐金融高頻交易、跨國企業(yè)云端協(xié)同等高價值商業(yè)場景。再例如,湖北移動建成覆蓋全省的毫秒級用算網絡,服務三維測繪企業(yè)的云渲染等高實時性應用。還有北京電信,他們通過全光城市算網實現(xiàn)了算力與網絡資源的最優(yōu)配置,依托其低時延協(xié)同能力服務于衛(wèi)健診療、交通管理等十多個行業(yè)的模型訓練與實時推理。
我相信,以AI-OTN為代表的全光運力創(chuàng)新與升級,目前只是剛剛起步,未來還將持續(xù)提速。
全光運力與AI的深度融合,還將催生新的業(yè)務模式和服務形態(tài),為運營商和行業(yè)用戶創(chuàng)造更大的價值空間。在這場全光運力與AI的雙向賦能中,我們有望見證一個更加智能、高效、安全的光通信新時代。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.