通信世界網消息(CWW)AI大模型及人工智能產業的快速發展,催生了大量算力缺口,我國新增算力基礎設施中智能算力占比已過半。智能算力需求結構也從以往少數千億、萬億參數模型集中消耗的一次性大規模訓練算力,轉變為千行百業驅動的“持續性推理主導、周期性訓練為輔”的雙軌算力需求新格局。面對算力需求的新格局,浙江電信主動推進算力布局優化與算網融合實踐,將省級范圍內的算力節點布局逐步收斂至“4+11+X”,層次化滿足各類用算需要:即在省內部署個位數超大型訓推一體算力樞紐,在各地市部署以推理為主的區域級公有算力資源池,在近用戶側按需部署邊緣算力節點。同時,持續完善無損算力網絡基礎設施,形成以算力節點為中心向外延伸500千米的算力輻射圈,滿足省內任意地點彈性用算、鄰間調算、數據安全保障以及算力互聯并網的需求,為接入長三角算力聯合體筑牢基礎。
需求分析
大模型興起
大語言模型(LLM)日益增加的訓練和推理任務,推動算力需求急劇增長。同時,DeepSeek通過關鍵架構創新與工程優化,以極低的訓練成本打造出具備頂尖能力的模型。相關報告顯示,2025年上半年中國企業級市場日均調用量達10.2萬億Tokens,人工智能正于推理端開啟規模化價值創造。
尖端AI訓練芯片被禁運,單中心算力資源受限
全球半導體產業的競爭與地緣政治因素疊加,導致我國在獲取尖端AI訓練芯片方面面臨嚴峻挑戰。單一實體所能獲取和部署的算力規模存在上限,“單點超大規模智算中心”的建設模式遭遇瓶頸。在此背景下,整合區域內分散、多廠商、異構的算力資源,構建協同調度的“算力艦隊”,成為突破單點算力“天花板”、應對模型規模持續增長的必然選擇。
算力供給與電力消耗正相關,省域范圍內算力呈分散分布狀態
智算中心的運行伴隨著巨大的電力消耗,其選址與當地能源供給能力、PUE(電能使用效率)指標緊密相關,算力基礎設施自然向能源富集、氣候適宜的地區部署。這使得省級行政區域內的算力資源呈現“核心—區域—邊緣”的多層次、分散化格局。
用算企業對輕資產運營的期望與對數據安全的擔憂
對于廣大傳統行業企業而言,自建并維護大規模的智算集群意味著沉重的資本開支和運維負擔。它們更傾向于采用“算力即服務”的模式,按需獲取、按使用付費,實現輕資產運營。然而,將核心業務的訓練與推理數據上傳至第三方算力中心,也引發了企業對于數據隱私和商業機密泄露的深切擔憂。
技術選擇
為應對上述挑戰,浙江電信、溫州數據集團與華為攜手打造了邊云協同分布式安全訓推解決方案。該方案構建廣域超長距RoCE(即基于融合以太網的遠程直接內存訪問)無損傳輸能力與訓推模型切割部署能力,將企業側輕量級算力與智算中心算力池,通過基于新型架構的AI WAN高算效廣域網實現超長距協同整合,滿足“數據不出域”“算力彈性擴展”等關鍵需求。實施“以網強算”策略,對精準響應市場核心訴求、推動產業智能化升級具有重要意義。
廣域超長距RoCE無損傳輸能力
為達成算力之間的高速互聯,業界采用了RoCE和IB(無限帶寬)兩種通信協議方案。其中IB協議私有化屬性較強,且整體成本過高;而RoCE協議擴展性更好,有利于標準化發展。因此,邊云協同分布式安全訓推解決方案的網絡通信協議選擇基于RoCE協議進一步升級。
傳統的RoCE協議在面對廣域網復雜的組網環境、超長的轉發距離時,易出現負載不均與擁塞問題,造成吞吐性能瓶頸。另一方面,RoCE協議對丟包極為敏感,僅千分之一的丟包率就可能導致傳輸性能下降50%。為解決以上問題,浙江電信與華為聯合創新了廣域超長距RoCE無損傳輸的兩大關鍵技術。
一是租戶級精準流控機制。在AI WAN的“IPv6+”底座之上,新型AI路由器以租戶為單位對數據包進行智能緩存。若緩存達到預設閾值,系統將按租戶粒度向上游設備發送反壓信號,逐級傳遞直至流量源頭,從而確保不同租戶間的網絡擁塞互不干擾,實現超百千米級RoCE“零丟包”傳輸。此項技術解決了傳統網絡因輕微丟包導致吞吐量驟降的問題,使超長距離AI訓練、推理效率提升至95%以上,并實現租戶級擁塞隔離,有效規避了傳統PFC(功率因數校正)技術在廣域場景下易引發的頭部阻塞及擁塞擴散等缺陷,為超長距的邊云算力協同奠定可靠基礎。
二是流級動態負載均衡技術。針對智算業務大象流帶來的挑戰,基于AI路由器的微秒級大象流識別技術,可實現捕捉全網大象流99%準確率并上報至管控平臺。結合流級自適應調度算法,根據實時網絡狀態為不同流量動態分配傳輸路徑,從而實現廣域網絡的全局負載均衡,整體吞吐率超過95%。該機制克服了傳統ECMP(等價路由)算法因無法識別流速大小而導致的鏈路負載不均、吞吐率低下等問題。
訓推模型切割部署能力
為解決企業用戶使用云上算力時對“數據不出域”的安全需求,在本次訓推一體創新合作中,浙江電信聯合華為推出訓推模型切割部署架構。在AI訓推業務中,將模型首尾層部署于本地,中間層部署于云端。通過企業側部署的少量算力,完成模型訓推中的首尾層計算,保障輸入和輸出的原始數據100%不出域;通過AI WAN跨越數百千米,將高維向量數據傳輸至智算中心,實現數據可用不可見,且中間層數據不可被還原。云上算力則完成中間層計算,滿足大計算量的資源需求。該架構既滿足“數據不出園區”的安全要求,又支持算力在數百千米超遠距離上的靈活擴展,與基準數據相比,整體計算效率達95%以上。反觀傳統加密傳輸方案,僅能保障數據在轉發過程中的安全,無法覆蓋云上計算環節的數據安全,也無法保障模型本身的安全。
方案設計
浙江電信通過打造區域級訓推一體無損網絡,構建起一張覆蓋區域、具備智算中心級性能的廣域網絡,將分散的算力節點整合成虛擬且統一的“超級計算機”;同時依托創新的分布式人工智能技術,保障業務邏輯可靠與數據安全。如圖1所示,該網絡與浙江電信“4+11+X”算力布局精準匹配,形成“中心訓練樞紐—地市推理資源池—邊緣算力節點”的三級云邊協同體系。
中心訓練樞紐(4個):在嘉善、杭州、金華、寧波布局省級區域節點,承擔大規模、周期性的模型訓練與微調任務。這類節點具備區域內最高算力密度,是全省算力網絡的核心基石。
地市推理資源池(11個):在11個地市設置匯聚節點,主要承載高并發、低時延的在線推理服務,滿足地市級實時業務需求。
邊緣算力節點(X個):部署于靠近數據源頭(如工廠、醫院)的位置,處理對時延極度敏感或數據隱私要求極高的推理任務。
![]()
圖1 浙江電信區域級訓推一體無損網絡架構
區域級無損網絡如同“中樞神經系統”,將各層級的算力節點高速互聯,實現算力的統一納管、彈性伸縮和跨DC(數據通道)調度。當企業需要使用算力資源時,可依托訓推模型切割部署的云邊協同分布式訓推方案,在保證企業數據安全前提下,按需取用智算中心的算力(如圖2所示)。
![]()
圖2 云邊協同分布式訓推方案
該方案通過云邊協同的分布式訓推架構與分割學習技術,保障企業“數據不出域”;同時依托廣域網環境下的租戶級精準流控機制與流級動態負載均衡技術,實現跨數據中心的高吞吐、低損耗算力協同,為區域內算力資源的互聯互通與高效調度提供了可行路徑。
結語
區域級訓推一體無損網絡是應對當前大模型算力需求激增、企業數據安全與輕資產運營訴求日益迫切等挑戰的一次創新嘗試。該方案通過技術創新,實現了三大價值。
算力普惠化:它將區域內分散、異構的算力資源整合成一個統一、彈性的算力服務池,使得中小企業也能像用水、用電一樣,便捷、按需、低成本地獲取頂尖的AI算力,極大地降低了智能化轉型的門檻。
數據安全化:通過分割學習等隱私計算技術的應用,在提供強大算力支持的同時,嚴守“數據不出域”的底線,徹底解除企業上云用算的后顧之憂,為金融、醫療、政務等敏感領域的AI應用掃清了障礙。
產業智能化:一張高性能的算力網絡,是支撐“人工智能+”戰略落地的關鍵基礎設施。它使得AI能力可以像血液一樣,在區域經濟的“毛細血管”(邊緣節點)中順暢流動,從而賦能千行百業,加速全社會從“互聯網+”向“AI+”演進。
展望未來,隨著算網融合技術的持續深化,區域級訓推一體無損網絡將成為構建國家一體化算力體系的重要基石,為我國在新一輪全球科技競爭中贏得優勢提供堅實的底座支撐。
*本篇刊載于《通信世界》2025年12月10日*
第23期 總981期
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.