硅谷正在向AI數據中心投入數萬億美元,在巨額資本的刺激下,芯片制造商加速創新,其中網絡連接技術成為創新重點,該技術用來連接芯片與芯片、服務器機架與服務器機架。
自計算機誕生以來,網絡技術一直都是IT產業的核心,它至關重要,連接大型主機,實現數據共享。在半導體領域,網絡技術幾乎滲透到技術棧的各個層面——從芯片內部晶體管互連到芯片盒和機架之間的外部連接,全都有網絡技術的身影。
![]()
在網絡領域,華為、英偉達、博通、邁威(Marvell)擁有扎實技術。現在AI時代來臨,企業開始推出新的網絡解決方案,目標是加快數據傳輸速度。所以最近幾年,我們看到Lightmatter、Celestial AI、PsiQuantum等新銳公司開始占據一席之地,它們借助光學技術提高計算效率。
光學技術(又稱光子學)已經走到了發展的關鍵節點。PsiQuantum聯合創始人兼首席科學官皮特·沙德博爾特(Pete Shadbolt)表示,25年來,人們一直認為光學技術枯燥乏味、昂貴、缺少實際用途,但AI照亮了光子學的前進道路。
一些風險投資家認為,傳統電子互連技術無法滿足AI高帶寬要求,所以他們積極尋找可以提高數據吞吐量的創新方案。
英偉達提前布局,初創企業各展所長
Creative Strategies首席執行官本·巴賈林(Ben Bajarin)表示:“回顧歷史,網絡領域的報道一直非常枯燥,因為它的核心就是數據包交換;受到AI的驅動,網絡需要承載相當龐大的工作負載,這也是最近速度相關創新層出不窮的原因。”
巴賈林認為,英偉達有先見之明,多年前它就完成了兩筆關鍵收購,開始布局網絡領域。
2020年,英偉達以70億美元收購以色列邁絡思科技(Mellanox Technologies),該公司專為服務器、數據中心提供高速網絡解決方案。不久之后,英偉達又收購Cumulus Networks,該公司為Linux計算機網絡軟件系統提供支持。當時英偉達已經感知到,當GPU憑借其并行計算能力與其他GPU結合,部署于數據中心,它的性能會更上層樓。
![]()
Lightmatter致力于研究光子芯片技術,公司首席執行官尼克·哈里斯(Nick Harris)指出,AI需要的算力每三個月翻一番,計算機芯片尺寸在不斷擴大,當芯片發展到一定程度,如果想繼續提升性能,必然依賴芯片之間的連接技術。
硅光子學技術是一條可行路徑,Lightmatter宣稱自己打造了全球最快的AI芯片光子引擎,從本質上講,就是通過光互聯技術連接的3D硅堆疊結構。目前Lightmatter已經獲得5億美元投資,估值達44億美元。
哈里斯(Nick Harris)認為:“計算的未來確實與光息息相關,電子技術肯定會繼續存在,軟件也是不可或缺的關鍵部分,但在當前的計算規模下,我們需要新思路,光技術正是計算機新前沿的重要組成部分。”
初創公司Celestial AI主攻光學互聯技術,它于今年早些時候融資2.5億美元;光量子計算機開發商PsiQuantum今年9月融資10億美元,估值達70億美元。
目前光學網絡技術仍面臨挑戰,比如成本過高,需要高度專業的設備,而且產業還要求它必須兼容電子系統。
不論未來是電子技術取勝,還是光子技術占據上風,或者二者兼而有之,網絡都會是核心。
中外企業競逐網絡技術創新
在AI發展過程中,英偉達成為GPU技術垂直整合商,博通則提供定制芯片、加速器及高速網絡技術。博通目前的市值高達1.7萬億美元,與谷歌、Meta、OpenAI都有合作,它向合作伙伴提供數據中心芯片。
在光子學領域,博通也處于前沿位置。上個月,有報道稱博通準備推出名為Thor Ultra的新型網絡芯片,它可以讓AI系統與數據中心其他部分實現高速連接。
還有很多企業也在向網絡技術下注。例如,安謀(ARM)以2.65億美元收購網絡公司DreamBig。在財報會議上,安謀首席執行官勒內·哈斯(Rene Haas)宣稱DreamBig對橫向擴展和縱向擴展網絡至關重要,也就是說它的技術可以讓單個芯片集群在內部實現連接、高速傳輸數據,這與芯片機架之間的連接有所不同。
在國內,華為推出的大規模超節點互聯技術走的也是相同路徑。當AI集群規模達到數萬乃至數十萬張卡時,節點間的通信效率會急劇下降,華為“超節點”技術可以解決這一問題。
![]()
諾基亞前數據中心副總裁邁克·布什翁(Mike Bushong)認為:“更強大、更先進的AI離不開計算能力,而且是海量的計算能力。如今,每部署1兆瓦數據中心容量,網絡相關支出的成本排在第二位,僅次于AI系統本身。”
生成式AI模型依賴跨節點、跨機架的實時信息共享,如果說GPU是腦細胞,網絡就是神經系統,它通過信號傳遞將所有腦細胞連接起來。
存儲即服務提供商Zadara的首席執行官約拉姆·諾維克(Yoram Novick)警告稱:“如果不能確保擁有充足的互連帶寬,僅僅簡單增強GPU性能,可能會導致收益遞減。”
目前的AI網絡主要圍繞以太網(Ethernet)、無限帶寬技術(InfiniBand)、NVLink和超加速器鏈路(UALink)展開。以太網和無限帶寬技術用于連接多臺服務器,后者因為擁有超低延遲和更高帶寬,是AI訓練場景的首選方案。但在不久的將來,預計以太網技術將成為主導。
彭博情報(Bloomberg Intelligence)分析師稱,目前訓練環節約占數據中心支出的60%,預計到2032年更多資源將向推理傾斜,訓練環節占比將降至20%。隨著推理需求增長,工作負載將更多實現跨數據中心部署,屆時高速網絡將會變得更為重要。
總之,AI基礎設施新時代已經到來,效率不僅由計算速度定義,網絡性能同樣關鍵,這是必然的發展趨勢,大家須引起注意。(小刀)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.