公眾號記得加星標??,第一時間看推送不會錯過。
打開AMD或Nvidia最先進的AI產品包裝,你會發現一個熟悉的布局:GPU兩側是高帶寬內存(HBM),這是目前最先進的內存芯片。這些內存芯片盡可能靠近它們所服務的計算芯片,以減少AI計算中最大的瓶頸——將每秒數十億比特的數據從內存傳輸到邏輯電路所需的能量和延遲。但是,如果將HBM堆疊在GPU頂部,進一步拉近計算和內存的距離,又會怎樣呢?
Imec近期利用先進的熱模擬技術研究了這種情況,并在2025 年 12 月舉行的 IEEE 國際電子器件會議(IEDM) 上公布了結果,結果令人沮喪。3D堆疊會使 GPU 內部的工作溫度翻倍,導致其無法正常工作。但由 Imec 的James Myers領導的團隊并沒有就此放棄。他們找到了一些工程優化方案,最終可以將溫差降低到幾乎為零。
一種革命性的方案
Imec 首先對一個 GPU 和四個 HBM 芯片進行了熱模擬,模擬的是目前常見的封裝形式,即所謂的 2.5D 封裝。也就是說,GPU 和 HBM 都位于稱為中介層的基板上,彼此之間的距離非常小。這兩種芯片通過集成在中介層表面的數千個微米級銅互連線連接。在這種配置下,模型 GPU 的功耗為 414 瓦,峰值溫度略低于 70°C——這是處理器的典型溫度。內存芯片的功耗約為 40 瓦,溫度略低一些。熱量通過封裝頂部的液冷散熱,這種液冷方式在新型 AI數據中心中已十分常見。
“雖然目前仍在采用這種方法,但它未來的擴展性并不理想——尤其因為它會遮擋GPU的兩側,限制封裝內部GPU之間的連接,” Imec高級研究員陳宇凱在IEDM大會上告訴工程師們。相比之下,“3D方案可以帶來更高的帶寬、更低的延遲……最重要的改進在于封裝尺寸。”
不幸的是,正如陳和他的同事們發現的那樣,最直接的堆疊方式,即簡單地將 HBM 芯片放在 GPU 頂部,并在中心添加一塊空白硅來填補空隙,會導致 GPU 的溫度飆升至驚人的 140°C——遠遠超過典型 GPU 的 80°C 限制。
Imec團隊著手嘗試一系列旨在降低溫度的技術和系統優化方案。他們首先嘗試的是去除一層多余的硅片。要理解其中的原因,首先必須了解HBM究竟是什么。
這種內存由多達 12 個高密度DRAM芯片堆疊而成。每個芯片都薄至幾十微米,并布滿了垂直連接。這些薄芯片彼此堆疊,并通過微小的焊球連接,而這堆內存又垂直連接到另一塊硅片,稱為基片。基片是一個邏輯芯片,用于對數據進行多路復用,并將數據壓縮到數量有限的導線中,這些導線能夠穿過毫米級的間隙連接到 GPU。
但由于 HBM 現在位于 GPU 頂部,因此不再需要這樣的數據泵。數據位可以直接流入處理器,而無需考慮芯片側面有多少根導線。邁爾斯表示,當然,這一改變意味著要將內存控制電路從基礎芯片移到 GPU 中,從而改變處理器的布局。但他認為應該有足夠的空間,因為 GPU 不再需要用于解復用傳入內存數據的電路。
去掉內存這個中間環節,溫度只降低了不到 4 攝氏度。但重要的是,它應該能大幅提升內存和處理器之間的帶寬,這對于團隊嘗試的另一項優化——降低 GPU 速度——至關重要。
這似乎與提升人工智能計算能力的初衷背道而馳,但在這種情況下,這反而成為一種優勢。大型語言模型屬于所謂的“內存密集型”問題,也就是說,內存帶寬是主要的限制因素。但邁爾斯團隊估計,在GPU上采用3D堆疊HBM技術可以將帶寬提升四倍。有了這額外的性能提升空間,即使將GPU時鐘頻率降低50%,仍然能夠帶來性能提升,同時還能將溫度降低20攝氏度以上。實際上,處理器可能不需要降低這么多。邁爾斯表示,將時鐘頻率提高到70%只會使GPU溫度升高1.7攝氏度。
溫度大幅下降的另一個原因是提高了HBM堆疊層及其周圍區域的導熱性。這包括將四個堆疊層合并成兩個更寬的堆疊層,從而消除一個散熱區域;減薄堆疊層頂部通常較厚的芯片;以及用空白硅片填充HBM周圍的更多空間以增強導熱性。
經過上述所有措施,堆疊芯片的運行溫度約為 88°C。最終的優化使溫度降至接近 70°C。通常,芯片約 95% 的熱量是從封裝頂部散發的,在本例中,頂部由水帶走熱量。但如果在底部也采用類似的冷卻方式,堆疊芯片的溫度最終會再降低 17°C。
Myers表示,盡管在IEDM上展示的研究表明,GPU搭載HBM內存或許可行,但這未必是最佳選擇。“我們正在模擬其他系統配置,以幫助我們確定這是否是最佳方案,”他說道。“GPU搭載HBM內存引起了一些業內人士的興趣,”因為他認為這種方式能讓GPU更靠近散熱系統。但這很可能是一個更復雜的設計,因為GPU的電力和數據必須垂直流經HBM才能到達GPU。
關鍵是解決邏輯上 HBM 的問題
所有科技大會的演講都強調了一點,那就是人工智能工作負載正不斷超越現有硬件能力。
具體來說,人工智能加速器在各個方面都同時觸及了物理極限,包括功耗密度、內存帶寬和復雜性。盡管沿用已久的 2.5D 共封裝 HBM 模型仍然占據主導地位,但一些人認為它存在局限性,因此將加速器和 HBM 以 3D 方式結合的概念開始受到關注。
隨著內存堆疊技術的進步,在提高內存帶寬的同時保持效率,業界面臨的挑戰也日益凸顯,因為我們對高性能、高效率計算的需求也在不斷增長。
![]()
在邁向邏輯芯片上集成HBM的時代之際,如上所述,imec攜一篇論文亮相IEDM 2025,該論文標題就提出了一個大膽的論斷:“突破GPU上3D HBM集成中的熱瓶頸”(Breaking Thermal Bottleneck in 3D HBM-on-GPU Integration)。如此大膽的論斷需要強有力的證據,而這個標題立刻吸引了我們的目光。
imec在會議上發表了一篇論文,稱其已規劃出一條可行的散熱方案,可將HBM完全堆疊在加速器頂部,并解答了目前高性能領域最大的疑問之一:業界能否在不使硅片“烤焦”的情況下,真正實現3D GPU封裝?imec的答案基本是肯定的,但需要進行重大變革。這些變革包括大幅調整布局,而這可能并非簡單的“樂高積木式”搭建就能解決的問題。
第一步:制定一些基本規則
在深入探討imec為驗證真正的3D HBM-on-GPU堆棧而制定的眾多緩解策略之前,了解他們所使用的基準至關重要。該研究采用復雜的理論多物理場模型,創建了一個詳細的熱流模板,用于模擬3D GPU的運行狀態。這意味著一個功耗約為400W的高性能計算芯片,包含多個12層HBM堆棧。模擬比較了使用四個傳統內存模塊以及用于散熱的傳統液冷散熱板的不同配置。
![]()
基準方案將這四個堆疊體置于傳統的 2.5D 配置中,每個 HBM 堆疊體下方都有一個類似 HBM4 的基礎芯片。在這種配置下,仿真結果顯示 GPU 峰值溫度為 69.1oC,HBM 芯片在最壞情況下溫度約為 60oC。
![]()
考慮到此類設計產生的熱量,imec 為此項(以及論文中的其他數據)設計的冷卻方案特意做到了充分散熱。頂部安裝了一塊液冷板,其額定功率為每開爾文溫差 30 瓦/平方厘米。這代表了當今高端 AI 推理巨型系統中可能采用的最佳冷卻方案。
為什么2.5D HBM封裝無法進一步擴展
只要仔細觀察硬件的物理布局,就能很容易地發現當前 2.5D GPU 設計的局限性。在當前一代產品中,HBM 內存堆疊位于 GPU 周圍,并覆蓋在 GPU 四個邊緣中的兩個邊緣之上。從設計角度來看,這種布局已經接近極限。每個 HBM 內存堆疊都會占用一部分布線空間和海岸線,從而阻礙其他 I/O 連接的直接連接,例如 GPU 之間的直接連接。
更重要的是,它限制了單個封裝上可以放置的計算單元數量。即使是NVIDIA最大的多芯片加速器仍然受到這種設計限制,因為限制單個封裝上可實現擴展程度的,本質上是中介層,而不是硅片本身。
![]()
與論文圖 1b 所示的 3D 變體類似,堆疊 HBM 為未來的擴展提供了更大的空間。內存堆棧與位于封裝中心的 GPU 芯片更加垂直對齊。將 HBM 直接放置在 GPU 上方,可以釋放芯片周圍的 I/O 空間,從而實現更緊密的多 GPU 連接,并將 HBM 堆棧到 GPU 單元的距離縮短至幾乎為零。
![]()
這種設計在過渡到 3D 堆疊時最大的問題或許在于其散熱性能會迅速下降。將四個 12 層高的 HBM 堆疊(以目前的 HBM3e 為例,待機功耗約為 4 x 25W = 100W,滿載功耗約為 150W)堆疊在一個 -400W 的圖形芯片上,會造成嚴重的散熱問題。它非但不能有效散熱,反而會把我們閃亮的“石頭”(指顯存)烤焦。
![]()
采用與 2.5D 場景相同的散熱方法,模擬結果顯示 GPU 溫度為 141.7oC。如果這就是最終結果,祝你好運。
就目前這種原始設計而言,它根本無法實際應用。大多數電子元件的額定工作溫度為 105℃,或在受控環境下為 95℃。這既是為了延長使用壽命(例如,高溫下會加速產生負面影響和電遷移),也是為了避免其他因素,例如大尺寸芯片的膨脹系數會隨著時間的推移導致基板變形,從而造成缺陷。現代數據中心對 70℃ 的工作溫度要求很高,而不是 140℃。
即使采用強力的冷板冷卻,3D 堆疊的 HBM 本質上也像垂直堆疊的絕緣體一樣,會將熱量滯留在其后的硅層中。在數據方面,HBM 堆疊本身的情況也只是略好一些,但內存中預計會出現較高且不均勻的溫度梯度。
如何冷卻“火熱”的3D GPU堆棧
![]()
imec 的緩解策略(如上圖所示的論文中所述)指明了基準 3D 設計在多大程度上可以進行相對優化。imec 將其稱為系統技術和設計技術協同優化 (STCO 和 DTCO) 策略,簡稱 XTCO。
![]()
總而言之,有三個主要步驟,每個步驟據稱可以節省大約 20oC,此外還有幾個次要步驟。
解決方案第一步:優化 HBM
從 imec 的路線圖來看,STCO 的每個步驟都至關重要。首先,它需要移除HBM 基片(base die)。HBM 是堆疊式內存,但其下方通常有一個邏輯芯片,專門用于處理內存的訪問模式、壽命以及所有加速器內存控制器無需操心的管理工作。鑒于 3D 內存的特性,imec 建議移除基片,并將 HBM集成到加速器中。
論文并未說明該芯片是否構建在計算晶體管之上,但移除該芯片可使溫度降低約 4°C。值得注意的是,目前所有商用 HBM 芯片都帶有基片,而未來的 HBM4 及更高版本需要定制的基片,以便更好地控制帶寬和內存容量。因此,完全移除基極芯片需要定制設計,這對于大型超大規模客戶或使用 ASIC 設計服務的客戶來說或許可行,但對于普通客戶而言則不太現實。
HBM技術的下一步是改進相鄰3D HBM內存堆疊之間的化合物。堆疊間的模塑散熱效果不佳,而且由于采用了四層堆疊結構,即使這一步驟必不可少,也顯得更加多余。imec通過橫向融合HBM堆疊來取代這種材料。最終得到的是一種雙倍寬度的HBM堆疊,這也要求內存制造商從根本上改變其設計。
![]()
這次變革涉及方方面面,從雙寬內存的商業化特性、良率到供應鏈,無所不包。但據imec稱,它首次顯著降低了散熱余量,從138°C降至120.4°C。大規模實施這一變革并非易事,但如果整個行業都轉向雙寬HBM,也并非不可能。
![]()
接下來是頂層芯片減薄,顧名思義,這是一種減薄HBM堆疊層的方法。但在imec的分析中,它對實現可行的設計幾乎沒有任何幫助。將頂層芯片厚度從169微米減至41微米(可能采用CMP之類的工藝),只能使溫度降低不到0.5攝氏度,即0.4攝氏度。
解決方案第二步:將ASIC的頻率減半
或許最大的注意事項、實施步驟、選項,或者任何符合你觀點的術語,就是將 GPU 頻率減半。
![]()
正如imec所承認的,通過將GPU核心頻率降低到原值的50%(不考慮電壓調節等變量),GPU芯片的總功耗從-414W降至-300W。這一步驟將峰值溫度從120.4℃降至99.2℃,使其成為最有效的措施。
但正是在這一步,我們開始看到系統層面的權衡取舍,因為頻率減半自然會降低整體原始計算吞吐量;對于基準 3D HBM GPU 設計而言,這是相當大的性能損失。我們稍后會詳細討論這一點,以及 imec 為什么認為這并非什么大問題。(實際上并非如此。)
接下來,下一階段被簡單地描述為“硅片散熱優化”,單從字面意思來看,這是一種非常模糊的術語使用;聽起來不錯,但它到底是什么意思呢?是像GPU熱點和上方內存的協同設計這樣高深的技術嗎?實際上并非如此,恐怕它相當基礎。
![]()
imec指出,設計邊緣是熱點的來源。通過在熱點上方放置“高導熱硅塊”墊片和墊片(如上文(b)中提到的1.4mm硅),imec表示,這樣可以形成垂直相鄰的散熱通道。這超越了僅依靠基準設計中位于中心的導熱硅層。
解決方案第三步:改變冷卻方式
我們之前已經介紹過imec用于其2.5D布局的基準散熱設計,以及迄今為止的所有3D變體。該流程的最后一個真正階段是提升散熱性能。基準散熱設計對于液冷來說已經非常出色,但為了進一步改進,imec建議采用更高效的雙面散熱方案。很簡單,就是從ASIC的兩側進行散熱。
![]()
經過熱硅優化后,我們達到了上表中案例1的標準,溫度為 87.4oC。
方案二設想采用單側冷卻,但傳熱效率更高(每攝氏度60瓦/平方厘米)。我推測這意味著使用噴氣發動機強制液體在回路中循環。
方案 3 則回歸“常規”芯片散熱,但增加了芯片背面或“層壓板側”的散熱量。從 200 度提升到 400 度可能只是換用了更大的散熱片和更快的風速,但結果卻收效甚微,僅比方案 1 略高一度。
案例 4 和 5 只是加強了層壓板側面的冷卻,現在采用液冷和高效液冷。如此強大的熱傳遞意味著溫度會大幅下降(正如預期的那樣)。然而,魔鬼藏在細節里——這只是模擬中的一個數值。
但總體而言,從imec將3D堆疊式HBM直接集成到GPU上的基準實現來看,這說明背面散熱是必要的,無論是通過在散熱片中使用更先進的基板,還是采用更激進的方法,例如液冷底板。這在3D集成設計的限制中是一個重要的信號,它不僅改變了封裝形式,還改變了整個散熱生態系統。
幾乎所有步驟都是必需的
將所有步驟結合起來并全面實施,結果表明,沒有單一的解決方案能夠使 GPU 上的 3D HBM 在散熱方面可行。
![]()
只有完成 imec 的 STCO 優化策略的所有步驟,我們才能達到與目前使用的 2.5D 設計相當的水平。
但迄今為止,最大的變化是將GPU頻率減半。這里我們需要解決一些問題。
性能權衡
imec認為,將頻率減半所造成的性能損失大部分會被內存吞吐量的提升所抵消。imec指出,為了應對散熱挑戰,必須降低GPU頻率;實際上,頻率要降低到大約一半,這聽起來似乎有點自相矛盾。當然,奧卡姆剃刀原理告訴我們,最簡單的解釋通常是最佳選擇,但許多人會對將GPU的整體性能降低一半到默認或基礎設置的做法持懷疑態度。
該研究論文提供了以下數據,為了便于閱讀,我們將其格式稍作調整。數據量可能有點大,但我們一起來看一下。縱軸代表性能,橫軸代表頻率,最左側為“滿負荷”頻率。工作負載是 GPT-175B 參數訓練,被描述為“多頭注意力”機器學習工作負載,其內存占用高于計算占用。
![]()
橙色條形圖代表 2.5D 解決方案的性能。這是我們的基準性能(100%),我們可以看到,隨著計算頻率的降低,性能也隨之下降,當頻率減半時,性能降至 72%。
圖中灰色條形代表我們之前介紹的全新3D模型。如果以全頻運行,芯片速度將提升68%。但這是在142℃的溫度下測得的,因此,為了使其在實際應用中可行,我們將頻率降低一半。imec表示,即使如此,該芯片的性能仍然比全頻運行的2.5D設計提升了22%。
黃色條形圖代表的是“第二代”版本。在第一代中,3D模型假設2.5D設計和3D設計的內存帶寬相同——即位寬和頻率相同。第二代數據假設內存帶寬比第一代提升了4倍,imec稱這是“預期的”,但并未說明具體實現方式。總而言之,雖然這條產品線在全頻下性能是基準的2.2倍,但在半頻下性能提升了46%。(這是將全頻2.5D與半頻3D第二代進行比較。)
所以問題來了,為了獲得 22% 或 46% 的性能提升,做這一切值得嗎?
可行性與行業現實的碰撞
盡管這篇論文篇幅很短,但它確實暗示著要實現這些目標,行業內需要進行重大而全面的變革。
1、HBM
在理論上,無需基礎芯片即可交付HBM的想法簡潔明了,但實際上,這需要內存供應商為特定客戶甚至特定產品重新設計產品堆棧的核心部分。我們將拭目以待HBM4問世以及首批廠商采用定制基礎芯片時市場的靈活性,但DRAM和HBM的本質在于其批量通用化工藝。對于3D HBM-on-Logic而言,情況則更加復雜,且僅適用于那些采用協同設計集成的廠商。合并3D堆棧將帶來巨大挑戰,因為僅就尺寸而言,堆棧的良率就會降低。如果我們在堆棧內部嵌入硅橋來替代基礎芯片,那么這將增加對封裝生產線的需求,而目前全球范圍內能夠實現這些設計特性的工廠寥寥無幾,更不用說以足夠高的良率進行生產以證明其可行性了。這將是一項耗時數年的工作。
2、頻率
大幅降低GPU頻率,使其性能指標縮水一半,這簡直是瘋了。雖然從散熱角度來看,這在可行性上確實很方便,但它犧牲了原始計算能力來換取散熱空間,并將性能的重心放在了內存密集型AI工作負載上。那么其他工作負載呢?
問題在于,客戶不愿聽到新芯片的理論峰值性能只有舊芯片的一半,而且由于封裝和散熱的復雜性,價格也會高得多。僅僅將原始浮點運算性能減半,這并非一個成功的營銷策略。誠然,在某些情況下,工作負載數量會有所提升,但這也就意味著它變成了針對特定垂直行業的內存優化型產品,而不是目前大多數 Transformer AI 加速器在數據中心所追求的那種通用型產品。
3、你可以自由選擇嗎?
imec 的論文讀起來就像一份食譜——需要所有部件協同運作才能最終達成目標。論文提出了三大降溫方案,但其中一些方案并沒有給出確切答案。例如,關于雙面散熱——雖然論文“研究”了頂部散熱,但我們是否可以考慮芯片內部散熱?或者,鑒于市場正在討論將高帶寬閃存(HBF)作為 HBM 的替代方案,或許 HBM 的散熱效率更高?當我們看到這篇論文時,它帶來的潛在影響之大讓我們感到震驚。但是,考慮到良率、供應鏈和成本等諸多限制因素,在某些工作負載下提升 22% 的性能?這項研究固然可喜,但其結果卻難以令人信服。
結論:這是一份路線圖,而非產品
這項研究表明,HBM的未來遠未確定。目前有一條互連技術研究路線正在探索2.5D HBM,但目標是實現雙層模塊而非單層模塊。Celestial AI(最近被Marvell收購)和其他光互連公司正在討論用光纖連接到內存設備來取代HBM,通過將HBM放置在不同的服務器中,而不是與內存設備緊密相鄰,從而提供數倍的帶寬和容量。
在不進行任何改進的情況下,3D HBM-on-logic 的散熱問題會成為一大難題,直接導致基礎設計方案無法實現。但要通過一系列的改進、散熱調整,甚至犧牲 50% 的 GPU 原始頻率來使其可行,需要的遠不止是簡單地將 HBM堆疊在 GPU 芯片上。
imec提供的是3D HBM芯片可行性的路線圖,而非產品本身。它就像路標,指向未來性能提升不再僅僅依賴于晶體管數量和原始頻率,而是行業可以更有效地轉型,學習如何在三維空間內管理散熱。但從理念上講,如果沒有合適的市場推廣,我懷疑是否有人會公開宣稱要將芯片的原始吞吐量減半。
https://spectrum.ieee.org/hbm-on-gpu-imec-iedm?utm_source=homepage&utm_medium=hero&utm_campaign=hero-2026-01-14&utm_content=hero3
https://morethanmoore.substack.com/p/solving-the-problems-of-hbm-on-logic
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4288期內容,歡迎關注。
加星標??第一時間看推送
求推薦
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.