![]()
隨著AI的興起,數(shù)據(jù)中心的功率密度已增長到液冷開始大規(guī)模建設(shè)的程度。
所有電子設(shè)備都會產(chǎn)生熱量,必須將這些熱量移除以確保設(shè)備不會過熱。幾十年來,利用空氣流動(風(fēng)冷)一直是主要的方法,液冷僅限于處理特別高強度的計算工作負載,主要集中在超級計算領(lǐng)域。
隨著AI的興起,數(shù)據(jù)中心的功率密度已增長到液冷開始大規(guī)模建設(shè)的程度。目前單相液冷占據(jù)主導(dǎo)地位,但兩相液冷和浸沒式液冷也正作為可選方案不斷增長。
這是一種相對較新的現(xiàn)象,主要歸因于AI計算導(dǎo)致的功率密度突然飆升。“2000年代或2010年代的計算機處理器功率只有幾百瓦,”JetCool創(chuàng)始人兼首席執(zhí)行官Bernie Malouin指出,“直到最近幾年,整體功率水平在很大程度上保持不變。”
“過去,水冷是一種例外情況,”Synopsys產(chǎn)品營銷總監(jiān)Marc Swinnen表示,“那是極端的做法。但現(xiàn)在我很驚訝它變得如此標準。幾乎每個高性能系統(tǒng)都采用了水冷。”
液冷有多種形式,并沒有單一的最佳解決方案。開發(fā)人員不能只是簡單地規(guī)定使用液冷,他們必須確定哪種類型的冷卻方式最好。這一決定對數(shù)據(jù)中心的基礎(chǔ)設(shè)施有重大影響,混合搭配不同的冷卻方法并不是一個切合實際的選擇。
“超級計算行業(yè)一直是液冷的先驅(qū),在這里你會看到一塊金屬板放置在處理器頂部,在許多情況下,如果是HBM(高帶寬內(nèi)存)之類的,也會覆蓋內(nèi)存,”Rambus的研究員兼杰出發(fā)明家Steven Woo說,“它內(nèi)部是中空的,有橡膠管進出。有一個入口和一個出口,液體在一個連續(xù)的回路中流動。現(xiàn)在人們正在為浸沒式冷卻奠定基礎(chǔ)。”
任何冷卻方案都必須盡早確定,即在架構(gòu)、性能和功耗進行早期模擬時就需確認。“你必須從一開始就關(guān)注架構(gòu)層面,以確定功耗數(shù)值、熱通量和冷卻方法,”Synopsys SoC工程高級工程師Satya Karimajji表示。
需要明確的是,盡管功率密度推動了向液冷的轉(zhuǎn)變,但這并非為了降低功耗。“這更多是為了在相同的占地面積內(nèi)傳輸更多信號,而不是為了降低數(shù)據(jù)中心的功耗,”Synopsys產(chǎn)品管理總監(jiān)Rob Kruger觀察道。
風(fēng)冷的問題
大多數(shù)數(shù)據(jù)中心和其他計算場所都依賴風(fēng)冷。空氣進入建筑物,經(jīng)冷卻后被吹入架空地板下方,從而保持室內(nèi)涼爽。服務(wù)器自帶的風(fēng)扇將冷空氣推過芯片,空氣受熱后被吹回大氣中。
這個過程在制冷劑中涉及液體,但那遠離發(fā)生冷卻的地方。這也是一個開環(huán)系統(tǒng),引入新空氣并排出熱空氣。這種方法在一定程度上是有效的。但在超過一定的發(fā)熱水平后,如果不將風(fēng)扇轉(zhuǎn)速提高到不切實際的程度,它就無法足夠快地帶走熱量,這會導(dǎo)致不安全的噪音水平和其他問題。
“使用風(fēng)冷時,你需要風(fēng)扇來吹動空氣,氣流越快,帶走的熱量就越有效,”西門子EDA創(chuàng)新路線圖經(jīng)理Robin Bornoff說,“但這有一個極限。風(fēng)扇越大,服務(wù)器就必須越大,從而降低了計算密度。”
水是比空氣更有效的冷卻劑,盡管它通常不單獨使用。“它的密度約為空氣的1000倍,”Bornoff說,“它的熱導(dǎo)率是空氣的20倍。與空氣相比,用水可以提取更多的熱量。”
這帶來了更強的散熱能力,將液體泵送到熱交換器可以將熱量從電路中帶走。最終,這些熱量會加熱空氣,但這發(fā)生在其他地方,遠離服務(wù)器機架。
冷卻芯片的三種方式
液冷有三種可能的形式。目前最常見的是單相液冷,因為冷卻液始終保持液態(tài)。該系統(tǒng)依賴于液體比空氣更高的熱導(dǎo)率和熱容來完成更有效的工作。
目前不太常見但研究力度很大的是兩相液冷。其目的是利用從液體變?yōu)闅怏w所需的巨大潛熱。“相變吸收的熱量實際上比從0°C到100°C的溫度變化吸收的熱量還要多,因此它在散熱方面非常高效,”Swinnen說。與單相不同,這里的冷卻液實際上會沸騰,帶走的熱量遠超單相冷卻所能達到的水平。
![]()
冷板中單相與兩相冷卻的概念圖。在單相冷卻中,冷卻液保持液態(tài)并在CDU(冷卻液分配單元)中冷卻。在兩相冷卻中,冷卻液沸騰,蒸汽被移除并重新冷凝,從而帶走更多熱量。
“沸騰是個絕妙的主意,”Bornoff說,“這是一種非常有彈性的散熱方法,但它也有其局限性。”
即使液體沸騰,保持其與受熱表面的接觸也很重要。“最終表面上會有一層幾微米厚的水,”Bornoff說,“熱量進入那少量液體中,然后傳遞給氣泡。氣泡消失,被新的液體取代。只要氣泡形成且它們之間有一些液體,那就是最大的熱傳遞效率。”
如果熱通量太高——即每單位面積散發(fā)的熱量太快,而系統(tǒng)無法跟上,那么底部的這層水也會蒸發(fā)。在這種情況下,就沒有液體與熱源接觸了。取而代之的是水蒸氣,這是一種氣體——本質(zhì)上又回到了風(fēng)冷。此時冷卻效果會急劇下降。這種熱通量水平被稱為臨界熱通量(CHF)。
第三種液冷方法是全浸沒式。它涉及一個裝滿液體的槽,整個服務(wù)器都浸沒其中。這種液體必須是介電的(絕緣的),以防造成短路。它還必須無腐蝕性,以保持電子設(shè)備的完好。浸沒式可以作為單相或兩相冷卻系統(tǒng)運行。
在這種情況下,液體仍然被泵出進行冷卻。最初,建筑物內(nèi)的一個單泵將冷卻液分配到各處,但這因管道損耗等原因被證明效率低下。現(xiàn)在,液冷槽配備了更近的再循環(huán)器——有時被稱為節(jié)能器,因為它們的運行效率更高。
浸沒式冷卻從所有組件中帶走熱量,但其速度比其他技術(shù)慢。“如果標準是熱量捕獲的百分比,浸沒式做得非常好,”Malouin說,“你可能會將服務(wù)器近100%的熱量捕獲到流體中。但由于流體本身的熱特性,用單相浸沒式冷卻數(shù)千瓦的設(shè)備真的很難。”
應(yīng)用液體的不同方式
浸沒式冷卻的工作方式大同小異,但其他方法有一些變體。目前最常見的實現(xiàn)方式是冷板,它貼附在芯片封裝上,取代了以前風(fēng)冷用的散熱器。
“我在展會上看到最常見的東西是某種有液體流入的板,”Rambus的Woo觀察到,“板接觸重要的半導(dǎo)體元件,通常有引導(dǎo)液體流動的凹槽。”
冷板的優(yōu)點是它是一個獨立的單元,可以在組裝時安裝到封裝上。它不會影響封裝內(nèi)部的裸片、芯粒或其他組件。
冷板的缺點是冷卻液通過封裝頂部、界面材料和冷板底部與芯片隔開。主要的熱傳遞要么向下通過PCB,要么向上通過冷板。除了焊料和金屬線,中間的材料并非因其熱導(dǎo)率而被選中,這在冷板和封裝內(nèi)容物之間留下了障礙。
除冷板之外,還有一種被稱為直接噴射或直接液冷(DLC)的技術(shù),意味著冷卻液直接接觸被冷卻的裸片。冷卻液可以流過或噴射到硅片背面。因為冷卻液直接接觸裸片,它能立即接觸熱源并更迅速地帶走熱量。
挑戰(zhàn)在于冷卻液必須與封裝的其余部分隔離,這目前還不是一個完全解決的問題。包含多個裸片的先進封裝提出了另一個挑戰(zhàn)。如果一個裸片是主要熱源,那么冷卻可以只集中在該裸片上。但如果有多個高功率計算芯粒,每個都需要單獨冷卻。目前有大量的研究正在進行,但大規(guī)模應(yīng)用才剛剛起步。
冷卻液很重要
人們很容易認為水是顯而易見的冷卻劑,但更常見的是水和丙二醇的混合物(通常是50/50),這種組合簡稱為PGW。丙二醇類似于汽車防凍液(乙二醇)。像防凍液一樣,它擴展了冷卻劑保持液態(tài)的溫度范圍。防凍液僅描述了冷卻劑在低溫端的作用。然而,汽車類冷卻液具有劇毒,通常僅用于人類不太可能誤食的地方。
丙二醇毒性較小,但在1個大氣壓下,其沸點約為188°C,低于乙二醇的197°C。與水50%混合后,這些限值降至約105°C和108°C,雖然比水高,但也高不了多少。
對于浸沒式冷卻,介電冷卻液的設(shè)計既要有效,又要對人類和電子設(shè)備友好。舊的液體可能有毒,但現(xiàn)代液體被選擇為無毒、無腐蝕性、不易燃且可生物降解。而且現(xiàn)代冷卻液比PGW更貴。
“浸沒式冷卻使用了一些有趣的液體,”Woo說,“它們是電惰性的。我把手放進去——一家公司讓我這么做——我甚至感覺不到,因為它們不發(fā)生反應(yīng)。它們也不與你的皮膚反應(yīng),所以感覺很奇怪。”
加熱后的冷卻液帶來了一個意想不到的潛在好處。與散失到大氣中的熱空氣不同,液體在一個封閉系統(tǒng)中運行。“[液體]流入流出機箱,然后進入熱交換器,在那里交換熱量,冷卻下來,并循環(huán)回服務(wù)器,”Woo說。
這意味著冷卻液內(nèi)部的熱量可以用在其他地方。一項已進行初步研究的想法是將冷卻液通過管道輸送出數(shù)據(jù)中心,為附近居民產(chǎn)生熱水。這使得計算消耗的部分能源得以回收和再利用。
“液體的優(yōu)點是能量被傾倒在液體中,這是一種非常有效的存儲本來會損失的能量的方式,”Bornoff說,“為什么不把它泵入當(dāng)?shù)氐纳顭崴芈罚詽M足附近住宅的熱水需求呢?”
環(huán)境因素也很重要。“你要確保液體中不含‘永久性化學(xué)物質(zhì)’,”Woo指出。
基礎(chǔ)設(shè)施變革
從風(fēng)冷轉(zhuǎn)向液冷不僅僅涉及芯片、服務(wù)器和機架層面的變化。除了極少數(shù)例外,整個數(shù)據(jù)中心都必須配備處理液體的設(shè)施。
“你需要泵和軟管,”Woo說,“你需要考慮可維護性。有高可靠性、低泄漏的閥門,可以從服務(wù)器上快速開關(guān)。它們還有熱交換器。對于浸沒式,你談?wù)摰氖侵苯釉谘h(huán)系統(tǒng)中的槽。”
如果整個機架或一排機架采用液冷,那么就不再需要架空地板。取而代之的基礎(chǔ)設(shè)施是管道和液體處理系統(tǒng),通常通過冷卻液分配單元(CDU)進行泵送。
“其中一些數(shù)據(jù)中心內(nèi)部的管道設(shè)計非常有想象力,”Synopsys的Kruger指出。
管理這些系統(tǒng)不同于現(xiàn)有的風(fēng)冷方法。“兩個指標很重要:低壓降和低熱阻,”Alloy Enterprises聯(lián)合創(chuàng)始人兼首席執(zhí)行官Ali Forsyth說,“這允許數(shù)據(jù)中心在循環(huán)更高溫度的水的同時,仍能滿足機架內(nèi)組件的熱需求。這意味著不需要制冷或提升暖通空調(diào)(HVAC)功率,這是巨大的能源節(jié)約。”
每種冷卻方法都有其自己的基礎(chǔ)設(shè)施。因此,一個機架——甚至整個數(shù)據(jù)中心——通常會致力于一種冷卻類型。“你通常不會看到一個托盤是液冷的,而其他的卻是風(fēng)冷的,”Forsyth觀察道。
冷板
冷板可以根據(jù)封裝尺寸定做。然而,這忽略了一個事實,即熱量并不是在整個封裝中均勻產(chǎn)生的。如果封裝容納單個裸片,該裸片表面的不同區(qū)域會有冷熱之分。而包含多個組件的先進封裝將包含一些比其他組件產(chǎn)生更多熱量的組件。
因此,一些冷卻解決方案涉及定制冷板,將冷卻集中在產(chǎn)生熱量最多的地方。Alloy Enterprises采用3D打印技術(shù)在冷板內(nèi)部創(chuàng)建定制的液體路徑。其最常用的冷卻液是含25%水的丙二醇。
“我們開發(fā)了一種稱之為疊層鍛造的制造工藝,這是一種基于板材的工藝,我們可以在單件組件中制造復(fù)雜的內(nèi)部和外部幾何形狀,”Forsyth說,“我們可以在需要的地方放置大通道,對其進行適當(dāng)?shù)某叽缯{(diào)整和優(yōu)化。我們在需要的地方放置小尺度通道。”
與其從必須燒結(jié)的粉末開始,其工藝通過堆疊多個金屬層來構(gòu)建冷板。內(nèi)部表面使用激光進行圖案化,以創(chuàng)建引導(dǎo)液體的凹槽。可以有多個冷卻液入口以提高冷卻效率。
“幾乎所有的3D打印都在某個時刻依賴于熔化或熔融金屬,或者某種形式的燒結(jié),”Forsyth解釋說,“當(dāng)你有液態(tài)金屬時,制造微小的東西真的很難。通過毛細作用力,它會滲入那些小孔中。因此,我們能夠制造出比其他金屬3D打印工藝小一個數(shù)量級的通道尺寸。”
高溫制造步驟提供擴散鍵合,將各個板材結(jié)合成單塊金屬。該工藝避免了典型金屬3D打印可能出現(xiàn)的翹曲。“所有東西同時加熱,因此我們不會因熱梯度而引入殘余應(yīng)力,”Forsyth說。
另一家公司HydroGraph進行了一些兩相實驗,在冷卻表面沉積材料,以防止表面過于光滑導(dǎo)致過熱。它在沸騰表面創(chuàng)建了銅上燒結(jié)鎳、多孔銅/鎳界面以及其專長的石墨烯。增加的粗糙度提供了成核點,與裸銅相比,熱傳遞系數(shù)(HTC)提高了152%,臨界熱通量(CHF)比裸銅高40%。
來個冷水澡
直接噴射冷卻的一個例子來自JetCool,其裝置帶有微小噴嘴,可將冷卻液噴射到表面上。該公司有三種提供該技術(shù)的方式——直接噴射到硅片上,這是最先進的配置,最適合最高功率;作為冷板;以及作為用于缺乏液體基礎(chǔ)設(shè)施的機架的獨立單元。它聲稱正在冷卻功率高達5000瓦的芯片。
![]()
JetCool的直接液冷。液體流入最右側(cè)的端口(藍色箭頭),并被壓入噴嘴(中間和插圖)。熱液體從左側(cè)端口流出(紅色箭頭)。
獨立型號可以替代現(xiàn)有服務(wù)器中的風(fēng)扇,降低高達15%的功耗。“這些通常是位于服務(wù)器內(nèi)部的小型液冷回路,”Malouin解釋說,“這允許我們的客戶在任何風(fēng)冷數(shù)據(jù)中心部署液冷。這可以將服務(wù)器功耗降低15%。”
就像Alloy的凹槽經(jīng)過圖案化以匹配熱點一樣,JetCool的噴嘴也是針對每個封裝定制位置的。
一些DLC系統(tǒng)可能使用高壓。“根據(jù)我們看到的客戶結(jié)果,噴射沖擊的壓降有40倍的差異,”Forsyth說。
然而,JetCool表示他們不是這樣做的。“我們在給定的流體動力預(yù)算下可以實現(xiàn)更好的性能,因為我們特別不依賴壓力來驅(qū)動性能,”Malouin說,“通常,我們將壓降降至最低,因為當(dāng)最大化流動強度而不是壓力時,我們的技術(shù)效果最好。”
沒有唯一的正確答案
該領(lǐng)域的參與者認為,這些解決方案中的每一個都有其最佳應(yīng)用點(sweet spot)。沒有任何一種會徹底淘汰其他方案。雖然冷板最簡單且成本最低,但DLC可以為高功率芯片最快地帶走熱量。浸沒式可以帶走更多的總熱量,因為它冷卻所有東西,而不僅僅是某些芯片,盡管它冷卻高功率芯片的速度可能不如DLC快。
“隨著當(dāng)今計算的多樣化,所有這些不同類型的冷卻在市場上都有一席之地,因為不同的工作負載、不同的應(yīng)用以及不同的部署風(fēng)格和位置都有不同的要求,”Malouin說。
在替換現(xiàn)有風(fēng)冷基礎(chǔ)設(shè)施時,增加液體基礎(chǔ)設(shè)施是一個障礙,但對于新建項目來說障礙較小,盡管JetCool的獨立單元是避免重建基礎(chǔ)設(shè)施的一個選擇。該投資的部分回報是有能力構(gòu)建包含無法僅靠風(fēng)冷冷卻的芯片的服務(wù)器,從而增加所用服務(wù)器和機架的價值。
如果數(shù)據(jù)中心計劃轉(zhuǎn)向高壓直流(HVDC),即把更高的直流電壓一直輸送到機架,然后再降壓到可用水平,那么該項目也可能是轉(zhuǎn)換冷卻基礎(chǔ)設(shè)施的好時機。
“多個巨大的變化正在同時發(fā)生,”Woo指出,“人們正在談?wù)?00V配電,甚至800V。如果你正在考慮配電方面的重大變革,也許可以將其與冷卻升級結(jié)合起來。”
可維護性也很重要。輸送冷卻液的管道必須放置妥當(dāng),以便在必要時仍能接觸到服務(wù)器本身。“可維護性可能更具挑戰(zhàn)性,因為可能需要移開管道才能更換組件,”Malouin指出。
浸沒式冷卻帶來了更大的維護挑戰(zhàn)。移除單個服務(wù)器可能是可行的,但也可能需要排空介電冷卻液,之后再重新加注。“浸沒槽必須打開,這可能會影響除正在維修的系統(tǒng)之外的多個系統(tǒng),”Malouin補充道。
通常,必須進行浸沒監(jiān)測以檢測任何過熱情況,并重新平衡工作負載以控制溫度。
新型冷卻即將上線
單相冷板和浸沒式冷卻目前的使用還很有限,但隨著公司建設(shè)能夠處理AI訓(xùn)練和高性能計算的數(shù)據(jù)中心,冷板可能會變得更加普及。英偉達的Grace/Blackwell機架已經(jīng)包含了液冷,并且支持液冷的機箱已在市場上銷售。
“如果你去SuperMicro這樣的地方,你可以買到帶有液冷的機架,”Woo說,“它們是4U的盒子,上面2U是英偉達或AMD引擎,下面2U是雙插槽Xeon或EPYC處理器。如果你去SuperMicro網(wǎng)站,你會看到帶有液體管道的機箱。”
冷板的提供方式可能有所不同。“有時冷板隨芯片本身出售,”Forsyth說,“在其他情況下,超大規(guī)模云廠商或服務(wù)器制造商會購買芯片、TIM(熱界面材料)和冷板,并自行組裝。”
直接冷卻開始變得可用,兩相冷板應(yīng)該會在幾年內(nèi)出現(xiàn)。一旦轉(zhuǎn)型完成,液冷應(yīng)該不再讓人感覺是負擔(dān),因為機架將為此配備齊全。
浸沒式冷卻的使用大概率會增加,但這比冷板或DLC更費周章,可能會被更具選擇性地采用。
在可能的情況下,對于處理更普通用途、功率更適中的硅芯片的機架,風(fēng)冷可能仍將受到歡迎。液冷的運營成本可能較低,但基礎(chǔ)設(shè)施投資必須有合理的盈虧平衡期,這種轉(zhuǎn)換在經(jīng)濟上才有意義。
因此,數(shù)據(jù)中心的未來可能包括風(fēng)冷、冷板、DLC和浸沒式的混合。這種混合將包括單相和兩相系統(tǒng)。單個數(shù)據(jù)中心可能只配置一種冷卻類型,但這種混合預(yù)計將存在于各類數(shù)據(jù)中心之間。
*聲明:本文系原作者創(chuàng)作。文章內(nèi)容系其個人觀點,我方轉(zhuǎn)載僅為分享與討論,不代表我方贊成或認同,如有異議,請聯(lián)系后臺。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.