(本文編譯自Semiconductor Engineering)
為了提高電源效率,目前的高性能計算(HPC)和人工智能(AI)數據中心使用的電源架構即將迎來重大變革。雖然芯片的電壓保持不變,但通向這些芯片的電壓將會更高,以適應更長的傳輸距離。
這一變化對DC/DC轉換器具有廣泛影響。現有架構將交流電輸送至每個機架,將其轉換為直流電,然后通過兩級降壓將電壓降至所需的芯片電壓。新方法以電動汽車(EV)市場已建立的協議為藍本,將交流電轉換移至樓宇邊緣或一排機架的末端,并為該排所有機架提供高于當前使用的直流電壓。其結果是降低電流、減少損耗并減少銅材用量。
這一變革的背景是數據中心正面臨持續增長且看不到盡頭的能源需求。Ansys(現已并入新思科技)電子和半導體業務部總監Rich Goldman表示:“人工智能、GPU和數據中心所驅動的電力需求正在極大地改變人們處理事務的方式。人們正將數據中心建在靠近能源產地的地方。”
每個機架目前都配備交流電
目前的數據中心電源配置將交流電分配到所有機架。每個機架底部的托盤包含一個電源單元(PSU),用于將交流電轉換為標稱的48V直流電。某些系統會根據需要采用54V直流供電,以便將電池充電至48V。
Amkor Technology計算產品營銷總監John Dinh表示:“電源被轉換為直流電,之后還需經過多次轉換,才能達到高性能芯片可用的電壓。”
48V電壓為所有上層服務器以及架頂式(ToR)交換機供電。在每塊電路板上,電壓分兩級降壓,最終由驅動MOS(DrMOS)芯片為受電芯片提供電壓。“第一級有一個電源模塊,將48V降至12V,有時甚至降至6V,”Dinh解釋道,“第二級,會有一個額外的控制器和DrMOS芯片,進一步將電壓降至1V、3V、0.8V或芯片所需的任何電壓。”
![]()
圖1:當前高級數據中心電源架構。
由于不同芯片的電源電壓要求可能不同,因此第二級電路需多次重復配置。DrMOS芯片除了提供必要的電壓外,還必須提供足夠的電流。每個DrMOS芯片都有電流限制,因此可能需要將多個芯片并聯在一起,才能在同一條電源線上達到規定的電流值。
例如,英偉達在其Grace/Hopper和Grace/Blackwell主板上就有很多這樣的芯片。“第二級使用了大量DrMOS芯片,”Dinh表示,“GH200為Grace使用了19個DrMOS芯片,為Hopper使用了56個DrMOS芯片;而GB200為Grace使用了19個DrMOS芯片,為Blackwell使用了130個DrMOS芯片。”
這體現了現有架構面臨的挑戰。“他們必須改變架構,”他表示“現在不再只是在GPU周圍填充更多DrMOS了,這種方式是不可持續的。”
這與最近幾代DRAM的變革理念類似,目前的每個內存模塊都自帶PMIC,這絕非偶然。Rambus內存接口芯片產品營銷副總裁John Eble表示:“這種理念就像數據中心的做法一樣。我們為用電終端(此處指內存)提供更高的電壓和更低的電流,然后通過一個電源管理IC來接收這些電壓,再生成所有必要的電壓。”
并非首次升壓
數據中心的電源架構只有一個目的——接收輸送的交流電,并盡可能多地將電力輸送到芯片和其他組件。這關系到電源效率,但這種效率是相對的。早期,數據中心機架采用12V直流供電,但隨著機架功率超過15kW,行業逐漸轉向48V。
當時的理由與下一組擬議的變更相同。由于功率是以VI計算的,因此在給定功率的情況下,電壓的增加會導致電流成比例地減少。而電流的大小對數據中心有多方面的影響。
首先,電流決定了連接電源所需導線的規格。目前的配置預計每個機架需要約200公斤的銅,以支持人工智能和其他計算密集型工作負載所需的巨大功率。通過降低電流,數據中心可以使用更少的銅線進行布線,這是一項不小的投資。
其次,影響在于特定導線對交流電和直流電的載流能力差異。趨膚效應意味著,對于交流電,大部分電流在導線表面附近流動,而流經導線內部的電流較少。
“在系統層面,使用相同數量的銅材傳輸交流電和直流電時,直流電可以輸送更高的功率,”Dinh表示。僅此一項就能通過現有線路提供更多電力。
此外,減少交流電也意味著,相同的電流可以通過更細的導線傳輸 —— 利用導線的全部截面,而非僅表面邊緣,這同樣能減少銅材的使用。
最后,傳導損耗與電流的平方成正比。這意味著降低電流可以減少損耗,從而提高效率。在盡可能長的布線距離內保持較高電壓,意味著在盡可能靠近芯片的位置再進行降壓。這既節省了電力,又能保持較高的電源完整性。
新型數據中心電源配置
目前所提出的電源架構將PSU移到數據中心的邊緣區域,或至少將其部署在獨立的機架中。這類機架有時被稱為“旁置機架”,通常設置在一排機架的末端。
“下一代機架式計算引入了集中式電源架構,”Dinh解釋道,“電源將擁有專屬機架,不再僅僅是機架底部的一個托盤。在這種架構中,數千伏的交流電在數據中心邊緣區域轉換為直流電,輸出電壓為800伏直流電,并將輸送到機房或成排的機架。”
這就省去了目前為每個機架供電的交流電。取而代之的是,機架接收高直流電壓,然后在靠近負載的電路板上,通過多階段降壓將其降至芯片所需的電壓。
![]()
圖2:新型數據中心電源架構。
這種配置被稱為高壓直流輸電(HVDC),它借鑒了電動汽車充電器的部分技術。“得益于電動汽車充電技術,這種裝置成本更低,部署也更便捷,”Dinh指出,“數據中心向高壓直流輸電的過渡,恰好與電動汽車充電基礎設施的發展相吻合。”
800V并非不可逾越的門檻,有些人認為400V是更可行的數字。但英偉達已經公開表示,其Kyber機架架構(預計將于2027年上市)將采用800V配置,和一個側邊機架來容納電源和冷卻基礎設施。
當然,這將導致每棟建筑或每排機架都需要進行一次交直流轉換,而不是每個機架都要單獨轉換。在現有配置下,如果一個電源發生故障,只會影響一個機架的運行。如果新的電源發生故障,則會影響更多機架的運行。“組件數量減少可能會造成單點故障。為了解決這個問題,必須配備冗余系統,”Dinh補充道。
FET和電源完整性
目前的方案意味著,負責將電源設備輸出電壓降壓的半導體必須能夠支持50V以上的電壓。這與即將到來的800V電壓相差甚遠,后者需要高壓半導體的支持。這將增加對SiC晶體管的需求,因為SiC晶體管在承受高壓方面的表現遠優于硅基晶體管和GaN晶體管。實際上,電動汽車領域現有的部分設計可經過改造沿用,從而降低轉型難度。
Ansys產品營銷總監Marc Swinnen表示:“我們看到功率器件的需求激增。功率場效應晶體管(FET)應用極為普遍。由于需要切換的功率規模極大,必須使用FET。”
對于此類芯片來說,對電源完整性驗證的需求變得更加迫切,因為設計參數的微小變化都可能會產生很大的影響。
“有一些專門設計用于詳細分析功率晶體管的工具,”Swinnen表示,“這些工具使用二維網格劃分,因為晶體管承載的功率非常大,其導通電阻(RDSon)是最重要的參數。必須精準計算導通電阻,并準確識別電壓降的具體位置,以避免出現熱點,如避免在拐角處或其他位置出現過多的電壓降,從而導致局部發熱。這與傳統僅基于電阻-電容(RC)模型的電源完整性分析截然不同。”
溫度在這里扮演著重要的角色,因為它可以激發正反饋回路。“功率往往是溫度的間接體現,”Swinnen表示,“當人們說‘我擔心功率問題’時,實際上是擔心設備會過熱。而這里存在一個反饋機制:芯片的功耗取決于其溫度,溫度越高的芯片功耗越大,反過來,更大的功耗又會導致芯片溫度進一步升高。這是一個先有雞還是先有蛋的循環問題。”
并非所有數據中心都采用這種架構
鑒于目前運營的數據中心數量眾多,將它們全部轉換為這種新架構的成本過高,這既不切實際,也沒有必要。只有極少數工作負載需要這種架構提供的超大功率。事實上,這一變革的必要性,源于對未來人工智能工作負載所需功率的預估。除人工智能和高性能計算之外的其他應用程序,可繼續在現有基礎架構上運行。
與此同時,電力輸送基礎設施(電氣和機械)制造商正加緊支持該新架構。英偉達的承諾消除了部分風險,預計幾年內即可完成部署。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.