AI加速與高性能計算的性能瓶頸,往往不僅僅取決于數字邏輯算力(GPU/ASIC核心數量、工藝節點),模擬電路的電源、接口與時鐘系統也在很大程度上決定了整個平臺的效率和極限。下面我從電源管理、SerDes、時鐘三方面逐一分析。
一、電源管理 挑戰
電流需求巨大:一顆先進工藝的AI加速芯片(如H100,幾百瓦功耗),單顆核心可能需要數百安培的瞬態電流,且壓降容忍度極低(±1~2%)。
瞬態響應:AI workload 負載變化快(矩陣計算burst),電源必須具備極快的瞬態響應,否則會觸發 droop → 降頻保護 → 算力下降。
轉換效率:從48V/12V母線到0.8V甚至0.5V核心電壓,如果效率低1-2%,對機房級別的PUE就是巨大的損耗。
現階段 VR(Voltage Regulator)效率、封裝內電源分布、電源完整性 是系統能否持續跑滿功耗的重要瓶頸。
若電源無法支撐峰值電流 → GPU/AI芯片 不得不降頻,這直接限制了TOPS/FLOPS。
帶寬需求爆炸:AI訓練需要 GPU-GPU 高速互聯,SerDes 已經進入 112G → 224G PAM4 時代。
信號完整性:在 >100Gbps 下,通道損耗、抖動、串擾、封裝寄生都成為巨大挑戰。
功耗問題:SerDes 是片上功耗大戶之一,高速PAM4鏈路每bit能耗過高會拖累整體能效比。
吞吐量與功耗的權衡使 SerDes 成為性能瓶頸之一。
鏈路帶寬不足 → 多GPU訓練規模受限;能效低 → 系統TCO(總擁有成本)飆升。
Nvidia、Broadcom、Marvell 正在大力優化 DSP equalization、ADC-based SerDes、co-packaged optics,正說明瓶頸嚴重。
低抖動需求:在高速 SerDes 與大規模并行計算中,時鐘抖動直接轉化為誤碼率(BER)和收斂速度。
分布復雜:上千個核心、上百個SerDes通道,需要大規模低延遲的時鐘分發網絡。
多芯片同步:Chiplet架構/多GPU系統,需要跨Die、跨板卡的相位一致性,要求極高。
在 AI/HPC 中,抖動和相位噪聲直接影響通信與計算精度,尤其在 PAM4/112G+ SerDes下。
若時鐘系統不穩,會導致 誤碼率提升、收斂變慢,間接拖累整體算力。
電源管理:已成為限制AI加速器性能的關鍵瓶頸之一(供電不足 → 降頻)。
SerDes:帶寬與能效是系統擴展的“天花板”,目前是 HPC/AI 最大的瓶頸之一。
時鐘系統:雖然不如前兩者直觀,但在高帶寬互聯和Chiplet架構下,低抖動時鐘已成為隱形瓶頸。
電源 → 多相VR、封裝內集成電感(IVR)、48V直供、GaN/SiC功率器件。
SerDes → 向 CPO(Co-packaged Optics) 發展,以光互連突破銅線極限。
時鐘 → 多層次分布式PLL、數字輔助校準,降低抖動。
結論:在AI/HPC系統中,電源管理 + SerDes + 時鐘的確是顯著的性能瓶頸。未來幾年,能否突破這些模擬電路環節,決定了AI算力的“上限”和能效比。
歡迎加入行業交流群,備注崗位+公司,請聯系老虎說芯
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.