編輯部 整理自 MEET2026
量子位 | 公眾號 QbitAI
當國產AI芯片接連發布、估值高漲之際,一個尖銳的問題依然懸在頭頂:它們真的能撐起下一代萬卡集群與萬億參數模型的訓練嗎?
一邊是市場對替代方案的迫切期待,另一邊是英偉達在利潤與估值上仍高歌猛進……
百度智能云AI計算首席科學家王雁鵬在量子位MEET2026智能未來大會上,基于百度昆侖芯在大規模生產環境中的實戰經驗指出:
評判芯片實力的標準已從單純的算力數值,轉向了能否穩定支撐從百億到萬億參數、從稠密模型到MoE架構、從單模態到多模態的完整模型譜系訓練,并能在萬卡乃至更大規模集群上實現高效擴展。
在演講中,王雁鵬系統拆解了大規模訓練中集群穩定性、線性擴展與模型生態三大核心挑戰的攻堅路徑,并回應了行業對MoE時代硬件路徑的關切。
他認為,即便是參數激增的MoE模型,“小芯片搭大集群”的路徑依然可行,其關鍵在于極致的通信優化與系統級協同設計。
![]()
為完整呈現王雁鵬的思考,在不改變原意的基礎上,量子位對演講內容進行了整理編輯,希望能給你帶來更多啟發。
MEET2026智能未來大會是由量子位主辦的行業峰會,近30位產業代表與會討論。線下參會觀眾近1500人,線上直播觀眾350萬+,獲得了主流媒體的廣泛關注與報道。
核心觀點梳理
- 國產芯片的替代有一個漸進式的過程,昆侖芯從第一代開始已經做到了在搜索線上系統全量用推理,真正難的是在大規模訓練場景。
- 現在Scale換了一個維度,變成了模型參數的Scale和任務訓練規模的Scale,由此帶來了整個系統層面的Scale,映射到硬件上就有不同的size、各種形狀、不同的切分策略和并行策略。
- 當前重要發展方向是MoE,它在某種程度上延續了原有的Scaling Law,能夠繼續擴大參數規模,同時不增加激活參數規模。但系統層面會面臨新的挑戰:模型參數變得更大、輸入序列變長,通信占比顯著提升,占比提升意味著整個模型架構都要有變化。
- 當前我們在百度Qianfan VL、百度蒸汽機都取得較領先的模型效果,并已經實現全棧基于昆侖芯的訓練。
以下為王雁鵬演講全文:
真正的困難在大規模訓練場景里
大家好,我是來自百度智能云的王雁鵬,我很長一段時間都在負責AI基礎設施建設的工作。今天想跟大家分享的內容是,我們如何在生產環境中規模化應用我們的國產芯片
最近國產芯片熱度很高,很多產品陸續上市,也獲得了很高估值。似乎國產芯片馬上就要在大規模生產環境落地。但同時,英偉達仍然保持極高的利潤率和上漲的估值,市場仍然在購買其產品。
這兩個看似矛盾的現象背后,其實反映了一個事實:要真正把國產芯片用起來,難度依然非常大。不僅如此,除了英偉達之外的國際芯片供應商,也同樣沒有在大規模訓練場景中真正跑起來。
國產替代一定是漸進式過程。大家都知道在推理場景中問題不大,例如昆侖芯從第一代起就已在搜索線上系統實現全量推理,真正困難在大規模訓練場景里面。
第一大挑戰:集群穩定性
大規模訓練往往是上萬卡的同步系統,任何一臺卡中斷都可能導致任務重啟。
比如,在100張卡的時候有效訓練時間是99%,但當1%時間因為中斷浪費的話,線性擴展到一萬張卡則意味著整個集群不可用了。因此,第一個要解決的便是集群穩定性問題。
在芯片層面,GPU天生是高故障率器件:晶體管數量多、算力高、功耗大,同時專注于計算導致監控能力弱,整體比CPU的故障率高出多個量級。
在這方面我們有兩類經驗:
1、事前精細化監控與驗證:
我們必須假設芯片可能存在各種問題——運行變慢、精度異常、數據不一致等,因此需要系統級手段提前定位可能的故障,而不能依賴芯片自身的報錯能力。尤其是在靜默錯誤場景中,系統需要能夠精準定位故障節點,否則訓練會長期無法復現。
2、故障后的快速恢復能力:
無論故障率如何,總要避免大規模重算,因此我們構建了透明Checkpoint和快速恢復機制,盡量減少損失。
第二大挑戰:讓集群真正擴展起來
一個萬卡集群必須實現線性擴展,否則只有千卡、兩千卡的規模意義不大。
我們大致經歷了三個階段:
百卡集群上,驗證技術可行性,關鍵在于RDMA通信技術的適配與優化。
千卡集群上,由于網絡不再對等,比如我們不能把任何兩個芯片或者兩臺機器看成在網絡任何地方部署性能都一樣,因此也需要做好網絡親和性調度等復雜優化。
萬卡集群則是更大的挑戰,面對多任務、多并行策略(PP、TP、EP 等)帶來的流量競爭,必須實現芯片與網絡的聯合設計。
![]()
我們的核心邏輯叫:XPU驅動的any to any的通信
以XPU為核心,在通信過程中繞過CPU各種影響,直接用XPU驅動我們的網絡。針對不同流量有不同優先級做整個任務的最優,經過這一點我們可以把大規模擴展做上去。
第三大挑戰:模型生態與精度體系
英偉達最強的護城河并不只是硬件,而是過去十多年沉淀的模型生態:成千上萬種模型變體、算子體系、框架適配,這些都讓英偉達在訓練精度上保持絕對穩定性。
在大模型時代,由于Transformer這套架構相對統一,國產芯片迎來了機會。
但可能很多人忽略的一點是:
現在Scale換了一個維度,變成了模型參數的Scale和任務規模的Scale。而這意味著模型參數可以有不同的規模,例如十億、百億、千億,同時我們可以跑到不同硬件平臺上,比如百卡、千卡、萬卡,這兩個維度的Scale則會帶來整個系統的Scale。
![]()
不同于原來模型架構的Scale,算子映射到硬件上面會有不同的size,不同形狀,不同并行的策略,這個情況下算子能不能穩定地跑出來。我們看到它會在精度和性能上都會存在挑戰,尤其是精度方面的挑戰。換了一個平臺,甚至可能因為“算子寫得不對”、“精度差一點”都可能導致兩個月的訓練白跑。
因此我們做了高度泛化的算子體系,針對不同的算子的size做了高強度的泛化,同時在泛化基礎上還做到小規模驗證精度,避免每次都使用萬卡對比,從而保證大規模訓練的可靠性。
MoE模型與多模態模型的新挑戰
當前重要的發展方向是MoE,它能在不提升激活規模的情況下擴展模型參數,延續Scaling Law。
但MoE基礎上對系統架構也帶來新的挑戰,模型參數變大了,輸入序列變長,意味著通信占比提升了,對整個模型架構都會有改變
因此需要極致的通信優化,以及顯存的協同,與計算overlap,來完成MoE系統的適配。
![]()
我們的結論是,即便是MoE模型,小芯片搭大集群的方式依然可行
多模態模型則帶來另一類問題,不同的模態會帶來不同的訓練強度,不同模態的計算,還用原來的同構拆分方法的話會導致訓練的效率非常低,典型情況下MFU可能都不到10%。
![]()
針對這個需要做異構數據均衡的調度,適配異構并行策略,使得系統能夠根據我們workload動態地做并行策略。不管模型是什么樣的,都能找到最優的運行策略適配模型,在這一塊需要做優化。
衡量國產芯片“能否真正用起來”的標準,我們認為有兩個關鍵維度:
- 模型覆蓋能力:覆蓋大語言模型、多模態、文生視頻等完整體系。
- 集群規模能力:從百卡到千卡再到萬卡全覆蓋。
目前我們在模型覆蓋上基本達到主流大模型體系,在規模上已能跑萬卡任務,未來還會向數萬卡推進。
![]()
最近大家關注TPU,就是因為Google能夠用非常優秀的Gemini證明TPU的訓練能力——模型綁定硬件,硬件才能真正被接受。
同樣,昆侖芯也需要綁定優秀的自研模型。
當前我們在百度Qianfan VL、百度蒸汽機都取得較領先的模型效果,并已經實現全棧基于昆侖芯的訓練。未來我們會繼續努力,讓更先進的模型在我們昆侖芯上面全棧訓練出來。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.