智東西
作者 陳駿達
編輯 漠影一、AI云建設熱潮持續(xù),全棧能力成關鍵競爭力二、新架構(gòu)新應用層出不窮,百度AI Infra能力如何持續(xù)演進?三、自研算力基座支撐文心訓推,獲行業(yè)頭部企業(yè)采用結(jié)語:上下游整合成大勢所趨,百度搶先交卷全棧方案
![]()
算力,正成為大模型時代名符其實的“新石油”。
上周三,國際能源署發(fā)布的報告為這一觀點提供了有力佐證。2025年,全球數(shù)據(jù)中心的投資預計將達到約5800億美元,遠超今年5400億美元的全球石油供應投資額。這一400億美元的投資差額,折射出市場對AI發(fā)展?jié)摿Φ恼J可。
越來越多的企業(yè)開始意識到,算力不僅是支撐AI模型訓練和推理的基礎資源,更是推動產(chǎn)業(yè)創(chuàng)新與智能化升級的核心要素。傳統(tǒng)的基礎設施體系在模型規(guī)模爆炸式增長、推理需求多樣化以及實時性要求更高的趨勢下,已逐漸顯露瓶頸。伴隨應用場景的不斷豐富與技術體系的快速迭代,以算力為核心的AI Infra(AI基礎設施)體系必須順勢升級。
正是在這一大背景下,百度在剛剛落幕的百度世界大會上,系統(tǒng)展示了其在AI Infra上的最新探索。
從今年上半年點亮的昆侖芯P800三萬卡集群,到支撐萬卡集群實現(xiàn)98%有效訓練時長的百舸平臺,再到會上最新發(fā)布的昆侖芯最新一代產(chǎn)品、天池256/天池512超節(jié)點。百度已構(gòu)建起一個覆蓋芯片、集群到平臺的全棧式、規(guī)模化AI Infra解決方案。
在競爭日益激烈的AI云戰(zhàn)場上,誰能率先構(gòu)建起穩(wěn)定、可擴展、成本可控的全棧AI Infra體系,誰就有望在未來的競爭中占據(jù)更主動的戰(zhàn)略高地。而百度在本屆百度世界大會展示的全棧AI Infra能力,或許正是其在下一輪AI云競爭中亮出的底牌。
構(gòu)建覆蓋芯片、集群、平臺等領域的全棧AI Infra能力,正在成為AI行業(yè)頭部玩家競相投入的核心方向。
在海外市場,這一趨勢尤為明顯。谷歌依托長期發(fā)展的TPU(張量處理單元),形成了以TPU為核心的高度定制化AI算力體系,使其在大模型訓練與推理服務中形成獨特的技術優(yōu)勢。
亞馬遜AWS多年來持續(xù)押注自研芯片,并與其云服務深度綁定,以實現(xiàn)更高能效比和更低成本。
模型廠商OpenAI的動作同樣具有標志性,他們聯(lián)手博通自研AI加速器,還布局獨立AI云服務業(yè)務。這不僅是為了提升未來模型迭代效率,更是為了減少對外部算力供應鏈的依賴,確保核心競爭力的可持續(xù)性。
與此同時,作為全球AI產(chǎn)業(yè)鏈最關鍵的算力供應商之一,英偉達也在不斷構(gòu)建自己的AI能力版圖。除了不斷提升GPU性能外,英偉達還深入高速互聯(lián)等關鍵領域,并向云端延伸,推出NIM推理微服務等。英偉達越來越像一家完整的AI基礎設施公司,而不僅僅是芯片供應商。
這些案例共同指向一個明確趨勢:AI云競爭的本質(zhì)正在從單一算力供應,轉(zhuǎn)向?qū)Φ讓佑布⑾到y(tǒng)架構(gòu)、編譯優(yōu)化、算力調(diào)度、模型服務等全鏈路的深度整合。在這一全棧體系中,芯片提供底層算力支撐,并需與云端的系統(tǒng)設計、模型框架和軟件生態(tài)保持緊密協(xié)同。上下層在架構(gòu)、調(diào)度與優(yōu)化上的合力,才能讓AI云體系在性能、資源利用和擴展性上實現(xiàn)更優(yōu)的整體表現(xiàn)。
視角轉(zhuǎn)向國內(nèi),百度是國內(nèi)較早開啟自研AI芯片的廠商之一。早在2011年,昆侖芯團隊便啟動了FPGA AI加速器項目,是國內(nèi)最早源?真實業(yè)務場景的AI芯?研發(fā)團隊,2018年,百度正式啟動昆侖芯研發(fā),并完成了3次迭代。
不僅如此,百度還是國內(nèi)最早提出AI云概念的廠商之一。早在2020年,百度智能云便開啟了“云智一體”戰(zhàn)略,將云計算和AI緊密融合。根據(jù)IDC今年發(fā)布的《中國AI公有云服務市場份額,2024》報告,去年,中國AI公有云服務市場規(guī)模達195.9億元,百度智能云以24.6%的市場份額位居第一,連續(xù)六年、累計十次蟬聯(lián)中國AI公有云市場冠軍。
![]()
憑借從芯片、集群到平臺的全棧布局,百度不僅在算力供給上建立了堅實優(yōu)勢,也在AI云服務中形成了獨特的競爭壁壘。
然而,在快速變化的AI領域,沒有玩家能在固守現(xiàn)有技術和模式的情況下持續(xù)領先。隨著新模型架構(gòu)和應用不斷涌現(xiàn),算力需求和系統(tǒng)復雜性呈指數(shù)級增長,傳統(tǒng)技術和算力體系很容易被更靈活、高效、全棧化的競爭者超越。
百度世界大會分論壇上,昆侖芯認為在大模型“新應用”的背景下,越來越多“非計算任務”正被“計算化”,很多AI Agent或應用就是把以前非計算的任務用計算實現(xiàn)。
當前涌現(xiàn)的大量新應用正在改變傳統(tǒng)任務的執(zhí)行方式,從AI編程、智能搜索,到具備規(guī)劃能力Al Agent,過去依賴人工決策與操作的任務,如今正逐步交由機器自動完成。以往用戶需耗費大量時間檢索、比較與判斷,而現(xiàn)在僅需Agent消耗數(shù)萬至十萬級Token即可自動實現(xiàn)。隨著Agent商業(yè)化的加速,應用生態(tài)規(guī)模迅速擴大,最直觀的體現(xiàn)是Token消耗量的激增。
未來,Token將像水電一樣,作為不可或缺的基礎要素,深度融入社會生活的各個領域。百度智能云混合云部總經(jīng)理杜海認為,未來的算力需求短期內(nèi)可能達到現(xiàn)有推理算力幾十倍甚至百倍的規(guī)模。面對這些挑戰(zhàn),國產(chǎn)AI Infra該如何升級?
芯片層面,在百度世界大會上,百度集團執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖亮出了昆侖芯未來五年的路線圖。今年,昆侖芯已實現(xiàn)單集群三萬卡點亮,并發(fā)布了百度天池32超節(jié)點和64超節(jié)點;2026年-2027年,兩款昆侖芯新品和百度天池256超節(jié)點、百度天池512超節(jié)點都將陸續(xù)上市。
上述硬件的優(yōu)化方向,與當前AI模型的演進路徑高度契合。本次發(fā)布的昆侖芯新品重點面向大規(guī)模推理以及超大規(guī)模多模態(tài)訓練與推理場景進行優(yōu)化,而這些正是當下大模型發(fā)展的關鍵方向。天池超節(jié)點則專門針對大規(guī)模訓推場景。
天池256超節(jié)點相比其今年4月發(fā)布的超節(jié)點方案,卡間互聯(lián)總帶寬提升4倍,主流大模型推理任務單卡tokens吞吐提升3.5倍。天池512超節(jié)點最高支持512卡極速互聯(lián),卡間互聯(lián)總帶寬提升1倍,單節(jié)點可完成萬億參數(shù)模型訓練。
![]()
然而,光憑硬件本身,也支撐大規(guī)模AI訓練需求,配套的計算平臺、供應鏈和團隊都需要同步優(yōu)化,以滿足新架構(gòu)、新應用帶來的新需求。
百度已經(jīng)在打造三萬卡集群的過程中,深刻把握到萬卡級AI Infra的復雜性。杜海稱,這一系統(tǒng)性工程不僅要解決由服務器、光模塊到機房節(jié)奏在內(nèi)的超大規(guī)模供應鏈協(xié)同,還需依托研發(fā)、運維和調(diào)度體系的全鏈路協(xié)作與技術優(yōu)化,確保集群能力的線性提升、穩(wěn)定性和故障自愈能力。
百度智能云AI計算首席科學家王雁鵬認為,訓練和推理的差異,使硬件穩(wěn)定性成為首要挑戰(zhàn)。推理可以容忍單機故障,但訓練往往涉及上萬塊GPU的同步計算。王雁鵬指出:“如果百卡訓練的有效計算時間是99%,擴展到萬卡,有效訓練時間可能歸零。”為此,百度智能云建立了全面的故障檢測體系,通過通信庫實現(xiàn)對慢節(jié)點和故障卡的精準定位。
從百卡擴展到千卡乃至萬卡,網(wǎng)絡拓撲、任務調(diào)度和通信策略都需要相應變化。百度智能云的思路是結(jié)合自身芯片和網(wǎng)絡特點,進行軟硬件協(xié)同優(yōu)化。他們提出了XPU驅(qū)動的通信模式,實現(xiàn)跳過CPU的高效XPU直通通信,并通過多平面高算出的網(wǎng)絡設計和優(yōu)化的通信策略,實現(xiàn)萬卡帶寬有效性達95%,幾乎接近理想線性擴展。
隨著AI模型架構(gòu)不斷迭代,國產(chǎn)AI芯片的生態(tài)也面臨更高要求。英偉達顯卡的CUDA生態(tài)支持百種模型架構(gòu),形成了國產(chǎn)算力追趕路上難以繞開的“護城河”。王雁鵬認為,國產(chǎn)算力若要在大模型時代迎頭趕上,必須建立高泛化算子體系,在小規(guī)模驗證中確保大規(guī)模訓練的精度和性能,最終保證算子覆蓋度和正確性。
此外,隨著上千億、萬億參數(shù)的MoE模型出現(xiàn),以及多模態(tài)模型(視覺、語音等)的引入,系統(tǒng)通信占比上升、顯存壓力增大、負載高度異構(gòu)。面對這些挑戰(zhàn),百度智能云團隊通過分層存儲等方式,讓國產(chǎn)集群運行MoE模型的效率接近GPU集群。而異構(gòu)并行通信策略則將多模態(tài)模型算力利用率提升至50%左右,與傳統(tǒng)的稠密模型類似。
百度在百舸平臺上將上述一整套能力進行了整合。用戶可以通過百舸平臺以標準化、產(chǎn)品化的方式,使用國產(chǎn)優(yōu)質(zhì)算力和上述各種技術手段,建設高效的基礎設施、提升模型訓練效果,并加速推理性能。
這套全棧AI Infra能力,已經(jīng)廣泛應用在百度的內(nèi)部業(yè)務中。經(jīng)過十余年技術積累和三次迭代,百度的國產(chǎn)化算力底座如今不僅能穩(wěn)定支持搜索、推薦等百度核心業(yè)務,還逐步成為承載百度?模型訓練與推理的核心算力引擎。
例如,Qianfan-VL-3B、Qianfan-VL-8B、Qianfan-VL-70B這三款主打OCR全場景識別和復雜版面文檔理解兩大能力的SOTA級模型,正是在5000卡的昆侖芯集群上,利用百度的全棧AI Infra能力訓練而來的。支持“無限時長”生成的百度蒸汽機視頻生成模型,是全球首個中文音視頻一體化生成模型,發(fā)布時在權(quán)威榜單VBench-12V上位列全球第一。這一模型,是在6000卡的昆侖芯集群上煉成的。
![]()
▲百度蒸汽機生成了今年百度世界大會的開場視頻
除了支持百度內(nèi)部業(yè)務之外,百度智能云已經(jīng)基于百舸平臺和昆侖芯,對外規(guī)模化提供算力服務。基于“百度百舸AI計算平臺+昆侖芯P800”構(gòu)建的國產(chǎn)萬卡集群,率先成為首家通過信通院《面向大規(guī)模智算服務集群的穩(wěn)定運行能力要求》測評的國產(chǎn)萬卡級別集群,且在基礎設施、集群調(diào)度、模型訓練保障等核心測評維度上,獲得最高等級“五星級”。
在算力規(guī)模化應用的過程中,硬件是基礎,但遠非全部。百度百舸作為軟硬一體、全棧優(yōu)化的計算平臺,通過整合AI基礎設施、資源管理、工程與模型訓推加速等關鍵服務,幫助企業(yè)解決“有硬件卻用不好”的痛點,充分釋放算力的潛能,將其轉(zhuǎn)化為真實場景中的生產(chǎn)力。
百舸平臺不僅適用于昆侖芯,也能幫助廣大企業(yè)根據(jù)自身需求打造穩(wěn)定、可靠的算力底座。分論壇上,北京人形機器人創(chuàng)新中心大模型負責人鞠笑竹分享了團隊在百舸平臺上開發(fā)機器人大模型的經(jīng)歷。雙方合作最初圍繞數(shù)據(jù)展開,隨后擴展到VLM等多類大模型的訓練,覆蓋數(shù)據(jù)與算力的全鏈條支持。在構(gòu)建并開源RoboMind數(shù)據(jù)集的過程中,創(chuàng)新中心基于百舸平臺完成了模型訓練與真機部署測試,形成“數(shù)據(jù)—訓練—驗證”的完整閉環(huán)。
同時,百舸的算力環(huán)境不僅加速了“慧思開物具身智能平臺”的研發(fā),還支撐創(chuàng)新中心成功訓練了72B的開源具身多模態(tài)大模型Pelican-VL 1.0,整體訓練效率得到顯著提升。Pelican-VL 1.0可幫助人形機器人更好地感知空間與時間,實現(xiàn)自然的具身交互,并在訓練過程中實現(xiàn)自我糾錯與持續(xù)迭代,在多項基準測試中達到國際領先水平。
鞠笑竹表示,Pelican-VL在基線基礎上性能提升20.3%,超過同級別開源模型10.6%,成為開源具身性能最好的大腦模型。
![]()
▲Pelican-VL開源鏈接:pelican-vl.github.io
從某種意義上來說,百舸平臺讓創(chuàng)新中心可以專注科學探索本身,而無需擔憂算力基礎設施這一老大難問題。百度智能云也是首家全面適配RDT、π0和GR00T N1.5三大主流開源具身VLA模型的云廠商。通過針對性的訓推工程優(yōu)化,世界模型的推理性能可提升超過36%、訓練加速20%以上;視覺語言模型(VLM)訓練則提超40%。
除此之外,百度智能云還幫助招商銀行、國家電網(wǎng)、中國鋼研、同濟大學、北京大學等頭部機構(gòu)與企業(yè)實現(xiàn)國產(chǎn)算力的規(guī)模化部署,成為眾多?業(yè)智能化轉(zhuǎn)型的底層算力支撐。
在百度世界大會的分論壇上,百度智能云混合云部總經(jīng)理杜海分享了一個頗為有趣且深刻的觀察:與傳統(tǒng)CPU時代“層層標準化、相互獨立”的技術結(jié)構(gòu)不同,當下的大模型體系從芯片、云基礎設施、框架到模型與應用之間存在極強的耦合度——不同廠商的芯片在設計模式、指令和調(diào)用方式上差異巨大,要想充分發(fā)揮性能,算子、框架乃至模型本身都必須深度感知底層拓撲。
這意味著AI產(chǎn)業(yè)正在形成從應用到模型、框架、云基礎設施再到芯片的端到端垂直結(jié)構(gòu),各領域的頭部公司為了掌控能力和效率,不可避免地走向上下游深度整合。在新一輪AI云競爭全面打響之時,全棧AI Infra能力的建設,不再是一種可選項,而是面向未來競爭的“必答題”。百度,已經(jīng)率先交出了自己的答卷。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.