![]()
![]()
場景驅(qū)動的創(chuàng)新模式是中國算力產(chǎn)業(yè)的獨(dú)特優(yōu)勢。
2025年12月3日,「甲子光年」在北京萬達(dá)文華酒店圓滿舉辦“轟然成勢,萬象歸一”2025甲子引力年終盛典。
在算力產(chǎn)業(yè)專場圓桌對話中,甲子光年分析師王藝作為主持人,對話后摩智能聯(lián)合創(chuàng)始人、戰(zhàn)略副總裁項(xiàng)之初,海光信息智算產(chǎn)品負(fù)責(zé)人賀群,藍(lán)耘科技CTO安江華,新華三集團(tuán)企業(yè)技術(shù)部總經(jīng)理朱哲,圍繞《中國算力方案:如何用有限資源做出無限可能?》展開深入探討。
在當(dāng)下全球算力競爭從“有沒有”轉(zhuǎn)向“夠不夠、好不好”的深水區(qū),中國算力產(chǎn)業(yè)面臨先進(jìn)制程受限、高端GPU供應(yīng)收緊等獨(dú)特外部約束。嘉賓們指出,制程瓶頸、軟件生態(tài)和系統(tǒng)化工程成為年度高頻詞,產(chǎn)業(yè)正處于從“堆疊算力”到“高效協(xié)同”的關(guān)鍵“拐點(diǎn)”。
面對算力不足、互聯(lián)受限、生態(tài)薄弱的“三重困境”,產(chǎn)業(yè)界分享了如何通過找準(zhǔn)應(yīng)用場景、構(gòu)建差異化技術(shù)路線、以及推動端云協(xié)同來實(shí)現(xiàn)突破的策略。從存算一體芯片的商業(yè)化落地,到超節(jié)點(diǎn)萬卡集群的系統(tǒng)工程,從Scale-up與Scale-out的技術(shù)抉擇,到液冷技術(shù)的必然選擇,嘉賓們用實(shí)戰(zhàn)案例揭示了中國算力方案的創(chuàng)新路徑。
對于未來的全球競爭格局,嘉賓們普遍認(rèn)為,無論是芯片廠商、系統(tǒng)集成商還是算力運(yùn)營方,唯有具備深刻的場景洞察力、扎實(shí)的工程化能力以及完整的產(chǎn)業(yè)鏈協(xié)同優(yōu)勢,才能在資源約束中創(chuàng)造無限可能,實(shí)現(xiàn)算力產(chǎn)業(yè)的持續(xù)突破。
以下為本場圓桌的文字實(shí)錄,經(jīng)「甲子光年」編輯,在不改變原意的基礎(chǔ)上略有刪改。
1.關(guān)鍵瓶頸:從制程到生態(tài)的多維挑戰(zhàn)
王藝(主持人):當(dāng)前中國算力面臨結(jié)構(gòu)性錯(cuò)配,包括芯片算力不足、互聯(lián)帶寬限制、軟件棧不成熟、系統(tǒng)集成和調(diào)度能力欠缺等問題。各位認(rèn)為中國算力“卡脖子”最先卡在哪里?請給出優(yōu)先級判斷。
項(xiàng)之初(后摩智能聯(lián)合創(chuàng)始人、戰(zhàn)略副總裁):如果用一句話簡短說,還是編譯器工具鏈的軟件棧,我覺得是最卡的。端側(cè)因?yàn)橛泻芊稚⒌膱鼍埃赡苡懈餍懈鳂I(yè)的、各種各樣的需求,其實(shí)對于軟件的生態(tài)是有比較高的要求。大家都知道CUDA是2006年發(fā)布的,經(jīng)過了快20年的積累,每一個(gè)長尾的賽道,長尾的場景其實(shí)都有足夠多的軟件積累,這是每一個(gè)國產(chǎn)算力芯片公司都需要時(shí)間才能趕上的。
但我覺得軟件棧的問題是可以慢慢克服的,關(guān)鍵是要有一個(gè)硬件上足夠好的產(chǎn)品,跟國外的友商能形成差異化。你的硬件上比如說有幾倍的優(yōu)勢,但你的軟件生態(tài)不如它好,你還是有機(jī)會勝出的。
![]()
后摩智能聯(lián)合創(chuàng)始人、戰(zhàn)略副總裁項(xiàng)之初
賀群(海光信息智算產(chǎn)品負(fù)責(zé)人):從芯片廠商的角度看,制程的問題確實(shí)是逃不過去的,它不僅制約了芯片本身的算力密度,也制約了芯片的卡間互聯(lián)帶寬。所以,這兩大方面的限制,確實(shí)可能需要整個(gè)AI上游產(chǎn)業(yè)在國產(chǎn)化上有一些突破。
剛才項(xiàng)總提到的生態(tài)問題,從我們的角度看,其實(shí)是兩個(gè)部分:一個(gè)是習(xí)慣,怎么樣打破習(xí)慣?這是挺難的一個(gè)問題,因?yàn)榇蠹叶加袘T性。另一個(gè)在系統(tǒng)化工程這塊,一定不是“單點(diǎn)能力強(qiáng)=整體強(qiáng)”,而是通過有機(jī)的調(diào)度和協(xié)同,從上層應(yīng)用到底層硬件的調(diào)優(yōu)、演進(jìn)形成閉環(huán)。
![]()
海光信息智算產(chǎn)品負(fù)責(zé)人賀群
安江華(藍(lán)耘科技CTO):我覺得剛才兩位說得都很對,但最重要的是我們要找對場景。軟件棧的問題我們可以找準(zhǔn)一個(gè)場景,這個(gè)場景只要能夠帶來一定市場、一定收益,其實(shí)我們瞄準(zhǔn)這個(gè)場景去做軟件棧的適配就好了。制程問題也是一樣,并不是所有的應(yīng)用場景都需要非常強(qiáng)的算力,有些場景需要的算力不需要那么高。
![]()
藍(lán)耘科技CTO安江華
朱哲(新華三集團(tuán)企業(yè)技術(shù)部總經(jīng)理):站在我們這個(gè)視角來看,最大的卡脖子點(diǎn)一定就是算力支撐。很多背后問題跟它就是一個(gè)關(guān)聯(lián)關(guān)系,因?yàn)闆]有特別先進(jìn)算力的卡,所以我們才需要大量的國產(chǎn)卡或者大量算力卡堆疊,才會對卡間互聯(lián)技術(shù)產(chǎn)生要求。因?yàn)槲覀儧]有更高算力的卡,想增加算力就需要通過算力堆疊的方式產(chǎn)生更大的功耗,對液冷會造成更多要求。
![]()
新華三集團(tuán)企業(yè)技術(shù)部總經(jīng)理
2.超節(jié)點(diǎn)與集群:萬卡級算力的系統(tǒng)工程
王藝(主持人):朱總,能否分享一下新華三在超節(jié)點(diǎn)方案上的實(shí)踐?當(dāng)集群從千卡擴(kuò)展到萬卡,甚至十萬卡的時(shí)候,系統(tǒng)層面會遇到哪些非線性的挑戰(zhàn)?
朱哲:非線性的挑戰(zhàn)還是很大的,千卡集群或者萬卡集群的性能肯定不是等于單卡性能乘一千或者乘一萬。在卡間互聯(lián)階段,通信帶寬或者時(shí)延丟包其實(shí)都會極大影響性能。尤其像丟包這種事情,在訓(xùn)練的時(shí)候如果丟了一個(gè)包,整個(gè)要推倒重來。
之所以有超節(jié)點(diǎn)這個(gè)形態(tài)出現(xiàn),如果大家都是8卡模組的集群,所有卡間的互聯(lián),尤其是O2O形式的情況下,所有的流量還要通過網(wǎng)卡轉(zhuǎn)換,其實(shí)性能會降低,時(shí)延也會增加,而且尋址方式也不太方便。
新華三跟很多國產(chǎn)廠商對于超節(jié)點(diǎn)的認(rèn)知有些不同,我們會認(rèn)為超節(jié)點(diǎn)不僅僅是在訓(xùn)練場景,在推理場景也有它的用處。應(yīng)用到推理場景,無論你做多大的超節(jié)點(diǎn),它本質(zhì)上都是要節(jié)省單個(gè)Token產(chǎn)生的成本,所以超節(jié)點(diǎn)本身不應(yīng)該成為一個(gè)非常昂貴的方式。
王藝(主持人):賀總,海光DCU兼容CUDA等主流AI生態(tài),有些友商走專屬技術(shù)架構(gòu)路線重新打造生態(tài)體系。海光為什么選擇通用架構(gòu),這種軟兼容策略是出于什么考量?
賀群:大家比較熟知的有兩大陣營,一個(gè)是以NV和AMD為代表的GPGPU陣營,另一個(gè)是以TPU為代表的DSA類(領(lǐng)域?qū)S眯酒╆嚑I。
GPGPU是更偏向于綜合型選手,計(jì)算類型的點(diǎn)線面都能覆蓋。現(xiàn)在大家Transformer類的大模型用得最多,但我們也可以看到有Mamba base的,也有液態(tài)神經(jīng)網(wǎng)絡(luò)的,還有擴(kuò)展到高性能計(jì)算,還有傳統(tǒng)的機(jī)器學(xué)習(xí)類,這些都得跑得不錯(cuò),這是GPGPU比較擅長的方面。
DSA在Transformer base類的算法上,可以實(shí)現(xiàn)硬件和軟件深耦合,達(dá)到針對性調(diào)優(yōu)目的,取得不錯(cuò)效果。但犧牲掉的就是計(jì)算類型的覆蓋。
對于海光來講,我們選定GPGPU的路線也是希望DCU可以成為數(shù)據(jù)中心人工智能通用的解決方案。后續(xù)AI會不斷高速發(fā)展,無論是新的模型、算法,還是其他場景的需求,海光DCU都具備覆蓋能力。
對于兼容性,我們希望先依靠通用的硬件和兼容性很高的軟件棧,讓客戶和合作伙伴集成起來、初期使用非常方便,盡量不改變大家原來的編程習(xí)慣。海光DCU現(xiàn)在也做到了從Github上Down下來一個(gè)代碼可以直接跑,不需要復(fù)雜的適配過程。
3.端云協(xié)同:算力分布的未來圖景
王藝(主持人):項(xiàng)總,存算一體技術(shù)被視為突破內(nèi)存墻的關(guān)鍵。從您的實(shí)戰(zhàn)經(jīng)驗(yàn)看,存算一體的技術(shù)產(chǎn)業(yè)化拐點(diǎn)到來了嗎?哪些應(yīng)用場景會最先爆發(fā)?
項(xiàng)之初:我們現(xiàn)在已經(jīng)出到第二代芯片了,今年7月份在上海WAIC上發(fā)布了我們第二代M50芯片,完全是沖著大規(guī)模商業(yè)化去的。我們有幾個(gè)客戶都是知名的頭部,比如說AIPC的頭部、知名語音的頭部廠商,包括運(yùn)營商的頭部,做AI網(wǎng)關(guān),都是完全以商業(yè)化量產(chǎn)的標(biāo)準(zhǔn)來要求我們的芯片。
我們的下游客戶完全是基于市場原則的采購,所以我們還不得不去PK一些國外的傳統(tǒng)架構(gòu)廠商。從這幾點(diǎn)歸結(jié)為一句話,我們產(chǎn)品完全到了商業(yè)化量產(chǎn)階段。
但您可能想問的是為什么還沒爆發(fā)?因?yàn)槎藗?cè)的大模型,包括端側(cè)整個(gè)的應(yīng)用還沒有出現(xiàn)像GPT或者豆包這樣的Killer APP。只有出現(xiàn)了Killer APP廣泛地被大家使用,才會拉動整個(gè)產(chǎn)業(yè)鏈的爆發(fā)。
王藝(主持人):在AI計(jì)算需求從云側(cè)向端側(cè)轉(zhuǎn)移的情況下,這種趨勢對數(shù)據(jù)中心基礎(chǔ)設(shè)施和芯片設(shè)計(jì)帶來什么顛覆性需求?端側(cè)芯片要怎么在本地隱私和云端協(xié)同之間找到最優(yōu)解?
項(xiàng)之初:端側(cè)必然要擔(dān)負(fù)起一部分或者說大部分,至少50%以上的計(jì)算任務(wù)。如果說你給每一個(gè)用戶都有足夠的帶寬和足夠好的體驗(yàn),尤其AI開始進(jìn)入多模態(tài)時(shí)代,即使把海底所有光纜的總帶寬加在一起,可能只能服務(wù)4000萬的用戶量。
端側(cè)AI的第一個(gè)優(yōu)點(diǎn)是隱私性。如果有了端側(cè),比如說在手機(jī)上,我可以把我的照片、視頻、家里的情況,甚至以后有了AR眼鏡,把所有實(shí)時(shí)的東西都傳給本地的AI做運(yùn)算。哪怕是涉及商業(yè)機(jī)密的工作文件,也能放心交給端側(cè)AI做深度解析,從源頭杜絕數(shù)據(jù)泄露風(fēng)險(xiǎn),這正是真正安全可靠的智能助手誕生的基礎(chǔ)。
而實(shí)時(shí)性,則讓端側(cè)AI成為沉浸式交互的關(guān)鍵。比如說陪伴機(jī)器人,它需要通過語音、視頻、表情識別等多模態(tài)感知精準(zhǔn)捕捉你的情緒狀態(tài),當(dāng)你疲憊歸來時(shí)自動播放舒緩音樂,當(dāng)你情緒低落時(shí)主動發(fā)起暖心對話。這類毫秒級響應(yīng)的交互場景,我覺得完全依賴端側(cè)AI的本地算力:若數(shù)據(jù)往返云端,延遲會徹底破壞體驗(yàn),只有端側(cè)才能實(shí)現(xiàn) “所思即所應(yīng)” 的流暢交互。
4.互聯(lián)與液冷:突破物理極限的關(guān)鍵
王藝(主持人):業(yè)界對超節(jié)點(diǎn)的兩種技術(shù)路徑,Scale-out和Scale-up存在爭議。想請各位從系統(tǒng)架構(gòu)和運(yùn)維實(shí)踐角度分析一下兩者的優(yōu)劣勢,以及液冷技術(shù)是怎么成為超節(jié)點(diǎn)落地的關(guān)鍵一環(huán)?
朱哲:Scale-up叫南向互聯(lián),Scale-out叫北向互聯(lián),實(shí)際上超節(jié)點(diǎn)在這個(gè)層面更強(qiáng)調(diào)的是Scale-up。Scale-out非常常見,主流有兩個(gè),一個(gè)就是英偉達(dá)邁絡(luò)思的IB網(wǎng)絡(luò),還有一個(gè)就是國內(nèi)現(xiàn)在做比較多的RoCE網(wǎng)絡(luò)。
Scale-up更多強(qiáng)調(diào)的是在超節(jié)點(diǎn)內(nèi)部,怎么樣用更短的互聯(lián)距離、用更大的互聯(lián)帶寬,甚至將來用光互聯(lián)的方式,能夠把超節(jié)點(diǎn)內(nèi)部GPU之間的互聯(lián)帶寬做得更大、延遲做得更低。
關(guān)于液冷,我們現(xiàn)在看到液冷已經(jīng)是高密度節(jié)點(diǎn)的一個(gè)必然選擇。超節(jié)點(diǎn)本身就是高密度的,一個(gè)節(jié)點(diǎn)里有72張卡甚至更多,這種密度下如果用風(fēng)冷是解決不了問題的。
安江華:從性能角度來講,Scale-up會更好一些,因?yàn)榭ㄩg通信會更高效。但是從靈活性角度,Scale-out會更合適,你可以靈活地?cái)U(kuò)容縮容。
液冷最直接的好處是節(jié)能,大概能節(jié)能30%左右,而且降噪表現(xiàn)很好。在超高密度下,液冷真的是不可或缺的。
賀群:技術(shù)路線需要結(jié)合業(yè)務(wù)場景,Scale-up快但貴,需要考察投入產(chǎn)出。我們海光DCU產(chǎn)品在液冷兼容性方面已經(jīng)做好了充分準(zhǔn)備。
5.工程化實(shí)踐:從紙面到落地的鴻溝
王藝(主持人):能否分享一些“紙面參數(shù)很好,部署時(shí)踩坑”的案例?在工程化落地過程中有哪些實(shí)踐經(jīng)驗(yàn)?
項(xiàng)之初:對于每一個(gè)創(chuàng)業(yè)公司都必經(jīng)歷多代產(chǎn)品迭代,被真實(shí)客戶“虐”是最寶貴的財(cái)富,越挑剔的客戶產(chǎn)品進(jìn)步越快。我們第一代產(chǎn)品在實(shí)際部署中發(fā)現(xiàn)了很多紙面上看不到的問題,編譯器工具鏈經(jīng)過幾次迭代才到今天可以快速適配。這些都需要在真實(shí)環(huán)境中不斷調(diào)優(yōu)。
朱哲:所有國產(chǎn)卡都需要適配調(diào)優(yōu),我們與杭州蕭山共同打造了芯模社區(qū)這一開放共贏的生態(tài)平臺,通過匯聚芯片廠商、模型企業(yè)、ISV及各行業(yè)伙伴,聯(lián)合打造研發(fā)、測試、驗(yàn)證的“試驗(yàn)田”。很多時(shí)候紙面參數(shù)和實(shí)際表現(xiàn)的差異,往往在于沒有針對具體應(yīng)用場景做深度優(yōu)化。我們現(xiàn)在要求每一款芯片都要在我們的測試環(huán)境中跑滿至少3個(gè)月,發(fā)現(xiàn)各種邊界條件下的問題。
安江華:我們在運(yùn)營過程中發(fā)現(xiàn),多場景測試非常重要。同樣一張卡,在不同的模型、不同的批次大小、不同的序列長度下,性能表現(xiàn)可能差異很大。我們現(xiàn)在建立了全面的測試矩陣,幫助客戶找到每張卡的最佳使用場合。
王藝(主持人):最后請各位展望一下,中國算力方案在全球競爭中可能具備哪些獨(dú)特優(yōu)勢?
項(xiàng)之初:我覺得是端側(cè)芯片和生態(tài)創(chuàng)新。中國有完整的產(chǎn)業(yè)鏈優(yōu)勢,可以利用這個(gè)優(yōu)勢以應(yīng)用反哺模型芯片迭代。我們在AIPC、智能會議、陪伴機(jī)器人等場景都有獨(dú)特的應(yīng)用創(chuàng)新,這些場景的大規(guī)模落地會驅(qū)動整個(gè)端側(cè)算力生態(tài)的發(fā)展。
賀群:中國的優(yōu)勢在于系統(tǒng)化工程能力。我們有集中力量辦大事的體制優(yōu)勢,在政策支持下可以快速協(xié)調(diào)資源。另外在調(diào)度與工程能力上,我國的大規(guī)模集群建設(shè)經(jīng)驗(yàn)是獨(dú)樹一幟的。
安江華:我覺得是AI應(yīng)用領(lǐng)域的優(yōu)勢。中國在尖端科技民用普及方面一直很擅長,我們有龐大的市場和豐富的應(yīng)用場景,這為算力技術(shù)提供了最好的試驗(yàn)田和迭代環(huán)境。
朱哲:細(xì)分場景應(yīng)用市場體量大,場景孵化反推模型與芯片創(chuàng)新。中國市場的多樣性和規(guī)模優(yōu)勢,讓我們能夠在不同細(xì)分領(lǐng)域都找到足夠大的市場來支撐技術(shù)迭代,這種場景驅(qū)動的創(chuàng)新模式是我們的獨(dú)特優(yōu)勢。
(封面圖及文中配圖來源:2025甲子引力年終盛典)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.