![]()
智東西
作者 陳駿達(dá)
編輯 漠影
2026年,AI產(chǎn)業(yè)的重心遷移,愈發(fā)清晰。隨著AI全面進(jìn)入規(guī)模化落地階段,驅(qū)動(dòng)AI推理需求快速增長(zhǎng)的“三駕馬車”正在成型。
其一,應(yīng)用全面鋪開是最直接的動(dòng)力。產(chǎn)業(yè)已從百模大戰(zhàn)步入了應(yīng)用競(jìng)賽與價(jià)值驗(yàn)證階段,高頻交互與內(nèi)容生成持續(xù)發(fā)生,形成穩(wěn)定而龐大的推理需求基礎(chǔ)——國(guó)內(nèi)的頭部AI應(yīng)用,日均Token消耗已達(dá)到約50萬億規(guī)模,成為推理負(fù)載快速累積的一個(gè)典型樣本。
其二,推理模型范式的興起從結(jié)構(gòu)上抬升了推理需求。新一代推理模型不只追求快速作答,更是依賴多步推演與鏈?zhǔn)剿伎紒硖嵘郎?zhǔn)確性,使單次調(diào)用的推理token顯著增加。海外大模型調(diào)用平臺(tái)OpenRouter的統(tǒng)計(jì)顯示,2025年,來自推理模型的用量在2024年初尚可忽略,但至年底已占平臺(tái)總用量的60%以上,直觀體現(xiàn)了推理需求的結(jié)構(gòu)性上升。
![]()
其三,Agentic AI開啟長(zhǎng)期增長(zhǎng)空間。以年初OpenClaw等為代表的Agent產(chǎn)品熱度不斷攀升,它們具備自主規(guī)劃與長(zhǎng)時(shí)間執(zhí)行能力,需要在持續(xù)運(yùn)行中不斷推理與反饋,推理由單次請(qǐng)求演變?yōu)檫B續(xù)過程,推理需求進(jìn)一步呈現(xiàn)指數(shù)級(jí)放大。
三股力量相互疊加,推動(dòng)推理走向產(chǎn)業(yè)中心,也促使算力結(jié)構(gòu)從以訓(xùn)練為核心,轉(zhuǎn)向以高性價(jià)比、低延遲和能效優(yōu)化為導(dǎo)向的推理時(shí)代。
這一轉(zhuǎn)變不僅推動(dòng)全球科技巨頭重新布局算力戰(zhàn)略,也成了多家國(guó)內(nèi)AI芯片企業(yè)重點(diǎn)發(fā)力的方向。未來五至十年,或許將成為AI推理芯片的關(guān)鍵發(fā)展期。
一、海外巨頭加速布局,推理芯片成下一個(gè)風(fēng)口
全球科技巨頭,都在競(jìng)相加碼AI推理芯片這一賽道。
去年4月,谷歌發(fā)布了其第七代TPU芯片Ironwood。谷歌分管全球AI和基礎(chǔ)設(shè)施團(tuán)隊(duì)的副總裁Amin Vahdat強(qiáng)調(diào),這是谷歌史上最節(jié)能的TPU,專為支持思考、推理類模型的大規(guī)模應(yīng)用而設(shè)計(jì)。
谷歌認(rèn)為,Ironwood代表著AI及對(duì)應(yīng)基礎(chǔ)設(shè)施的重大轉(zhuǎn)變,從提供實(shí)時(shí)信息供人類解讀的響應(yīng)式AI,轉(zhuǎn)變?yōu)橹鲃?dòng)生成解讀的下一代AI,迎來“推理時(shí)代”。
在大規(guī)模推理場(chǎng)景下中,TPU在成本、效率上對(duì)傳統(tǒng)GPU架構(gòu)形成實(shí)質(zhì)性競(jìng)爭(zhēng),因此甚至吸引了Anthropic、Meta等頂級(jí)客戶的關(guān)注,并已斬獲數(shù)十億美元的訂單。
無獨(dú)有偶,去年12月,英偉達(dá)的一項(xiàng)重磅交易,在AI芯片產(chǎn)業(yè)內(nèi)引發(fā)了廣泛關(guān)注。
英偉達(dá)與美國(guó)AI芯片創(chuàng)企Groq達(dá)成價(jià)值約200億美元非獨(dú)家授權(quán)協(xié)議,并吸納Groq的聯(lián)合創(chuàng)始人Jonathan Ross、總裁Sunny Madra以及Groq團(tuán)隊(duì)的其他成員。這項(xiàng)協(xié)議的核心,正是AI推理技術(shù)。
黃仁勛稱,英偉達(dá)計(jì)劃將Groq的低延遲處理器集成到英偉達(dá)AI工廠架構(gòu)中,以服務(wù)于更廣泛的AI推理和實(shí)時(shí)工作負(fù)載。
值得注意的是,Groq創(chuàng)始人兼CEO Jonathan Ross曾是谷歌TPU創(chuàng)始成員。在谷歌率先驗(yàn)證了專用芯片在AI訓(xùn)練與推理中的規(guī)模化價(jià)值后,英偉將這一關(guān)鍵技術(shù)路徑及其核心人才納入體系之中,某種程度上體現(xiàn)出其對(duì)推理時(shí)代技術(shù)范式轉(zhuǎn)向的主動(dòng)回應(yīng)。
由此可見,AI推理芯片的技術(shù)路線正加速走向多元化。相較性能強(qiáng)但成本高企的通用GPU,面向特定推理負(fù)載優(yōu)化的專用芯片在能效、延遲與邊際成本上具備清晰的經(jīng)濟(jì)合理性。
英偉達(dá)選擇通過引入Groq技術(shù)來拓展架構(gòu)邊界,表明其并不滿足于單一GPU路徑,而是在推理時(shí)代到來之前,主動(dòng)構(gòu)建更具彈性的算力體系與生態(tài)縱深。
二、算力瓶頸已成制約因素,GPNPU或成國(guó)內(nèi)破局關(guān)鍵
把視角轉(zhuǎn)向國(guó)內(nèi),由于貿(mào)易限制等各方面因素,高效的推理芯片對(duì)國(guó)內(nèi)AI產(chǎn)業(yè)的價(jià)值,有過之而無不及。
我們能從不少國(guó)內(nèi)AI頭部玩家的動(dòng)向中找到蛛絲馬跡。今年1月,阿里千問大模型負(fù)責(zé)人林俊旸向外界披露了一個(gè)行業(yè)可能共同面臨的窘境:交付工作占據(jù)了大量算力資源,甚至在某種程度上擠壓了科研空間。
剛剛發(fā)布Kimi K2.5的月之暗面,也在為算力發(fā)愁。有海外觀察者指出,Kimi K2.5目前最大的瓶頸是算力,而不是模型質(zhì)量。沒有足夠算力,就無法提高每秒生成的token數(shù)量(TPS),而TPS直接影響著用戶體驗(yàn)。
對(duì)此,月之暗面聯(lián)合創(chuàng)始人兼算法團(tuán)隊(duì)負(fù)責(zé)人周昕宇回應(yīng)道:“流量每天都在飆升,我們正竭盡全力爭(zhēng)取更多算力。”
![]()
林俊旸、周欣宇談到的現(xiàn)實(shí)情況只是一個(gè)切片,這揭示了推理成本與效率已經(jīng)成為國(guó)內(nèi)不少AI企業(yè)面臨的挑戰(zhàn),即便是他們這樣的頭部玩家。
若無法擊穿推理成本的壁壘,就很難將AI轉(zhuǎn)化為普惠的生產(chǎn)力,也難以騰出算力來支持那些需要長(zhǎng)線、大規(guī)模算力投入的前沿研究。
面臨國(guó)內(nèi)AI產(chǎn)業(yè)的現(xiàn)實(shí)挑戰(zhàn),已有一大批AI芯片企業(yè)正從不同技術(shù)路徑切入,試圖攻克推理效率的難題。其核心思路可以歸納為:在硬件層面通過架構(gòu)創(chuàng)新提升性能上限,在系統(tǒng)層面通過軟硬協(xié)同釋放實(shí)際效能。
在這一背景下,長(zhǎng)期深耕AI推理芯片的云天勵(lì)飛,于昨日的“大算力芯片戰(zhàn)略前瞻會(huì)”上,首次對(duì)外系統(tǒng)公布了未來三年的大算力AI推理芯片戰(zhàn)略布局。
云天勵(lì)飛董事長(zhǎng)兼CEO陳寧判斷,在AI大規(guī)模落地的階段,產(chǎn)業(yè)需要的不再是通過十萬卡/百萬卡互聯(lián)提供絕對(duì)算力的GPGPU(通用GPU),而是更高性價(jià)比的推理芯片。
![]()
與眾多布局GPGPU、更主打訓(xùn)練市場(chǎng)的國(guó)內(nèi)芯片創(chuàng)企不同,云天勵(lì)飛是國(guó)內(nèi)首家聚焦于AI推理芯片的企業(yè),曾推出四代面向終端、邊緣的AI推理芯片。
陳寧透露,在2025年,云天勵(lì)飛做出了一個(gè)重要的戰(zhàn)略轉(zhuǎn)向:斬釘截鐵的把芯片戰(zhàn)略聚焦在云端的大算力、大模型的推理芯片。
云天勵(lì)飛正在做的,是被定義為“GPNPU”的芯片。GPNPU不只是一個(gè)處理器架構(gòu),更是一套圍繞大模型推理而構(gòu)建的技術(shù)范式和系統(tǒng)級(jí)架構(gòu)理解,在“好用”和“高效”之間實(shí)現(xiàn)某種程度的平衡。
云天勵(lì)飛CTO李愛軍談道,云天勵(lì)飛的GPNPU在頂層采用具備GPGPU級(jí)通用編程能力的架構(gòu),通過兼容CUDA,使得當(dāng)前幾乎所有基于GPU訓(xùn)練出來的模型和算子,都可以低成本、低門檻地平移到云天勵(lì)飛的芯片上,真正做到“一行代碼”完成從GPU到國(guó)產(chǎn)芯片的部署遷移,解決國(guó)內(nèi)芯片生態(tài)最現(xiàn)實(shí)的易用性問題。
另一方面,在底層計(jì)算上,GPNPU又充分發(fā)揮NPU的優(yōu)勢(shì),通過自定義指令集和專用計(jì)算單元,在單位硅面積上實(shí)現(xiàn)遠(yuǎn)高于通用GPU的計(jì)算密度和能效比,專注于推理場(chǎng)景所追求的極致效率與極低成本。
圍繞大模型推理“內(nèi)存墻”的核心瓶頸,GPNPU進(jìn)一步引入國(guó)產(chǎn)工藝條件下的3D memory架構(gòu),在設(shè)計(jì)上實(shí)現(xiàn)了超過HBM十倍以上的內(nèi)存帶寬,同時(shí)具備10納秒級(jí)的訪問時(shí)延和更低的綜合成本,從系統(tǒng)層面釋放推理性能。
更重要的是,考慮到國(guó)產(chǎn)制程和單Die能力的現(xiàn)實(shí)限制,云天勵(lì)飛率先提出并持續(xù)深耕“算力積木”架構(gòu),也就是把多個(gè)芯粒像積木一樣組合,實(shí)現(xiàn)算力的規(guī)模化擴(kuò)展。
去年,云天勵(lì)飛完成了8個(gè)算力Die的單芯片封裝的驗(yàn)證,可實(shí)現(xiàn)DeepSeek 671B大模型的推理部署。
GPGPU的通用性、NPU的極致能效、3D memory的超帶寬以及Chiplet算力積木這四個(gè)方向的融合,構(gòu)成了GPNPU的完整內(nèi)涵,也讓它成為云天勵(lì)飛所定義的云端大模型推理芯片的一種最優(yōu)實(shí)現(xiàn)路徑。
三、All in大算力芯片,云天勵(lì)飛揭秘三代路線圖
會(huì)上,李愛軍透露,未來三年,云天勵(lì)飛將面向云推理場(chǎng)景,All in大算力芯片,把資源投入大算力芯片DeepVerse的研發(fā)。那么,云天勵(lì)飛的打法究竟是什么,又要如何在云推理這一核心戰(zhàn)場(chǎng)上與全球巨頭展開競(jìng)爭(zhēng)?
云天勵(lì)飛已對(duì)大模型推理流程進(jìn)行了重新解構(gòu),圍繞prefill與decode兩個(gè)階段在計(jì)算特性上的顯著差異,提出并落地了PD分離的系統(tǒng)架構(gòu):即針對(duì)不同階段分別設(shè)計(jì)專用芯片,從系統(tǒng)層面對(duì)傳統(tǒng)推理計(jì)算范式進(jìn)行重構(gòu)。
這一思路試圖突破通用GPU在推理場(chǎng)景下“兼顧訓(xùn)練與推理”所帶來的效率瓶頸,為云端大模型推理構(gòu)建更具針對(duì)性的算力基礎(chǔ)。
在架構(gòu)與微架構(gòu)層面,云天勵(lì)飛圍繞大模型推理中的核心算子進(jìn)行了深度定制化優(yōu)化。其中,P芯片主要面向prefill階段計(jì)算密集型需求,重點(diǎn)提升百萬上下文場(chǎng)景下的吞吐能力與能效表現(xiàn);D芯片則針對(duì)decode階段訪存密集、低時(shí)延的特點(diǎn),對(duì)attention、FFN等關(guān)鍵計(jì)算路徑進(jìn)行細(xì)粒度優(yōu)化,以降低單token推理時(shí)延。
在系統(tǒng)層面,云天勵(lì)飛進(jìn)一步布局超節(jié)點(diǎn),計(jì)劃通過最多1024顆P/D芯片的協(xié)同,滿足云端大模型在大規(guī)模集群環(huán)境下的部署需求。
![]()
云天勵(lì)飛已對(duì)外披露了較為清晰的芯片演進(jìn)路線。
今年,他們計(jì)劃推出第一代超節(jié)點(diǎn)P芯片,重點(diǎn)服務(wù)于百萬級(jí)長(zhǎng)上下文場(chǎng)景,對(duì)prefill推理進(jìn)行專項(xiàng)優(yōu)化,其整體算力目標(biāo)對(duì)標(biāo)英偉達(dá)Hopper架構(gòu)的芯片。
明年,云天勵(lì)飛將推進(jìn)第一代超節(jié)點(diǎn)D芯片研發(fā),主攻decode階段的超低時(shí)延推理,目標(biāo)算力水平對(duì)標(biāo)英偉達(dá)Blackwell架構(gòu)的芯片。
按照規(guī)劃,到2028年,第二代超節(jié)點(diǎn)D芯片有望實(shí)現(xiàn)毫秒級(jí)推理時(shí)延,并在整體推理性能上具備對(duì)標(biāo)英偉達(dá)下一代Rubin架構(gòu)的潛力。
針對(duì)行業(yè)普遍關(guān)注的供應(yīng)鏈安全問題,云天勵(lì)飛高級(jí)副總裁、CFO兼董秘鄧浩然特別強(qiáng)調(diào),云天勵(lì)飛目前是國(guó)內(nèi)屈指可數(shù)手握充足國(guó)產(chǎn)產(chǎn)能保障的企業(yè)之一,這一戰(zhàn)略儲(chǔ)備為后續(xù)芯片的大規(guī)模量產(chǎn)與交付提供了較高的確定性。
陳寧認(rèn)為,能源、芯片、基礎(chǔ)設(shè)施、模型和應(yīng)用構(gòu)成了AI推理的基礎(chǔ)設(shè)施,而我國(guó)在能源、基建與應(yīng)用場(chǎng)景上都具有優(yōu)勢(shì),只要補(bǔ)齊模型與芯片的短板,中國(guó)的AI就有巨大的發(fā)展的機(jī)會(huì),就有可能引領(lǐng)第四次工業(yè)革命。
結(jié)語:要做智能革命中的“瓦特”和“愛迪生”
在前瞻會(huì)上,云天勵(lì)飛已經(jīng)釋放了一些極具沖擊力的信號(hào)。陳寧稱,在商業(yè)落地方面,他們已拿下16億元的智算大單,并計(jì)劃打造賦能城市的千卡集群。
那么,云天勵(lì)飛究竟想成為一家什么樣的公司?陳寧回顧第一次工業(yè)革命的歷史,向外界展現(xiàn)了云天勵(lì)飛的終極愿景:說起工業(yè)革命,大家往往想到的是蒸汽機(jī)和電力,但事實(shí)上,蒸汽機(jī)的發(fā)明者并不是瓦特,燈泡的發(fā)明者也不是愛迪生,他們真正的價(jià)值在于將技術(shù)進(jìn)行大規(guī)模商業(yè)化改良,大幅降低成本,推動(dòng)技術(shù)走向普及。
而云天勵(lì)飛,正是希望在人工智能時(shí)代,成為人類第一次智能革命中的“瓦特”和“愛迪生”。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.