隨著大模型技術的持續演進,人工智能的發展正在經歷一次深刻的范式遷移。具體表現在,AI不再滿足于執行簡單的生成任務,而是開始邁向具備推理和自主決策能力的智能體(Agentic AI)時代。而智能體作為下一代AI應用的核心形態,預示著人工智能將從“快思考”的實驗性工具,轉變為深度嵌入商業流程、具備可衡量價值的核心生產力。正如日前舉行的2025人工智能計算大會(AICC2025)所揭示的主題,產業界已將焦點投向如何筑牢“人工智能+”高質量發展底座。
![]()
智能體大勢所趨,商業化落地面臨速度、成本等瓶頸
智能體AI的興起并非偶然,而是AI發展邏輯的必然延伸。傳統AI多局限于被動響應,如聊天機器人或圖像識別,而智能體則具備自主規劃、工具調用和多步推理能力,能夠在復雜環境中執行任務,其獨特價值在于“機-機交互”,即不同智能體之間的高頻協作。而這得益于大模型的Scaling Law從預訓練向推理階段的遷移,模型參數量已達萬億級,支持“慢思考”式的鏈式推理(Chain-of-Thought),從而可以處理更貼近人類決策的場景。
根據麥肯錫《Empowering advanced industries with agentic AI》的分析,2025年,智能體將驅動企業決策自動化,預計到2030年,其在全球AI市場占比將超30%。而在中國,這一趨勢尤為明顯,特別是以DeepSeek為代表的開源模型極大的降低了創新門檻,加速智能體產業化的到來。
然而,趨勢背后是現實挑戰。智能體并非實驗室里的演示性產品,而是需要真正嵌入業務流程的核心生產力。Gartner預測,到2027年底,超過40%的智能體項目將被迫終止,主要原因是成本失控、價值不明和風險難控等。
![]()
例如在金融風控領域,銀行部署的智能體可實時檢測交易異常,若響應時間能控制在幾十毫秒內,就可能在資金被轉移前鎖定風險賬戶;在醫療場景中,多個智能體協作完成病歷解析、影像識別與診斷推薦,效率提升意味著患者可在就診當場得到智能輔助診斷;在電力系統中,調度智能體必須在毫秒級完成負荷預測與電網切換,否則可能影響電力安全。這些場景無一例外要求極低延遲和高可靠性。
由此可見,智能體若真正進入上述類似的關鍵行業,能力、速度和成本將是目前最大的瓶頸。
以能力為例,在后訓練階段更多的算力投入,能顯著提升模型的推理能力,而以推理能力為代表的復雜思維的涌現,是構建智能體應用的基礎。
至于速度,則是智能體實現商業價值的首要制約因素。不同于“人-機交互”的低頻對話,智能體時代的核心是“智能體-智能體”的高頻協作,毫秒級響應已成為剛需。
但事實是,全球典型的大模型API服務商的每Token生成速度,基本維持在10-20毫秒,而國內廠商的生成速度普遍高于30毫秒。不僅如此,延遲累加效應更甚,尤其在多智能體網絡中,每個環節的毫秒級延遲將指數級放大整體響應時間,進而摧壞用戶的體驗和商業競爭力。
最后是成本,尤其是單Token成本,是影響智能體能否實現規模化落地的最關鍵經濟因素。
眾所周知,隨著智能體在企業級應用中的深度普及,Token消耗量已出現爆炸式增長,平均每月Token消耗相比一年前增加約50倍,達到千萬到億級規模;單個智能體每月的Token成本動輒上千美元,而未來五年Token消耗量或呈現指數級增長,若推理成本不下降,智能體規模化部署將難以維系。
正如浪潮信息首席AI戰略官劉軍所強調:“到了智能體時代,每個智能體不像人一樣接收速度有限,延遲問題會變得越來越突出,所以智能體商業化就是‘快殺慢’,如果延遲不夠低,商業應用和競爭幾乎無從談起;反之,速度越快,商業場景就越豐富”。
技術創新破局 從模型轉至AI計算架構系統性優化
正是基于上述挑戰,產業界的破局之道正在從模型層優化轉向AI計算架構的系統性創新。
從全球看,科技巨頭們都在沿著相似的路徑探索。例如,英偉達通過其Blackwell架構和第五代NVLink技術,持續優化多GPU間的通信效率,旨在降低大模型推理的延遲;而谷歌、AWS等云服務商則通過自研的TPU、Inferentia等專用AI芯片,從硬件層面為推理任務提供更高性價比的算力解決方案。這些均證明,通用算力的“蠻力”時代正在過去,精細化、專用化的架構設計成為破局關鍵。
具體到國內,以浪潮信息為代表的廠商則走在了前列。例如其發布的元腦SD200超節點AI服務器(以下簡稱元腦SD200)率先將國內大模型的Token生成速度壓縮到8.9毫秒,進入“10毫秒時代”。而這一成績得益于其多主機低延遲內存語義通信架構與極簡協議棧的設計。簡而言之,它通過64路本土AI芯片的高速互連,配合僅三層的協議棧,避免冗余拷貝,將基礎通信延遲降到百納秒級。
對此,劉軍形象地將其比作高速公路:“智能體之間的交互往往是小數據包,關鍵不在高速路有多寬,而在上高速和下高速是否順暢,浪潮信息的做法就是讓數據直通上下高速,把延遲壓到極致。”具體到元腦SD200,則是通過對通信架構的創新,打破了硬件堆砌帶來的性能上限,從系統層面為智能體的高頻、高并發交互提供了“高速公路”。
相關實測顯示,該架構在DeepSeek R1 671B模型下,可實現16.3倍超線性擴展率,支持單機4萬億參數模型或多智能體協作,適用于具身智能的實時任務。
在《班門弄斧》看來,這一速度突破的意義在于,讓許多原本智能體不可行的場景成為可能。比如在證券市場,智能體可在毫秒內完成多維度數據分析并觸發風控指令;在制造流水線上,智能體能實時監測傳感器數據并反饋給機器人,毫秒級響應可避免工序誤差帶來的巨大損失。而AICC 2025上不少專家也都提到,低延遲不僅是用戶體驗問題,更是產業落地的底層要求。
如果說元腦SD200突破了速度瓶頸,那么浪潮信息的另一款元腦HC1000超擴展AI服務器(以下簡稱元腦HC1000)則直指成本難題,且實現了每百萬Token成本首次擊破1元人民幣。
![]()
究其原因,關鍵在于其采用了全對稱DirectCom架構,通過極簡化和拆解式設計,讓計算與通信充分解耦,并實現了大規模無損擴展。具體來說,它通過16卡模組的創新,將單卡成本壓縮60%以上,并在算網協同下,讓單卡利用率最高提升5.7倍。
對此,劉軍進一步解釋了技術聚焦的關鍵點,例如聚焦解碼端效率,即成本測算重點關注解碼階段,因為大家都知道解碼會比預填充階段實際上要貴很多,而元腦HC1000的架構正是針對這一高負載特性進行優化,確保在關鍵的Token生成環節達到最高效率,而這對于內容生成、在線教育等高并發消費場景意義重大。
從《班門弄斧》的角度,上述浪潮信息兩款產品背后的技術路徑,無疑展現了行業在技術層面應對智能體挑戰的思路,即通過專用化、系統化的計算架構創新,實現速度與成本的同步優化,將智能體的商業價值從理論推向實際可盈利的規模化部署,由此,AI的未來也不會是一刀切的通用算力架構,而是因行業而異的精細化、場景化設計。
需要說明的是,上述這種思路,與AICC 2025上提出的“應用牽引”理念可謂不謀而合,得到了業內的廣泛認可。
惟AI計算架構創新共識,方能加速智能體商業化
展望未來,智能體商業化落地的突破口在于AI計算架構的創新共識,并對AI計算基礎設施提出了前所未有的要求。
當前,GPGPU主導的通用架構面臨多重挑戰,具體表現在系統擴展逼近工程極限(百萬億參數需求指數增長)、電力基礎設施壓力(GW級智算中心耗電堪比小國)、投入產出失衡(商業兌現不如預期)。正如IBM在最新報告《AIAgents in 2025: Expectations vs. Reality》所言,2025年智能體雖然是主導敘事,但要真正實現價值,必須依賴架構層面的革新。
為此,劉軍在采訪中坦言:“依賴當前的通用架構,根本跟不上Token需求的海量增長,未來一定會走向專用化和算法硬件化。”
這種趨勢在AICC 2025的多個議題上均得到了呼應。例如清微智能聯合多方成立“可重構算力軟硬件協同創新中心”,探索更契合推理需求的專用架構;智源研究院推動的FlagOS,則試圖打破芯片和算力的碎片化壁壘,為產業提供統一的軟件底座。
![]()
而具體到專用化和算法硬件化,業內知道,GPU最初為圖形渲染設計,如今被“挪用”到AI計算,已經暴露出能效與成本上的局限,通用矩陣計算芯片同樣如此。而隨著智能體推理進入高頻交互,算力需求的集中化和爆炸式增長,產業必須從通用轉向專用。這意味著,未來的AI芯片和系統架構將針對大模型推理的核心算子進行硬件化和電路級優化,就像分子動力學領域的專用芯片Anton那樣,實現數量級的性能提升。
不過需要注意的是,向專用化架構的轉型也伴隨著新的挑戰。例如業界需要警惕過度“碎片化”帶來的生態壁壘,避免不同技術路線之間難以兼容,增加開發和遷移成本。此外,如何在專用硬件的高效率與通用GPU(如英偉達CUDA)的廣泛生態和靈活性之間取得平衡,將是未來所有廠商需要共同面對的課題。
與此同時,生態協同不可或缺,最典型的例子就是上述浪潮信息的路徑和產品,其速度和成本的突破并非單一廠商獨立完成,而是產業鏈上下游共同創新的結果。“我們能做到8.9毫秒的速度,是芯片伙伴、軟件伙伴和研究機構等共同努力的成果。”劉軍在采訪中強調。所以,智能體的未來,決定于產業鏈上下游是否能形成更緊密的合作。
更關鍵的是,產業必須從“規模導向”轉向“效率導向”。Scaling Law曾推動模型能力快速進化,但當參數量膨脹至萬億級,算力、電力與成本矛盾已不可回避。所以未來的核心不是一味追求算力規模,而是如何在同樣的能耗與算力條件下輸出更多Token,以支撐更復雜、更實時的智能體應用。
寫在最后:未來已來,智能體是人工智能發展的必然趨勢,它將重塑商業流程和生產模式,但產業化落地仍然面臨能力、速度和成本等的挑戰也是不爭的事實。
可喜的是,AICC 2025展示了產業鏈上下游在政策、技術、生態上的共同努力。從《北京方案》到FlagOS,從算力補貼政策到可重構創新中心,業界正在為智能體的落地提供保障。而浪潮信息的元腦SD200與HC1000,以8.9毫秒的生成速度和低于1元的每百萬Token成本更是給出了可供借鑒的技術路徑,證明了AI計算架構必須因場景而異,走向專用化、協同化與效率導向,才能讓智能體真正融入金融、醫療、能源、教育、制造等千行百業,成為推動新質生產力的核心引擎。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.