
作者 | InfoQ 編輯部
《2025 年度盤點與趨勢洞察》是我們全年最重要的內容選題之一,由 InfoQ 技術編輯組策劃。這次,我們將深入探討了今年大模型、Agent、AI Native 研發范式、具身智能等方向發生了哪些深刻變化,并分析今年哪些行業有被 AI 真正改造,希望通過對重點領域的盤點觀察,為大家梳理一年的科技圈發展脈絡。
在此,特別感謝Dify、平安科技創新事業部線上用戶運營 AI 產品團隊總經理樊聰、昆侖萬維董事長兼 CEO 方漢、傳神語聯合創始人何恩培、阿里云容器計算服務 ACS 技術負責人黃濤、Linux 基金會云與基礎設施執行董事 Jonathan Bryce、光年褶皺 CEO 李元慶、記憶張量 MemTensor CTO 李志宇、智譜董事長劉德兵、擎朗智能戰略技術官劉斐、真機智能董事長兼首席科學家劉智勇、面壁團隊、上海云軸科技股份有限公司 CTO 王為、 百度智能云平臺產品事業部算法架構師&千帆策略部負責人吳健民、 明略科技創始人 CEO 兼 CTO 吳明輝、無問芯穹聯合創始人兼首席執行官夏立雪、北京智源人工智能研究院具身數據負責人 & 北京大學多媒體信息處理全國重點實驗室副研究員姚國才、智象未來 (HiDream.ai) 聯合創始人兼首席技術官姚霆、阿里云智能容器服務高級專家 & OpenKruise Agents 項目發起人張振、 中關村人工智能研究院副院長 & 北京中關村學院副教 鄭書新、授 階躍星辰系統負責人朱亦博、豆神教育 AI 事業部研發總監朱智勝等專家的深入分享(嘉賓排名不分先后,按姓名首寫字母排序),你們在各自領域的洞察和思考幫我們厘清技術脈絡,對未來發展充滿期待。
2025 年,誰的主場?
作為頂流的 OpenAI,在 2025 年經歷了陣痛與轉型。一方面,其維持著通用大模型能力的上限位置,其模型在推理、代碼、多模態等多個維度持續作為行業對標對象;另一方面,GPT-5 的發布并未帶來預期中的代際震撼,后續發布也相對平淡。但它依然擁有全球最高的 C 端用戶量,短期內依然保持入口級地位和用戶心智優勢。
對比下,在經歷 2024 年的被動追趕后,Google 在 2025 年打了一場漂亮的翻身仗,技術能力全面回歸主舞臺,Gemini 3、Nano Banana 等為其贏得了獲得眾多用戶,并通過搜索、辦公和云產品形成有效分發,形成了良性聯動。
Anthropic 則是今年最穩健的玩家之一。依托 Claude 系列模型能力持續迭代,其在開發者群體中的口碑持續上升。此外,通過與 AWS 等云廠商的深度合作,Anthropic 在 API 業務的規模和增速上實現了對 OpenAI 的超越,逐步跑通了以企業和開發者為核心的商業路徑。
國內,DeepSeek 無疑是 2025 年最具標志性的明星公司。R1 的發布及開源姿態,極大地活躍了 AI 中下游的創新生態。與此同時,MiniMax、智譜等公司開始沖擊港股上市,在提振信心的同時,也暴露出大模型行業普遍面臨的現實問題:投產比偏低、虧損壓力大、商業化仍在探索之中。資本市場正倒逼行業從“拼規模”轉向“拼可持續性”。
整體來看,2025 年是一個格局重新站穩、路徑逐步分化、行業開始直面商業現實的關鍵年份,競爭焦點正從模型能力本身,轉向系統能力、生態位置與長期演化能力。
什么樣的公司能跑出來?
面對今年快速演進的行業格局,全球科技公司都在興奮與焦慮中負重前行。
壓力主要源于兩個層面:一是以 DeepSeek 為代表的推理范式和智能體應用前景的爆發,推動技術棧、組織架構與商業邏輯發生連鎖轉型,引發業界對自身速度能否跟上范式遷移的普遍焦慮;二是技術節奏加快與商業回報不確定性同步放大,公司既要持續投入算力與系統建設,又必須面對成本、現金流和落地周期的現實約束,包括對 POC 項目收益的嚴格審視。與此同時,技術路線本身也在分化,如何區分長期能力建設與短期跟風,對管理層的判斷提出了更高要求。
在應對策略上,行業整體呈現出更理性的轉向:從單純追逐參數規模或熱點概念,轉向更強調系統效率、真實場景與可持續的技術積累。企業一方面持續投入前沿研究與開源,確保技術不被鎖死,另一方面堅定推動 AI 規模化應用。
而對于國內從業人員來說,整體狀態可以用“壓力不小,但方向更清楚”來形容,節奏確實更緊張,但很多工程師也意識到,行業正在從早期紅利階段,走向真正拼工程、拼長期價值的階段,這種轉變反而讓一些人更專注、更務實。大家更關注真實用戶反饋而非技術自嗨,對 AI 商業化進入深水區有清醒認知。
昆侖萬維董事長兼 CEO 方漢總結,今年跑出來的,不是“講故事”的公司,而是兩類能力成立的公司:第一類是高頻剛需場景,如 AI 社交、短劇、音樂等需求密集場景,天然適合模型規模化應用,容易形成留存與付費閉環。其關鍵不是生成能力,而是持續使用價值;第二類是成本結構被 AI 徹底改寫的公司,AI 將內容或服務的邊際成本壓縮 1–2 個數量級,直接改變行業定價邏輯。這類公司不是“效率提升”,而是商業模型重構。
而明顯落后的公司類型包括:
通用型 AI 助手:缺乏垂直數據和結果閉環,商業化長期停滯。
只做模型、不做產品的公司:在非代碼、非數學場景中,智能不可驗證。
靠融資續命、缺乏付費能力的 AI 創業公司:資金環境收緊后迅速暴露問題。
反應遲緩的傳統軟件公司:流程未被 Agent 化,效率被 AI 原生團隊反超。
當前,行業的深層次變化已十分清晰:競爭正從“算法主導”轉向“算法 × 產品并重”。AI 已經實質性重構內容生產、研究分析和部分辦公流程,“幾天→幾分鐘”開始成為常態。如果把模型制造和使用方當作一個整體玩家,會發現從去年到今年初,基本全部算力資產都配置在了“如何造模型”,而今年開始“如何用模型”的算力起量。
行業共識正在從“模型多強”轉向“流程是否可驗證、結果是否可復用”。部分創始人認為,當產品負責人在組織中的話語權逐漸比肩算法負責人時,AI 才真正步入以應用價值為核心的下半場。
智象未來 (HiDream.ai) 聯合創始人兼首席技術官姚霆直接指出,對于模型研發公司來說,模型和商業化一直會是兩個最大的挑戰,這兩個挑戰讓底層模型架構的突破變成必選項,模型公司不能像過去那樣不斷優化數據和推理來解決用戶的問題,而是要在架構上做出突破、敢為人先。
而根據無問芯穹聯合創始人兼首席執行官夏立雪的觀察,在同一個行業中,自一號位開始認真擁抱 AI 的,明顯已經在自己的業務流中找到了許多落地機會,因此,決策人的認識是未來拉開差距的關鍵點。
與硅谷的競賽
回顧這一年的全球 AI 競賽,國內前沿 AI 在整體能力上取得了實質性進展。無論在基礎模型能力、多模態理解還是推理效率與工程化落地層面,均呈現出明顯躍升。以 DeepSeek-R2、Qwen3 系列等模型為代表,國內團隊已不再簡單跟隨既有路線,而是在模型規模、效率與成本之間探索出更具可行性的平衡方案,逐步形成了以成本控制、系統優化和應用適配為核心的差異化優勢。
若進一步審視國內 AI 是否已在整體上全面趕上硅谷,則需冷靜分層看待。在部分通用能力與工程執行層面,差距正在迅速縮小,某些特定場景已具備直接競爭力;然而,在長期基礎研究積累、原創智能范式探索以及面向下一代智能的系統性布局上,整體仍存在差距。就像 DeepMind 聯合創始人兼 CEO Demis Hassabis 說的,西方依然在 AI 算法創新方面占優勢,但領先優勢可能只剩“幾個月”,而不是“幾年”。
記憶張量 MemTensor CTO 李志宇認為,這種差距并不令人悲觀,反而體現了全球 AI 競爭正進入更健康的階段:從早期對單點能力的簡單對標,轉向技術路線、系統能力與演化路徑的分化競爭。未來的勝負關鍵,不再是復制速度,而是能否在自身的技術土壤與應用環境中,構建出可持續、可演化的 AI 體系。
值得關注的是,中國 AI 模型正被真實引入全球生產環境,而不僅停留于試驗階段。OpenRouter 與 a16z 近期報告顯示,全球開源模型使用量的顯著增長,與 DeepSeek V3、Kimi K2 等國內開放模型的發布高度同步且持續。這與國內企業今年多次海外交流的體感一致,表明中國 AI 已開始從解決既有問題轉向定義新問題、新賽道與新競爭規則,這本身即是全球技術格局變化的重要信號。
總的來說,當前國內 AI 已在應用層快速迭代與開源生態投入上建立起較清晰的優勢基礎。同時必須承認,在最頂級閉源模型能力與原創智能范式的突破上,硅谷依然領先。這一差距的本質并非工程能力不足,而更多源于長期基礎研究所需的時間投入與試錯容錯空間。
大模型向“更可用”進化,
價格戰或延續
和去年相比,大模型最明顯的變化不是“更聰明”,而是開始變得“更可用”。
今年大模型在復雜指令理解、多步推理穩定性,以及跨模態任務的一致性上都有肉眼可見的進步,尤其是在不依賴極端 Prompt 情況下完成整個任務鏈,這是一個很重要的信號。但更關鍵的變化是在技術路線上,即從訓練時把模型做大,轉向運行時讓模型用得更好。
一方面,強化學習、測試時計算、顯式推理結構被大規模引入,用來補足純預訓練的不足;另一方面,記憶、工具調用和系統編排開始成為核心能力。這意味著模型能力的提升,正在從一次性的參數寫入,轉向可持續的系統演化。
大模型能力躍遷的一個顯著事實是,模型性價比曲線正在被系統性重寫。
階躍星辰系統負責人朱亦博指出,如今訓練一個激活參數規模約 10B 的模型,其整體能力已經可以超過 2024 年激活參數在 100B 以上的模型。一年內接近 10 倍的性價比提升,是算法、數據、系統與工程能力協同進化的結果。
這一變化并不意味著 Scaling 失效。相反,多數專家認為,更多數據、參數規模和更多計算,依然是當前提升基礎模型能力最有效的通用路徑。無論是語言模型還是多模態模型,過去一年的實驗反復驗證,只要數據質量、訓練方法和工程能力能夠跟上,模型規模繼續擴大,整體能力仍然會上升,只是單位成本所換取的收益正在快速下降,經濟回報曲線變得愈發平緩。
這一背景下,Scaling up 不再是一個可以獨立成立的答案。李志宇指出,當前許多瓶頸并不來自模型“不夠大”,而是模型無法高效利用已有信息,例如在長上下文下的穩定性、跨時間的一致性以及復雜任務中的持續推理能力不足。多模態的發展放大了這個問題,輸入更長、信息更雜、狀態更多、參數更大,但真正可用、可持續的智能比例并沒有同步提升。所以,他更傾向于認為,我們正在進入一個“Scaling 仍然繼續,但對象正在發生變化”的階段,下一步真正拉開差距的是能找到值得 Scaling 的點,比如基于動態應用場景的記憶去做 Scaling。
姚霆進一步指出,多模態領域的 Scaling 同樣呈現出分化趨勢。一方面是“深度 Scaling”,即在單一多模態任務上通過擴大模型參數提升能力,但這會顯著增加訓練與推理成本,因此必須與高質量數據和架構層面的優化協同推進;另一方面是“廣度 Scaling”,從垂直場景和商業落地視角出發,在不同多模態任務之間進行能力擴展,這種橫向擴展往往帶來更大的驚喜,例如在統一架構下實現多模態理解與生成的融合。
但可以肯定的是,對于模型間的競爭,預訓練和后訓練都很重要,谷歌方也透露 Gemini 3 變強的核心就在于此。不過,明略科技創始人、CEO 兼 CTO 吳明輝指出,模型訓練方向正在分化:通用 SOTA 模型的敘事不再重要,更重要的是在特定領域、特定任務上實現差異化的 SOTA 能力。在其看來,這意味著垂直領域專用模型將大量涌現,通用大模型的競爭優勢減弱。
另外,工程能力成為提升模型能力的一大重點。有傳言 Gemini 3 的成功有很大一部分歸功于修了若干重大 bug。朱亦博表示,大模型廠商的工作進入了拼工程化的時代,而非重大創新主導。拼工程化也意味著更進入拼集團軍作戰、組織能力的階段,而非靠少數幾個 super star。
與此同時,今年深思考模型與 Agent 的快速演進不斷刷新智能能力上限,強化學習(RL)在這一輪爆發中發揮了決定性作用,但其發展同樣存在結構性限制。面壁團隊指出,目前大多數強化學習訓練仍停留在幾千步量級,距離跑通穩定的 RL scaling law 還有相當距離,如何讓強化學習長期、穩定、可擴展地訓練下去,依然是行業正在探索的核心問題。
盡管如此,強化學習已經證明,只要具備足夠的數據和高質量反饋,它幾乎可以在任何任務上達到人類前 0.1% 甚至 0.01% 的水平,這也意味著未來一旦有企業在某個垂直領域積累起足夠的數據,就可能用 RL 打造出該領域的“超級專家模型”。
另外,“大規模合成數據替代人工數據”正在發生,但并非完全取代。合成數據確實已經成為高質量訓練數據的重要來源,單純依賴人工標注既慢又貴,且一致性很難保證。真正高價值的合成數據,并不是模型隨便生成的,而是被嚴格約束、可驗證、能放大信息增益的數據。在構建高質量推理數據集時,更關注:是否有明確的推理結構,比如中間狀態、決策分支和失敗路徑,而不是只給最終答案;是否引入了對抗性和反事實設計,刻意逼模型暴露盲區,而不是強化它已經會的模式。
Transformer 依然是核心基礎
在“后 Transformer”時代,大模型領域不斷有“新架構”被提出,并在部分任務上取得了亮眼效果。但從整體格局來看,Transformer 的基本范式依然占據絕對主流。多數所謂的新架構,本質上并非對 Transformer 的顛覆,而是圍繞其關鍵組件所做的工程化改良,例如稀疏注意力、線性注意力等機制的引入。因此,在可預見的未來,Transformer 仍將是大模型的核心基礎,真正意義上的架構級革命,可能還需要更長時間的醞釀。
當前圍繞 Transformer 的幾乎所有演進,實際上都是在 FFN(前饋網絡)和注意力機制這兩塊上展開的。
在 FFN 方向上,業界已經形成了較為明確的共識:通過 MoE 對 FFN 進行稀疏化,是提升規模效率的關鍵路徑。這也是 DeepSeek 的一個重要貢獻,它在大規模實踐中證明了 MoE 并非只在中小模型上有效,也可以穩定地擴展到超大模型規模,這也加速了 MoE 成為主流選擇。
今年 MoE 的迅速普及,本質上是被成本與規模雙重壓力逼出來的工程選擇。隨著模型規模持續擴大,單一稠密模型在訓練和推理上的成本已經接近不可接受,而 MoE 通過“只激活少量專家”的方式,在參數規模與實際算力開銷之間找到了現實可行的平衡點。但需要強調的是,MoE 并未改變大模型的智能范式,更多是一場效率層面的重構,而不是認知能力層面的躍遷。
相比 FFN 的方向逐漸收斂,注意力機制仍處于高度活躍的演進階段。今年,無論是開源還是閉源模型,都在持續探索更高效的注意力結構,例如 Gemini 系列采用滑動窗口注意力與稠密注意力的混合架構;Qwen3-Next、Kimi Linear 引入 DeltaNet 等線性注意力機制,并與稠密注意力混合使用;DeepSeek 最新提出的 DSA 等新型注意力設計。
一定程度上,這些探索主要源于廠商對 Agent 化與深度思考場景的需求:Agent 既需要處理超長輸入,也需要生成更長、更復雜的輸出,而當前 Transformer 架構有一定局限性。
Transformer 依然是核心基礎
Agent 已成為業內公認的大模型下一階段核心主賽道。無論是谷歌、Manus 追求的 24 小時通用智能體,還是 Anthropic 重點發力的方向,均指向同一核心目標:讓模型具備長期、自主完成復雜任務的能力。
這一趨勢背后的關鍵邏輯是,大模型單點能力的提升已難以形成壓倒性優勢,真正的價值差距正體現在智能體能力的構建上,這也成為大模型競爭中最現實、最易拉開差距的方向之一。
然而從客觀情況看,現有模型的推理能力仍不足以支撐真正意義上的自主 Agent,瓶頸在于長期運行下的穩定性與可持續性:現在模型易出現漂移、遺忘,在長鏈路決策中還會逐步失真。這也導致當前多數 Agent 仍依賴“系統兜底、模型執行”的模式,而非模型本身具備完整的自主智能。
百度智能云平臺產品事業部算法架構師、千帆策略部負責人吳健民指出,大模型要更好支撐 Agent,仍需跨越多重技術門檻:首先,通用模型難以泛化到不同的 Agent 垂直場景,不同 Agent 的場景設定、可用工具及運行環境差異顯著,通常需要對模型進行場景定制;其次,不同場景的效果評估標準(reward)差異大,既難以清晰定義,也難以實現自動評估;再次,真實場景的 Agent 運行環境復雜,涉及多模塊、外部接口、工具、數據庫及登錄驗證等多種外部依賴,訓練過程中需保證這些依賴正常訪問,技術挑戰重重;與此同時,支撐模型持續進化的高效、高吞吐的強化學習框架仍有較大提升空間,當前開源框架尚無法滿足工業級需求。
因此,未來智能體賽道的競爭關鍵,不僅在于模型本身,更在于圍繞模型構建的記憶、推理及系統架構能力。在此背景下,大模型至少需要在三個方向上系統性優化:其一,推理模式從一次性回答轉向過程可控,能夠穩定完成多步決策、反思與修正;其二,長上下文狀態理解與保持能力,對任務目標、環境變化和歷史行為形成持續感知;其三,提升模型與工具、環境及記憶系統的協同能力,避免將所有復雜性壓縮進單次推理過程。
記憶是應用到真實環境的必備能力。李志宇認為明年大模型競賽的核心就在于“記憶能力如何完成一次系統性升級”。過去模型主要依賴參數記憶,把能力一次性寫死在權重里,一旦進入智能體、長期任務和復雜應用場景就會遇到天花板。根據其觀察到的技術演進趨勢,這是從底層算力和 KV Cache 等激活記憶管理開始,到基模型層引入記憶原生機制,再到上層通過顯式記憶支撐 Agent 和應用的長期運行能力。其本質上是一條從 Infra 到模型、再到應用的完整記憶技術棧升級,帶來的不是 benchmark 上的小幅提升,而是智能形態本身的躍遷。
其中,上下文長度決定模型的記憶容量,而 Agent 完成復雜任務需經過多輪環境交互,反饋信息會持續進入上下文,因此模型必須具備足夠的長上下文理解能力。
圍繞上下文問題,當前主要有兩類路徑:一類是工具輔助,通過類似“翻記事本、查資料”的工具放大記憶,無需將全量長內容納入上下文即可完成任務;另一類是架構優化,通過稀疏注意力機制提升長上下文處理效率,例如 DeepSeek 的 MLA 強調全量快速瀏覽,Kimi 的 MoE 路線則聚焦重點信息的精細處理。采用 MoE 架構的代價則是預設稀疏結構帶來的歸納偏置,可能在部分任務上造成效果折損。
另外部分專家認為,通用 Agent 仍較為遙遠。當前階段的核心研發重點,是深耕特定專業場景,讓模型在細分領域的效果超越人類,這一方向將長期成為行業主流。
多模態推理融合
當前,業界對原生多模態理解差異比較大。智象未來算法科學家潘瀅煒將多模態模型的演進主要分為兩條主線:圖像生成模型和視頻生成模型。整體來看,視頻生成模型的演進略滯后于圖像生成模型,核心原因在于視頻是幀的序列,相比圖片多了一維時空復雜度,技術實現難度更高,但兩條主線的縱向變革速度均極為迅猛。
從年初 GPT-4o 帶來的“吉卜力時刻”,到 Nano Banana Pro 推動圖像生成從“美感導向”轉為“指令遵循 + 信息承載”的精準信息圖生成,再到 Veo 3 在音畫同步上的出色表現,多模態模型正重塑行業認知與應用邊界。尤其 Nano Banana 表現出來的模態融合能力,即能夠同時接收并生成文本、圖像、視頻和音頻內容,成為重要方向。隨著模型能力的提升,跨模態之間相互促進的效果愈發明顯。
在視覺生成技術層面,吳健民表示今年該方向出現了明顯的演進:從早期的 Stable Diffusion,到中期的自回歸(Auto-regression)方式探索,逐步收斂至以流匹配(flow matching)為主流的建模方案。
當前多模態理解大模型的主流路線,仍是先訓練語言模型,再通過視覺編碼器進行“嫁接式”聯合訓練,以實現對視覺像素輸入的理解,各種 VLM 模型結構都收斂到這一個方向。但這一方案面臨兩大根本挑戰:一是視覺信號信噪比低、噪聲大,難以像語言模型訓練數據那樣高效規模化;二是訓練依賴高質量圖文對齊數據,而此類數據主要通過 Recaption 等合成方案生成,高質量規模化獲取難度大。
今年以來,多模態能力已逐步成為大模型推理能力中不可或缺的一部分,并開始影響其整體推理范式,如 DeepSeek OCR 利用圖片實現長文本壓縮等。但與此同時,多模態數據的大量引入,也給大模型帶來了三方面新挑戰:模型結構需盡可能支持原生多模態輸入輸出;訓練方法需平衡各類不同任務,確保模型在各任務中均能達到一定收斂程度;數據層面需進一步提升廣度與精度,既要涵蓋各類多模態推理任務,也要依靠高質量精品數據在訓練后期提升模型推理能力。
與此同時,業界開始嘗試將推理能力更深度引入生成系統中,以突破傳統單一生成架構在復雜控制、一致性與可預測性上的限制。這一思路的核心在于,將多模態 token 融入統一的計算圖中。但下一代范式是否會走向“原生編碼”,即圖像與視覺信號無需獨立編碼器,直接接入統一 Transformer 實現原生多模態交互,仍需探索。
盡管當前視覺生成模型多以專精模型為主,但行業的核心探索方向已轉向“生成與理解統一建模”。不少機構認為,這一方向有望實現“世界模型”,但目前該方向仍處于開放探索階段,尚未形成成熟方案。
從更長遠的演進邏輯看,大模型發展呈現出清晰的升級脈絡:從語言模型到多模態模型,再到世界模型,其本質是大模型對真實世界建模能力的持續升級。具體而言,語言模型的核心是理解人類符號”,多模態理解模型聚焦“感知世界表象”,多模態生成模型致力于“模擬世界表象”,而世界模型則以“掌握物理規律和因果關系并與之交互”為核心目標。這一演進路徑被認為是通往 AGI 的必經之路。
開源、商業與落地
隨著各家模型能力差異縮小和模型的開源,僅售賣純模型 Token 無法獲得企業的溢價認可。部分專家認為,如果模型無法形成代際差,低價趨勢會延續到明年,甚至愈演愈烈。同時,當部分國產卡下場且效率提升之后,由于算力補貼的存在,這個價格將會逼近冰點,甚至越用越虧。
而價格戰主要還是倒逼模型廠商去持續加速:一是加速研發新模型形成短暫的版本優勢;二是加速模型的推理時間;三是加速模型架構的升級,引入性價比更高的架構設計來降低成本。模型廠商可能需要考慮的是,如何在現有的純模型 Token 售賣模式上提供增值服務,比如 MCP 增值服務、記憶增值服務等等,通過額外的能力提升來提供純售賣 Tokens 的溢價空間。
此外,今年國內的開源態勢發展迅速,每家廠商幾乎都有開源模型發布,這也給企業帶來了很多商業上的收益。智譜董事長劉德兵表示,其大量付費用戶就是從開源用戶轉化而來。另外,開源引起整個產業發展后,企業客戶對模型成果更容易理解,易于雙方溝通,也幫企業節省了大量的市場推廣成本。
在應用端,B 端和 C 端之間界限越來越模糊,總體都可以歸為內容生成者,真正的海量 C 端其實是內容的消費者。商業模式的創新就從售賣 API 提升到了售賣結果:以前 B、C 兩端都是積分制,本質就是價值折算的積分,但是大家正在不斷探索按照結果來付費。
總體來看,普遍認為,明年大模型競賽的核心,除了技術能力,更多會轉向“價值落地能力”,類似比拼“行業收入規模”和“客戶留存率”。誰能更快將技術轉化為行業實效,誰就能占據先機。
姚霆認為,下一次“代際飛躍”很可能來自兩個方向:一是新穎的用戶交互體驗。今年 Agent 相關的應用出現了爆發式增長,這代表了用戶在認可大模型能力的同時,又對 AI 應用的交互體驗提出了更高要求,這催化大模型從單一的原子能力向完整解決方案提供者演變。
二是專業級能力的大眾化。目前大模型能力對于專業從業人員來說已經達到一個很驚艷的程度,但是對于大眾來說還是存在一些使用上的“困難”,這種困難可能來自高昂的推理成本、編寫專業級 prompt 的入門難度,以及缺乏大模型使用經驗以及思維,而下一次飛躍可能就來自于如何拉近大模型對于大眾的隔閡,出現真正的全民級 AI 應用。
這也意味著,大模型公司正在變成系統公司。單靠一個模型,已經很難支撐真實世界里的復雜應用,現在決定體驗和成本的,越來越多來自模型之外的系統能力,比如推理引擎怎么調度算力、數據如何持續進入并形成正反饋、Agent Framework 能不能穩定地執行長鏈路任務等。
2025,Agent 開始真正
進入軟件世界
年初,很多開發者第一次意識到 Agent 可能不是 PPT 概念,而是一種正在成型的軟件形態,是在 Manus 刷屏的那幾天。
社交平臺上充斥著“它能自己拆任務”“像一個真正的數字員工”的演示視頻,產品經理在轉發,創業者在拆解,投資人開始追問:Agent 會不會成為 AI Native 的第一個殺手級應用?
那一刻,Agent 被寄予的期待,遠不只是一個更聰明的 Chatbot,而是一次對“軟件如何運行”的重新想象。
所以現在回頭看,Manus 的爆火更像是一場提前到來的預告片。它并沒有直接定義 Agent 的終局形態,卻成功點燃了整個行業的想象力——原來模型不只是“回答問題”,而是可以被組織成一個能持續行動、調用工具、承擔職責的系統。
正是從 Manus 開始,2025 年的 Agent 市場迅速進入加速期:從單體 Agent 到多 Agent 協作,從 Demo 到真實業務,從創業公司到大廠全面下場,一條清晰的技術與產品分化線,開始浮出水面。
從“會對話”到“能干活”
回顧過去一年 Agent 技術的發展,一個最直觀的變化在于:AI 的角色從“回答問題”轉向了“完成事情”。
在沒有 Agent 之前,大模型更多承擔的是認知與表達層面的工作,輸出文本、代碼或建議,但很少真正介入任務執行鏈路。而 Agent 的引入,使模型具備了感知外部環境、理解復雜需求并主動調用系統能力的可能性。這種變化并非簡單的功能疊加,而是一次軟件構建范式的躍遷——AI 從一個工具,開始變成一個可嵌入業務流程的執行組件。
那為什么這類 Agent 產品是今年才真正跑出來?
中關村人工智能研究院副院長、北京中關村學院副教授鄭書新認為,這其中的原因并不在于技術本身,而在于“落地需要時間”。
鄭書新用一個更形象的比喻解釋了這種現狀:“汽車發動機發明之后,并不是馬上就能滿街跑汽車,中間可能隔了六十年。因為還需要有變速箱、輪子、車身、方向盤,還需要建修路、高速公路,以及一整套配套基礎設施。這不是技術沒有突破,而是從技術到大規模落地,本身就有一個必經的過程。”
從技術脈絡上看,這一過程不是一蹴而就的,而是由一系列關鍵事件逐步推動。
首先是協議與標準的出現,使 Agent 從“各自為戰”走向可規模化協作。以 MCP(Model Context Protocol)為代表的模型上下文與工具調用協議,雖然在更早時間點提出,但在今年迎來了真正的應用爆發。基于統一協議,Agent 可以通過標準化接口訪問外部系統、工具與服務,這直接降低了應用層的構建成本,也促使大量企業開始圍繞 MCP 構建自己的 Agent 網關與服務生態。在大型企業內部,這種趨勢尤為明顯,Agent 不再是單點試驗,而是開始進入平臺化孵化階段。
緊隨其后的,是 Agent 與 Agent 之間的協作問題被正式擺上臺面。今年 Google 推出的 Agent-to-Agent 通信協議,標志著多智能體系統開始走向標準化協同。過去,多 Agent 協作往往依賴定制化對話邏輯或硬編碼工作流,擴展性與穩定性都受到限制。而統一通信協議的出現,使不同來源、不同角色的 Agent 能夠在清晰語義邊界下進行協作,為復雜任務拆解、分工與復用提供了基礎條件。這一變化的意義在于,Agent 不再只是“單兵作戰”,而是開始具備組織化、系統化運作的可能。
與此同時,業界對 Agent 的關注也從“交互層協同”進一步下沉到“基礎能力建設”。無論是圍繞安全沙箱、執行隔離的探索,還是圍繞工具調用、狀態保持與任務規劃的系統化設計,都指向一個共識:真正可用于生產環境的 Agent,必須具備比 Demo 更嚴謹的工程基礎。
Agent 不只是一個會“思考”的模型實例,它同時也是一個需要被運維、被監控、被審計的運行時系統。
正是在這一背景下,Agent 技術在今年呈現出明顯的“上下分化”趨勢。一方面,應用層創新異常活躍,尤其是在編程、運維、客服等高頻場景中,Agent 已經開始創造可量化的業務價值。以編程領域為例,圍繞代碼生成、單元測試、Bug 定位與修復的 Agent 工具,在成熟的軟件工程體系配合下,顯著提升了研發效率。對于開發者而言,過去需要數十分鐘甚至數小時完成的工作,如今往往只需簡單校對即可完成,這種效率提升是真實且可持續的。
另一方面,平臺層與基礎設施層的競爭正在悄然加劇。隨著 Agent 開始深入企業核心系統,對資源調度、安全隔離、成本控制與可觀測性的要求迅速上升。尤其是在涉及代碼執行、數據訪問等高風險場景時,Agent 必須運行在受控的沙箱環境中,這對底層沙箱 Infra 提出了極高要求。如何在保證執行自由度的同時,實現極速交付、狀態保持和多租戶隔離,成為云廠商與平臺型企業投入最多工程資源的方向之一。
在此背景下, 沙箱的 Infra 在今年快速發展。以 E2B 為代表的沙箱服務,在今年隨著 Manus 的爆火而迎來了真正的爆發。在年底的北美 KubeCon 上,谷歌也宣布開源了基于 k8s 的 Agent-sandbox 項目,嘗試標準化基于云原生技術的沙箱 Infra。此后,諸如阿里云宣布開源的 OpenKruise Agents 等項目也開啟了中國的云原生沙箱技術的序幕。云原生技術和 Agent 沙箱技術的結合, 將極大推動 Agent 應用的普及和發展。
只賣 Agent 能力將變得越來越難
這種結構性分化,也深刻影響了 Agent 創業生態的走向。今年不乏 Agent 創業公司快速走紅,也不乏項目迅速退潮。復盤這些案例,一個共性問題在于:單純售賣“Agent 能力”本身,正在變得越來越困難。隨著開源模型、開源 Agent 框架與工具鏈的成熟,基礎能力正在快速商品化。真正能夠存活并成長的團隊,往往不再強調技術本身,而是聚焦于是否能為客戶創造明確、可量化的業務價值。
這也推動 Agent 的商業模式發生轉變。過去偏工具化、訂閱制的模式,正在向“結果導向”的自動化服務演進。企業不再僅僅為一個 Agent 平臺付費,而是為“一個能完成具體工作的數字員工”買單。這種變化在企業內部同樣顯現:Agent 不再只是輔助工具,而是被賦予明確職責,嵌入既有流程,與人類員工協作完成任務。
在多 Agent 協作層面,現實也比想象更為復雜。理論上,多 Agent 分工協作可以顯著提升復雜任務的完成能力,但在實踐中,不清晰的角色定義、模糊的任務邊界,往往會導致協作效率下降,甚至產生額外的推理成本。
多個 Agent 之間無效溝通帶來的 Token 消耗,正在成為企業真實的成本壓力。這促使業界逐步從“人格化 Agent”轉向“系統化 Agent”,通過嚴格定義輸入輸出、工具權限與約束條件,讓 Agent 更像模塊化系統,而非自由對話的智能體。
放眼產業格局,不同類型參與者的分工正在逐漸清晰。大模型廠商憑借對模型能力的深度掌控,在 Agent 的規劃、推理與工具調用層具備天然優勢;云廠商則在基礎設施、彈性調度、安全隔離與企業集成方面占據關鍵位置;而創業公司,則更多通過對垂直場景的深刻理解,在定制化解決方案與極致成本優化上尋找生存空間。三者并非簡單競爭關系,而是在不同層級形成互補與博弈。
Agent 進入開放世界的能力,成最值得期待的突破
展望未來一年,Agent 技術最值得期待的突破,或許并不在于更炫目的 Demo,而在于其進入“開放世界”的能力。當 Agent 不再只在封閉測試環境中運行,而是開始面對真實系統的不確定性時,如何識別未知、如何在不完全信息下做出保守決策,將成為智能體走向成熟的關鍵一步。這一能力的突破,將直接影響 Agent 在機器人、自動駕駛、復雜業務系統中的應用邊界。
從更長遠的視角看,Agent 很可能不會以單一形態存在。它既可能以“數字員工”的形式嵌入企業流程,也可能演化為一種基礎能力,像數據庫或中間件一樣,成為軟件架構中不可或缺的一層。無論最終形態如何,可以確定的是:Agent 正在把 AI 從“智能展示”推向“智能執行”,而這一變化,將持續重塑軟件、自動化與組織運作的底層邏輯。
在大模型浪潮之后,Agent 正在成為下一輪技術周期中,最值得持續關注的核心變量。
吵翻天的具身智能,
96%中國機器人廠商活不過明年?
今年,無論是科技巨頭還是初創公司,都顯著加大對具身智能的投入,不斷有新投身進來的創業者,順利拿到大額融資的亦不少。有數據顯示,截至 2025 年 11 月,中國已有超 200 家人形機器人本體廠商。
“核心驅動因素在于市場應用預期的升溫。”北京智源人工智能研究院具身數據負責人、北京大學多媒體信息處理全國重點實驗室副研究員姚國才表示。
光年褶皺 CEO 李元慶進一步提到,另一個原因是技術成熟度的突破。和去年相比,現在的機器人在穩定性、可靠性上都有顯著提升,正從技術演示階段朝著產品化的方向推進。
然而,姚國才強調,需要警惕的是,“預期”的走高并不等同于“信心”的真正夯實。早在 2014 年,中國就經歷了“協作機器人元年”。一個殘酷現實是,低垂的果實早就被摘遍,如果具身智能機器人不能真正體現出其相對于協作機器人在“通用性、泛化性、便捷性”上的技術優勢,很難找到扎根土壤。
真機智能董事長兼首席科學家劉智勇同時表示,明年本體廠商肯定會收縮,估計中國最終只會剩下 5 到 8 家本體機器人,應用場景相關的公司和上游企業會多一些。
繁榮的具身智能,沒有出現 ChatGPT 時刻
“如今技術還遠沒到成熟的時候,今年的現狀只能用‘繁榮’來形容,充斥著大量非共識,行業對于本體形態、數據類型、模型架構仍存在大量爭議,需要更多探索和迭代才能逐步收斂。”姚國才冷靜地判斷道。
在擎朗智能戰略技術官劉斐看來,2025 年具身智能領域最顯著的進展集中在多模態融合、任務泛化能力提升上。今年,擎朗智能推出自研 VLA 模型 KOM2.0,通過深度融合視覺、語音與環境交互能力,在復雜人流環境下的導航與任務執行成功率有明顯提升。
李元慶則表示,今年有一項關鍵突破:機器人已經具備 100% 完成一些簡單任務的能力。同時,其他復雜任務的成功率也在穩步提升。除此之外,局部運動控制領域進展明顯。現在就算非專業工程師,只要會敲代碼、甚至用遙控器就能操控機器人完成各種動作。
而令劉智勇印象比較深刻的,是視覺語言導航(VLN)方向的相關進展。他表示,從去年到現在,涌現出大量基于視覺語言作為多模態輸入的導航模型,可以解決零樣本泛化問題,機器人到任何全新的固定場景里都能自主完成導航任務。從場景普及來說,核心是不再需要預先建圖了。最關鍵的是,零樣本能力等同于部署成本的大幅降低,就能適配場景化的盈利模式。
不過,VLN 目前有兩方面的難題。一是感知決策的延遲,這甚至可能是致命的。二是硬件性能短板,既要讓硬件能靈敏地感知外部世界,又要保證它能反復進行操作,而目前這類硬件的耐疲勞性、反脆弱性能還不夠強。
“我們并沒有看到具身大模型的 ChatGPT 時刻,也沒有看到具身數據的 ImageNet 時刻。”姚國才則表示,今年的進展還談不上“突破性”。具身智能的進步必然是漸進式的,不是某一個單點突破造就的“高光時刻”,而是整個生態系統水到渠成的結果。
值得一提的是,多位專家都指出了制約機器人大規模落地的不同方面難題。
首先,姚國才指出,如今具身大模型還沒有發生“質變”,普遍存在“感知不準確”與“決策不靠譜”的問題。如何實現語音、視覺、觸覺、力覺等多模態信息的動態交互,如何跟物理客觀規律、人類價值觀對齊,仍然懸而未決。
其次,是機器人硬件成本問題,核心部件的價格居高不下。“成本降不下來,就沒有場景愿意去接受和應用。”另外,李元慶提到,當前軟硬件技術路徑的結合沒有完全收斂,模型架構和數據的飛輪迭代設計也未做好整合,供應鏈沒辦法做針對性的配套。
最后是長期問題,場景化產品定義不清晰、產品完整生命周期的市場和運維體系也沒建立起來。
這一年值得關注的新范式
“從下半年開始,具身智能領域出現了明顯的突圍現象。”
姚國才表示,大家已經達成一個共識:傳統 VLA 加真機遙操數據不夠用。在模型層面,大家開始嘗試通過“技術整合”來修正 VLA 模型的局限性;在數據層面,UMI 類遙操數據和人類視頻數據成了避不開的話題。
當前,世界模型被寄予厚望,被認為是實現高級推理和規劃的關鍵。
劉斐指出,世界模型的核心價值在于讓機器人具備對物理環境的預測與規劃能力。現階段,它已顯著提升機器人在動態環境中的任務執行連貫性和長期行為合理性。未來,世界模型在復雜任務拆解、多機協作、長期自主運行等方面潛力巨大。
姚國才則進一步預測,隨著世界模型的發展,其對物理規律、復雜交互的模擬質量會接近真實世界的水平,為策略模型直接零樣本泛化到新場景和新任務提供基礎。
“世界模型現在算是解決數據問題的一個共識。”劉智勇表示,不管是在長程層面模擬預測未來狀態、底層層面預測動態物體軌跡,還是彌補數據的 corner case,世界模型都起到了不可或缺的作用。而且,世界模型是 VLN 突破長程規劃和動態適應瓶頸的充分非必要條件。
同時,他談到,之前感知、決策、執行分離的多模塊化范式逐漸轉向 VLN 或 VLA 的端到端統一范式。推動導航和路徑規劃的技術范式發生了轉變,從幾何測量的 SLAM 轉向學習增強的 VLN。訓練范式也發生了改變,從強化學習調參慢慢轉向世界模型驅動。
“世界模型算是一個新范式,但說實話還沒有形成行業共識。”李元慶則認為。不過,他指出,世界模型有機會把這部分數據構建工作做得更高效、成本更低,對于構建基礎模型非常重要,同時也有替代物理仿真引擎等部分現有技術的潛力。
另外,他表示,技術架構方面也有新變化,大家開始把 VLA 與 RL 結合起來用。以前大家更多關注 VLA,相對輕視 RL 路徑,現在兩者結合后,機器人能完成更復雜的任務了。
劉斐還表示,具身智能技術棧正從“垂直封閉”走向“開放協同”,形成“大模型 + 世界模型 + 模塊化硬件” 的層級架構。
首款大面積鋪開的機器人,會在中國出現?
“到 2026 年,具身智能將在多任務協同、長時自主運行、人機共融交互等方面實現顯著突破。”劉斐表示。
劉智勇則談到,明年具身智能會有兩個關鍵突破方向。一是機器人在非結構化場景中實現穩定作業。二是突破莫拉維克悖論。以往大家覺得,機器能完成人類覺得難的事,但難以完成簡單的事,而明年可能機器人也能勝任這類任務。
至于明年的技術決勝點,劉斐認為,可能在于通用任務泛化能力、成本與可靠性的平衡以及標準化與模塊化程度。而在劉智勇看來,最重要的是世界模型的因果推理能力,一旦取得突破,無論機器人的安全性還是行為和推理的安全性問題,都能得到很好的解決。
“核心是在某個單一場景實現盈利,不是毛利而是不依賴大量售后成本的凈利。誰能做到這一點,誰就能形成數據飛輪,模型和方法能力會進一步提升,之后再推進跨場景復制。”劉智勇稱。
據介紹,之后蘇州真機智能將有兩個關注重點,一是通過 VLN 實現無需額外提前部署的門到門配送,二是通過全身控制打破靜態平衡的限制,依靠動態平衡的方法更泛化地解決開門的問題,以此來實現最后五公里的門到門配送,既能開門、操作電梯,又能以無建圖、無 GPS 的方式完成導航。
而姚國才的態度是:短期悲觀、長期樂觀。他認為,2026 年具身智能的能力邊界未必能取得突破,決勝點也還沒有到來的曙光。在接下來一年,智源會以 Emu3.5 世界模型為核心,不斷探索新的技術方案以拓寬具身智能的能力邊界。
李元慶接下來的目標則是打造一款面向家庭用戶的功能性產品。據其判斷,現在具身智能領域最該抓住的就是兩件事:落地和數據。只有做出真正的產品,才能實現技術落地,同時把數據低成本地回收、形成閉環。
同時,他認為,多機異構技術路線是具身智能未來的發展方向,核心是多個不同類型的機器人協同工作。
“世界上第一款能大面積鋪開的具身智能落地產品,很可能會在中國出現。”李元慶滿懷信心地說道。
他表示,現在除整機銷售外,已經看到一些新的商業模式在逐步落地且都形成了清晰的小閉環,如租賃和按使用次數或者完成任務量收費的 RAAS 模式。此外,軟件費加服務費的組合模式被多位專家提到。
“如果只賣硬件,一次性賣完其實很虧,后續的售后壓力會非常大。另一方面,用戶一次性付太多錢確實承受不了。”劉智勇稱,通過“整機銷售 + 每年服務費” 的方式,既能保證長期的最大收益,又能解決售后問題,還能讓設備商一次性回本。
AI Native 元年:
軟件工程正在被重新定義
要去盤點和總結過去一年 AI Native 相關技術的演進,就要弄清楚所謂的“AI 原生”到底是什么。
Linux 基金會云與基礎設施執行董事 Jonathan Bryce 認為,AI Native 指的是一種從設計之初就將 AI(尤其是大語言模型等核心 AI 能力)作為其不可分割的基石和核心驅動力的應用程序、產品或系統。
Bryce 著重對 AI 原生應用的核心特征進行了闡述:其內部嵌有一個或多個模型,能夠回答問題、進行預測、處理自然語言或多模態輸入;同時,其交互方式更貼近“人與人溝通”的多通道、多模態體驗,而非傳統網頁“點選與輸入”式的二維界面。
他將這種演進類比于 Web 的發展歷程:早期 Web 僅提供靜態頁面;隨著 LAMP(Linux、Apache、MySQL、PHP)等技術棧的出現,網頁首次具備動態程序能力,支持繳費、通訊、社交等功能;而 AI 原生應用則在此基礎上,進一步融入模型帶來的“可對話、可感知、可預測”的動態行為,從而開啟全新的交互與應用范式。
AI Native 在 ToB 領域“熱度高、落地慢”
事實上,過去一年,“AI Native”從一個偏概念化的技術標簽,逐步演變為影響軟件工程全鏈路的現實力量。
從整個宏觀視角來看,與早期“在應用中接入大模型 API”的嘗試不同,AI Native 關注的核心問題是:當 AI 成為系統的默認能力,而非外掛組件時,軟件應該如何被設計、構建和運行。這一變化并非劇烈爆發,而是以工程實踐為主線,在底層技術、中間架構與業務應用中持續滲透,悄然重塑著傳統軟件的基本假設。
如果從應用規模和市場成熟度來看,2024 年至 2025 年這一階段,AI 在 ToC 領域的滲透顯然更快,而 ToB 領域則呈現出“熱度高、落地慢”的特征。多家研究機構的統計顯示,過去一年企業級 AI 應用數量同比增長超過 60%,但其中超過一半仍集中在編程輔助、內容生成、數據分析與內部效率工具等輕量級場景,真正成為“系統級核心能力”的 AI 應用仍屬少數。這也解釋了一個看似矛盾的現象:AI 無處不在,但 AI Native 應用仍然稀缺。
正是在這一背景下,AI Native 的工程挑戰開始逐步顯現。
采訪中,上海云軸科技股份有限公司 CTO 王為提到,這種工程挑戰在開發者群體和非開發者群體中呈現不同的變現形式。
第一類典型用戶,是對 AI 能力高度依賴的行業客戶,例如多媒體、內容生產、智能分析等場景。在這些系統中,模型、算力和數據不再是松散解耦的資源,而是形成了高度耦合的運行整體。模型版本的更新可能直接影響業務邏輯,推理成本的變化會反向制約產品形態,系統狀態也不再僅由代碼決定,而是受到模型輸出不確定性的持續干擾。這些問題,幾乎都超出了傳統軟件工程中“接口 + 狀態機”的經典設計范式。
與之形成對比的,另一類數量更多、但復雜度不同的用戶群體——低代碼或半低代碼平臺上的 AI 應用開發者。這類用戶并不追求極致模型能力,而是希望在既有系統邊界內獲得“足夠聰明”的 AI。挑戰在于,在嚴格的網絡隔離、權限控制和數據合規要求下,模型往往難以獲取完整上下文,最終智能水平受限。這并非簡單的工程實現問題,而是企業治理邏輯與 AI 認知模式之間的結構性沖突。因此,AI Native 并沒有帶來立竿見影的統一解法,而是呈現出明顯的場景分化。
那么,有沒有能夠緩解上述問題的解法呢?答案是有的 。
正因為底層復雜性顯著提升,越來越多團隊選擇了一條更為務實的路徑:不推翻原有系統,而是在其之上逐步“AI 化”。這意味著,AI 更像是一個協作層、決策層或增強層,通過 Agent、插件或工作流嵌入現有系統。這種漸進式演進,使 AI Native 不再是“重構一切”的高風險工程,而是可控的持續演化過程,也更符合大多數企業的風險偏好。
當視角從技術架構轉向業務層面時,AI 對傳統業務邏輯的影響則顯得更加克制。
過去一年,低代碼平臺疊加 AI 的嘗試,在商務支持、教學輔助、銷售跟進等場景中取得了一定進展,尤其是在信息整理、總結生成、流程輔助等環節。但從整體來看,AI 對核心業務系統的改造仍然偏慢。無論是 CRM、HR,還是財務與供應鏈系統,其核心邏輯高度穩定,用戶遷移成本極高,這直接削弱了 AI “重塑系統”的現實動力。
在王為看來,這一趨勢在投資層面體現得尤為明顯。與 2023 年相比,2024 年國內資本對 ToB AI 的投入明顯趨于謹慎。一方面,二級市場表現低迷、海外上市通道收緊,壓縮了長期技術投資的回報預期;另一方面,部分 AI 企業上市后的業績表現未能與估值匹配,也進一步放大了風險認知。
相比之下,資本更傾向于支持“能快速體現效率收益”的 AI 產品,而非周期更長的系統級重構。
但需要強調的是,投資降溫并不等同于應用停滯。恰恰相反,AI 正在企業內部以一種更低調但更深層的方式擴散。AI 編程工具在研發團隊中的滲透率持續上升,多項行業調查顯示,在中大型技術團隊中,超過 70% 的工程師已將 AI 作為日常開發工具。這顯著提高了開發效率,同時也改變了工程能力結構,使部分中級工程職能被重新定義,甚至被壓縮。
AI 對研發流程的重塑進入不可逆階段
隨著 AI 深度嵌入研發流程,傳統 SaaS 架構和 API 調用模式也開始暴露出新的瓶頸。模型調用接口如何設計、上下文如何裁剪、緩存與成本如何平衡,逐漸成為系統穩定性和可擴展性的關鍵因素。
在實際落地中,多模型協同已成為事實標準,通過在不同任務中動態調度能力更強或成本更低的模型,實現性能與成本之間的平衡。這一模式正在從工程實踐演化為平臺級能力。
上下文管理問題同樣值得關注。實踐表明,模型上下文并非越長越好,冗余信息反而會削弱推理效果。目前多數團隊采取“先堆功能、后治理”的策略,在系統尚未穩定前,很難精細化控制上下文長度與信息密度。但可以預見,隨著 AI 應用規模擴大,上下文壓縮、信息篩選和記憶機制,將成為 AI Native 架構的核心競爭力之一。
在高代碼場景中,AI Native 的方法論相對更加成熟。通過引入內存系統、文件系統協同、自動上下文壓縮等機制,開發者逐步形成了一套“分而治之”的工程實踐。多個 Agent 協同工作、各自承擔明確職責,可以顯著降低單一模型的上下文負擔,同時提升整體系統效率。無論是自動修復前端錯誤、代碼質量評審,還是新聞聚合和數據分析,這種模式已經在多個真實場景中驗證了其可行性。
從更宏觀的角度看,AI 對研發流程本身的重塑已經進入不可逆階段。AI 不僅參與代碼生成和評審,還開始介入需求理解、角色扮演和方案推演。未來,越來越多傳統應用可能會逐步遷移到 AI 架構之上,但這一過程更像是“架構演進”,而非“系統替換”。在這一過程中,業務架構層面的權限治理和數據管理,與技術架構層面的模型選擇、框架取舍,將同時成為決定成敗的關鍵因素。
隨著系統復雜度持續上升,可觀測性成為 AI Native 的基礎能力之一。模型調用次數、成功率、失敗原因、工具鏈調用關系,以及敏感數據審計,正在成為企業級 AI 應用的標配要求。可以預見,在未來一到三年內,全 AI 架構的探索將進一步深化,部分系統規劃和子任務運行,可能完全由智能體完成。
進一步向下看,AI 也正在推動操作系統與基礎設施層的演進。AI 擅長解決可評估、可量化的問題,這使其在編程和數學領域進展顯著。但在更復雜、難以定義標準的任務中,AI 仍然主要作為輔助工具存在。從基礎設施角度看,模型管理、多模型調度、推理系統優化,正在成為新的“系統內核能力”,并可能催生完全 AI Native 的中間件甚至操作系統形態。
在可預見的未來,AI Native 不是一次短期內“顛覆一切”的革命,而是一場深刻而持續的工程演進。它正在重新定義軟件的構建方式、運行邏輯與組織形態。當 AI 成為系統中默認存在、不可剝離的一部分時,軟件工程的底層假設也將隨之改變。而這一變化,或許才剛剛開始。
AI 行業普及度暴漲,
金融、醫療、教育領域效率拉滿
對各行各業的 AI 應用來說,今年或許是高普及又務實的一年。
傳神語聯創始人何恩培表示,AI 技術的普及度在各行業實現大幅提升,從消費端到產業端,AI 的身影隨處可見。
“2025 年,AI 從‘模型能力持續提升’邁入到‘組織級生產力重構’的關鍵躍遷起點。AI 應用迎來爆發期,尤其是 Agentic AI 開始從普及走向可規模化的業務場景。”
身處金融行業的平安科技創新事業部線上用戶運營 AI 產品團隊總經理樊聰表示,AI 應用已經從工具變為“生產力伙伴”,參與到實際業務流程中,開始協助和獨立承擔任務拆解、流程執行。 如果以“是否已經嘗試或者部署 AI”作為標準,目前在金融行業的比例已經非常接近、甚至在部分細分領域已經超過一半。
據悉,無論是大型銀行、保險還是頭部的金融科技公司,AI 都已經規模化落地,全面賦能核心業務。一些機構日均模型調用規模已達億級 token,成為事實上的基礎設施。AI 不再只是提升效率的工具,而是企業業務規模增長、服務競爭中的關鍵變量。
何恩培同時指出,但多數 AI 應用還停留在表面,極少能真正實現行業和場景深度智能化,更談不上原生的智能化。值得欣慰的是,大模型廠商正在迎來理性回歸,整個行業基本放棄了 “參數和算力競賽”。在具體場景里,輕量化、低成本部署成了新方向。
各行業落地進展
“從實踐結果看,AI 已經在多個核心場景實現了規模化落地,并帶來了明確、可量化的成效。”
樊聰表示,今年,隨著技術的不斷突破和行業競爭格局的變化,平安對 AI 的定位也在升級,角色已經發生質變:預期是幫助成員公司贏取業務競爭、提升客戶體驗和經營效率的直接驅動力。
據其透露,在平安的 AI 實踐中,很多應用場景已跨越試點階段、實現 AI 規模化、業務化部署。比如,產險服務管家已初步具備 AI 主動接管的能力,能幫助電話客服做購買、理賠、延補方面的咨詢接管替代。
傳神語聯在醫療領域的探索則專注于中醫方向。何恩培表示,當前 AI 在醫療領域的角色早已突破單一某個環節的輔助,正在形成多場景、全鏈條的格局。
“今年上線的 AI 醫生,年度使用用戶已突破千萬,增速遠超預期。我們推出的傳神素問中醫大模型,實際評測效果非常不錯,應該是中國第一個能夠像專家一樣主動問診的中醫大模型。”今年 8 月,傳神素問通過了中國信息通信研究院可信 AI 中醫藥大模型評估,獲得 4+ 級評級。
據介紹,傳神素問不局限于開處方,已經結合四診儀器形成診療閉環,從掛號開始到預問診、輔助辨證開方、跟蹤患者依從性以及整個康復過程。并且,整個過程也不再是人在調用 AI 工具,而是各個場景智能體化,如醫助智能體、名醫孿生智能體等正在形成從輔助開方的疾病治療向向全周期健康管理延伸。
“事實上,AI 與醫療、醫藥、生命大健康領域的融合不僅普遍,而且介入深度越來越深。”何恩培稱,大模型在醫療領域的應用不只是聚焦“嚴肅醫療”,更廣泛滲透到了藥物研發環節。更關鍵的是,在深度藥物研發或病理相關分析等細分場景,行業內會專門構建針對性的大模型。
“如果對比中醫和西醫的 AI 化,西醫的 AI 落地會更容易一些。”何恩培談到,西醫檢查設備及其指標體系是全球通用的,更容易形成標準數據,訓練大模型就能達到比較高的水平。
不過他認為,中醫是未來最有可能通過 AI 實現全面突破的領域。傳神素問正在推動中醫走向標準化、規模化的現代化服務階段,以及中醫服務下沉。如果把名醫的孿生模型推廣到基層,就能讓更多普通患者享受到優質的中醫診療服務。
“豆神教育旗下的 AI 教師不是傳統意義上大而全的萬能工具 Agent,而是屬于企業級 Agent。”豆神教育 AI 事業部研發總監朱智勝表示,這些企業級 Agent 存在于豆神教育的整個產品體系中,覆蓋了從內容生產、課堂授課到課后服務的全流程。
在教育領域,豆神教育正在獨家 AI 教育大模型的基礎上,打通 AI 教育不同場景間的壁壘。目前其主推的 AI 產品有兩款:一是豆神王者 Club APP,其中的超練系列已經在熱賣中;另一款是豆神的首款硬件產品豆神學伴機器人,已于 12 月 22 日首發。
明年的突破方向
樊聰透露,接下來一年,平安將繼續在綜合金融 + 醫療養老的戰略模式下,探索 AI 應用的深度落地,在醫療多模態、居家養老具身智能上持續探索。
據悉,平安正在利用無線波感知等多模態技術,探索對居家環境的“無線感知”,監控老人在家里的行為軌跡,識別跌倒風險并進行應急救援,同時結合金融場景的安全可信需求構筑技術壁壘。
“未來,AI+ 中醫將以‘場景化智能體’為核心形態,通過分層協同的技術模式承接基礎診療工作,同時拓展心理健康這類新興服務領域。”何恩培就醫療領域作出判斷。
他表示,未來 3-5 年包括 2026 年,AI 賦能中醫的核心變化是讓中醫從“經驗主導”轉向“數據賦能”,AI 的角色也將從零散的單點工具進化為適配中醫診療邏輯的“場景化智能體”。“AI 承接中醫絕大部分基礎及重復性工作,讓醫師專注于辨證論治的創造性、互補性工作會是必然方向,中醫智能體將會成為 24 小時陪伴人類的健康顧問和健康管理專家。”
同時,AI+ 中醫情志康養是下一步突破的重點。核心思路是,讓 AI 深度學習中醫情志調理的理論與實踐經驗,結合現代心理學技術,為不同情緒狀態的人群提供個性化的情志疏導方案。據悉,目前傳神語聯已具備獨特的資源支撐落地,預計會在明年 1 月發布相關推進計劃。
加入InfoQ年度盤點讀者群,第一時間獲取盤點文章更新
技術人的年度儀式感! 年度盤點與趨勢洞察 啟動!
《2025 年度盤點與趨勢洞察》由 InfoQ 技術編輯組策劃。覆蓋大模型、Agent、具身智能、AI Native 開發范式、AI 工具鏈與開發、AI+ 傳統行業等方向,通過長期跟蹤、與業內專家深度訪談等方式,對重點領域進行關鍵技術進展、核心事件和產業趨勢的洞察盤點。
力求以體系化視角幫助讀者理解年度技術演化的底層邏輯、創新方向與落地價值,并為新一年決策提供參考。內容將在 InfoQ 媒體矩陣陸續放出,歡迎大家持續關注。
今日薦文
你也「在看」嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.