
作者 | 蔡芳芳 褚杏娟
本文為《2025 年度盤點與趨勢洞察》系列內(nèi)容之一,由 InfoQ 技術編輯組策劃。本系列覆蓋大模型、Agent、具身智能、AI Native 開發(fā)范式、AI 工具鏈與開發(fā)、AI+ 傳統(tǒng)行業(yè)等方向,通過長期跟蹤、與業(yè)內(nèi)專家深度訪談等方式,對重點領域進行關鍵技術進展、核心事件和產(chǎn)業(yè)趨勢的洞察盤點。內(nèi)容將在 InfoQ 媒體矩陣陸續(xù)放出,歡迎大家持續(xù)關注。
我們采訪了智象未來聯(lián)合創(chuàng)始人姚霆,他指出在多模態(tài)領域,深度 Scaling up 模型能力提升收益放緩,而廣度 Scaling up 會帶來更多驚喜,多模態(tài)能力也在重塑大模型推理過程。另外,2025 年的模型價格戰(zhàn)倒逼廠商三大加速:研發(fā)新模型搶占短暫的版本優(yōu)勢、提升推理速度、升級高性價比架構降本。他認為,低價趨勢 2026 年將延續(xù),核心原因是市場遠未飽和。結合公司情況,姚霆表示模型商業(yè)模式從賣 API、積分制轉向“按結果付費”。下面是詳細對話內(nèi)容,以饗讀者。
1 多模態(tài)大模型的 Scaling up
InfoQ:Scaling up 是否仍是最佳路線?
姚霆:對于多模態(tài)大模型而言,Scaling up 有深度和廣度。深度 scaling up 就是類似于單一多模態(tài)任務的純粹模型參數(shù) scaling up 過程,我們會發(fā)現(xiàn)這種 scaling up 下模型能力提升收益放緩,并不是指數(shù)級的增長,與之搭配的還需要高質(zhì)量數(shù)據(jù)和架構的“Scaling up”,而且盲目擴增模型參數(shù)也會對推理 cost 帶來極大地負擔,所以我們在深度 scaling up 過程中除了模型性能之外更多地會去考慮訓練和推理的 cost,期望達到極致的性能 - 效率平衡。
而廣度 scaling up 指的是從垂域場景和商業(yè)化落地的視角下去看 scaling up,即不同多模態(tài)任務之間的 scaling up,我們發(fā)現(xiàn)這種廣度上的 scaling up 會帶來更大的驚喜,例如在聯(lián)合架構中去實現(xiàn)多模態(tài)理解和生成任務的統(tǒng)一,以及視頻生成和音頻生成任務的統(tǒng)一,衍生出類似音畫同步的特色。
InfoQ:MoE 架構為什么會成為 2025 年的主流架構?其在參數(shù)效率與推理成本間的平衡能力,是否徹底改變了大模型的開發(fā)與部署邏輯?非 MoE 路線的企業(yè)如何構建差異化競爭力?
姚霆:稀疏 MoE 架構的一大優(yōu)勢是較高的推理效率,盡管其模型參數(shù)量很大,但在推理過程中只有部分參數(shù)被激活,這樣既保持了高參數(shù)量帶來的模型學習能力,也在部署推理過程中表現(xiàn)出較高的效率。
而對于非 MoE 架構,也就是參數(shù)稠密型的模型,雖然推理的性價比會比 MoE 架構低,但是對于垂域任務,稠密型模型由于總參數(shù)量更小,部署更加靈活,也可以體現(xiàn)出較好的效果。
2 多模態(tài)大模型的代表性發(fā)展
InfoQ:2025 年多模態(tài)能力取得了哪些飛躍性發(fā)展?Nano Banana Pro 代表的圖片生成模型、OpenAI Sora、Google Veo 3 代表的視頻生成模型,分別做了哪些優(yōu)化得到了不錯的效果?
姚霆:2025 年多模態(tài)大模型能力有幾個代表性的發(fā)展:
音畫同步生成,讓視頻從默片時代進入了有聲時代;
主體參考的一致性,實現(xiàn)了從片段化到連貫敘事的轉變,AI 漫劇因此迎來了井噴的爆發(fā);
運鏡表達、表情演繹,讓視頻生成更具備影視表達,從“形似”到“神似”。
Veo 3 就在音畫同步上做的很出彩,而 Nano Banana Pro 則將主體參考一致性發(fā)揮到新的高度,因為都是閉源模型,所以只能猜測在技術上不會局限于單一的 DiT 架構,例如借助多模態(tài)推理和生成的統(tǒng)一(VLLM+DiT)實現(xiàn)更精準的多模態(tài)內(nèi)容編輯,而將更多不同模態(tài)的 token(文本、圖像、視頻、語音等)融入到統(tǒng)一的架構中則能端到端實現(xiàn)類似音畫同步的能力。
InfoQ:多模態(tài)能力是否會重塑推理?跨模態(tài)推理是否也成為必答題?預計推理能力的突破方向在哪里?
姚霆:2025 年多模態(tài)能力已經(jīng)在重塑大模型推理過程,從 DeepSeek OCR 中使用圖片來進行長文本壓縮,到 Nano Banana 中直接生成解題過程的圖片,多模態(tài)能力已經(jīng)成為大模型推理能力中不可或缺的一部分。
多模態(tài)數(shù)據(jù)往往能提供比純文本數(shù)據(jù)更稠密、直觀和具備邏輯關聯(lián)的信息。目前多模態(tài)數(shù)據(jù)越來越多的引入,對于大模型結構、訓練方法以及數(shù)據(jù)三方面都會帶來新的挑戰(zhàn)。其中,大模型結構要盡可能支持原生多模態(tài)的輸入或者輸出,對于模型的參數(shù)量上提出了更高的要求;訓練方法上需要去平衡各種不同的任務,保證模型在不同任務上都達到一定的收斂程度;數(shù)據(jù)上則對數(shù)據(jù)的廣度和精度上又有了進一步的要求,廣度上需要盡可能涵蓋需要的多模態(tài)推理任務,同時高質(zhì)量精品數(shù)據(jù)可以在訓練后期提升推理能力。
InfoQ:從語言模型到多模態(tài)模型,再到世界模型,這個演進的本質(zhì)是什么?您認為世界模型未來發(fā)展趨勢如何?
姚霆:從語言模型到多模態(tài)模型,再到世界模型,演進的本質(zhì)是“大模型對真實世界的建模能力升級”:語言模型是“理解人類符號”,多模態(tài)理解模型是“感知世界表象”,多模態(tài)生成模型則是“模擬世界表象”,而世界模型是“掌握物理規(guī)律和因果關系并與之交互”,這也是通往 AGI 的必經(jīng)之路。
因此,世界模型未來必將會在理解物理世界空間結構的同時,提升對物理規(guī)律和因果關系的刻畫能力,而且通過與物理真實世界的交互實現(xiàn)從感知到?jīng)Q策的閉環(huán)。
3 “低價趨勢肯定會延續(xù)”
InfoQ:2025 年模型價格戰(zhàn)最關鍵的影響是什么?價格戰(zhàn)倒逼廠商做了哪些架構演進?低價趨勢在 2026 年是否會繼續(xù)延續(xù)?
姚霆:主要還是倒逼模型廠商去持續(xù)加速,一是加速研發(fā)新模型形成短暫的版本優(yōu)勢,二是加速模型的推理時間,時間就是金錢,三是加速模型架構的升級,引入性價比更高的架構設計來降低成本。低價趨勢肯定會延續(xù),因為市場還遠沒有飽和。
InfoQ:2025 年在 B 端和 C 端,都有哪些創(chuàng)新的商業(yè)模式出來嗎?
姚霆:創(chuàng)新的商業(yè)模式是很難的,所以我覺得更多是一些特色吧。
B 端和 C 端的界限越來越模糊,總體來說都是內(nèi)容的生成者,真正的海量 C 端其實是內(nèi)容的消費者,所以可以把兩個端一起談,商業(yè)模式的創(chuàng)新就是從售賣 API 提升到了售賣結果,以前 B、C 兩端都是積分制,本質(zhì)就是價值折算的積分,但是我們在不斷探索按照結果來付費。
在移動端,我們也在突破過去 web 端復雜的積分邏輯對應的不同的會員等級,pro、ultra 等等,我們只會把功能區(qū)分為會員功能和非會員功能,然后按需充值即可,不會再糾結額度來覺得是否續(xù)費。
InfoQ:在您看來,2026 年大模型競賽的核心是什么?您認為下一次“大模型代際飛躍”可能來自哪條技術路線?
姚霆:2026 年大模型競賽的核心,會從“技術能力”轉向“價值落地能力”,類似于比拼“行業(yè)收入規(guī)模”和“客戶留存率”。誰能更快將技術轉化為行業(yè)實效,誰就能占據(jù)先機。
下一次“代際飛躍”很可能來自兩個方向:
一是新穎的用戶交互體驗,隨著基礎原子能力目前逐漸飽和,2025 年 Agent 相關的應用出現(xiàn)了爆發(fā)式的增長,而 Agent 爆發(fā)的背后實際上代表了用戶在認可大模型能力的同時又對于 AI 應用的交互體驗提出了更高的要求,讓大模型從單一的原子能力向完整解決方案提供者演變,一旦在用戶交互方式、交互體驗上跨越式提升,就會帶來新的機遇。
二是專業(yè)級能力的大眾化,目前大模型能力對于專業(yè)從業(yè)者來說已經(jīng)達到一個很驚艷的程度,但是對于大眾來說還是存在一些使用上的“困難”,這種困難可能來自于高昂的推理成本,編寫專業(yè)級 prompt 的入門難度,以及缺乏大模型使用經(jīng)驗以及思維,而下一次飛躍可能就來自于如何拉近大模型對于大眾的隔閡,出現(xiàn)真正的全民級 AI 應用。
4 “模型和商業(yè)化一直會是兩個最大挑戰(zhàn)”
InfoQ:根據(jù)您的觀察,科技公司 2025 年面臨的壓力如何?對此采取了什么樣的應對措施?員工們的狀態(tài)如何?
姚霆:對我們這樣的模型研發(fā)的公司來說,模型和商業(yè)化一直會是兩個最大的挑戰(zhàn),這兩個挑戰(zhàn)匯集在一起就是對于底層模型架構的突破變成必選項,模型公司不能像過去那樣不斷的優(yōu)化數(shù)據(jù)和推理來解決用戶的問題,而是要在架構上做出突破,敢為人先。
非常開心的是我們的員工狀態(tài)始終保持戰(zhàn)斗狀態(tài),因為我們不要 80 ->85,而是要 120 分的創(chuàng)新和顛覆,同時模型團隊也和業(yè)務團隊有了更多的協(xié)同,這種協(xié)同對于模型團隊的能力落地起到非常重要的作用。
InfoQ:經(jīng)過一年競賽,國內(nèi)前沿 AI 水平取得了怎樣的成績?是否趕上了硅谷科技公司?
姚霆:在多模態(tài)大模型這個賽道,我覺得國內(nèi)外是百花齊放,例如我們在 2025 年 4 月的圖像模型 HiDream-I1 開源打響了國內(nèi)多模態(tài)生成式大模型登頂國際競技場的第一槍,同時大家也開始重視了多模態(tài)生成式大模型的競技場,這些過去只有硅谷科技公司的模型名單里開始快速出現(xiàn)國內(nèi)的各家模型。
InfoQ:您認為,2026 年的技術賽點可能是什么?您會重點關注哪些行業(yè)和技術?
姚霆:技術賽點從多模態(tài)模型架構上來說我覺得還有比較長的路,但是在應用上我覺得技術的賽點是多模態(tài) agent 的成熟落地。2025 年上半年的 Manus,下半年持續(xù)火熱的 vibe coding 都是大語言模型的應用落地的典型案例,多模態(tài)模型看似比大語言模型更解決用戶,但是生圖生視頻場景還沒有出現(xiàn)真正技術應用上完全解決用戶痛點的 agent,所以我們也會更關注多模態(tài) agent 。
加入InfoQ年度盤點讀者群,第一時間獲取盤點文章更新
技術人的年度儀式感! 年度盤點與趨勢洞察 啟動!
《2025 年度盤點與趨勢洞察》由 InfoQ 技術編輯組策劃。覆蓋大模型、Agent、具身智能、AI Native 開發(fā)范式、AI 工具鏈與開發(fā)、AI+ 傳統(tǒng)行業(yè)等方向,通過長期跟蹤、與業(yè)內(nèi)專家深度訪談等方式,對重點領域進行關鍵技術進展、核心事件和產(chǎn)業(yè)趨勢的洞察盤點。
力求以體系化視角幫助讀者理解年度技術演化的底層邏輯、創(chuàng)新方向與落地價值,并為新一年決策提供參考。內(nèi)容將在 InfoQ 媒體矩陣陸續(xù)放出,歡迎大家持續(xù)關注。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.