大模型已經從單點能力,進入系統工程的較量。
文|陸莫斯
封面來源|AI生成
如果想知道AI市場到底發展成什么樣,火山引擎已經是中國市場當仁不讓的風向標。
“截至今年12月,豆包大模型日均token使用量突破50萬億,較去年同期增長超過10倍。”12月18日,在人頭攢動的Force大會現場,火山引擎總裁譚待宣布了這一數字。
![]()
2025年,這一數字僅為16.4萬億 圖源:火山引擎
MaaS(模型即服務),是最直接的觀察模型消耗量的指標。單論這一市場,如今火山引擎已經成為國內市場份額第一,全球也能排在第三位。
2025年中旬,云廠商爭奪“AI云第一”的硝煙還未停息,到了今年最后一個月,各個大廠又端上了各個新版本——前有谷歌的旗艦模型Gemini 3、視頻模型Veo 3.1炸場,后有OpenAI的GPT-5.2緊追不舍。在國內,包括阿里、騰訊等巨頭也紛紛端出了新模型的更新。
如果要給2025年的AI市場概括關鍵詞,多模態和Agent必定在榜。
這次的Force大會,火山引擎重點發布的產品,也圍繞這兩方面展開:
模型側:豆包旗艦模型1.8、以及視頻生成模型Seedance 1.5 pro;
圍繞Agent開展的工具鏈和生態服務:包括企業自有模型的推理代工服務、強化學習平臺;企業級AI Agent平臺AgentKit;以及面向Agent運營,發布HiAgent“1+N+X”智能體工作站。
![]()
火山引擎總裁譚待
在Force大會上,火山引擎也勢要“將Agent進行到底”——自己搭了一個Agent,用于Force大會的報名、參會引導等。
“大家可能以為這個很簡單,但我們做起來也很不容易!”譚待笑著說,“現在的模型能力其實已經夠強了,但是很多企業還是用不起來,問題是Agent的工具和生態還很早期,企業做Agent迭代就會很慢。”
距離2020年火山入局云市場,已經過去了五年。彼時火山還被稱為是云市場的“新軍”,現在,火山已經憑借大模型的東風,成為AI領域里不可忽視的力量——2024年,火山的營收規模超過110億元,營收增速遠超60%;今年,這個數字已經超過200億元。
![]()
忘掉參數吧,模型正在變成成熟消費品
2025年的視頻模型市場,結結實實卷了一整年。
和去年最不同的是,廠商們還在卷參數、卷秒數;而現在,視頻生成賽道,競爭已經到達另一個維度——真正的分水嶺,在于能否直接產出“可發布的完整作品”。
比方說,最近各個AI視頻廠商,都在卷一個功能:聲畫同出。
以前,模型生成的視頻片段更像是半成品,需要大量后期剪輯、配音、對齊才能使用,做一條AI視頻需要橫跨多個平臺,加上復雜的剪輯工序。
新鮮出爐的Seedance 1.5 pro,同樣將這一點作為主打功能,可以做到開箱即用。在Force大會上,譚待對Seedance 1.5 pro的參數也是一帶而過,直接展示了多個Demo,涵蓋電影、動畫、商業拍攝等多種風格。
我們也同樣對Seedance 1.5 pro進行了試用。總體感受是,只需要用最簡單的提示詞,Seedance 1.5 pro不僅可以直出聲畫同步的視頻,從嘴型和聲音的對應、情緒/環節捕捉,和畫面的配合度,都已經達到相當高的可用水平。
- 提示詞:一個小女孩,在一個房間里面,面朝著觀眾。身后有一個大人把一個圣誕禮物盒子遞給她,然后他打開之后,發現一只可愛的小狗從盒子里跳了出來,她開心地笑了,說:“你真好!”
- 提示詞:一個藍色頭發的動漫少女站在櫻花樹下,櫻花瓣飄落下來。她伸手接住一片花瓣,開心地轉了一圈,裙子隨著旋轉飄起來。她笑著用英語說:“春天終于來了!”
2025年的AI視頻模型領域,依舊保持著極其迅速的迭代速度。
2024年,各家的視頻模型都在解決一致性以及人物的動作表情是否夠自然的問題——比如,這一幀還是史密斯吃面,但下一幀就可能換成另一位角色。
到了2025年,比如Seedance的上一代版本1.0 pro,核心賣點是其“原生多鏡頭敘事”:根據復雜的劇本,自動規劃包含遠景、特寫、中景的鏡頭組合,并確保主角的一致性。
但現在,這些問題都已經不是最主要的問題,視頻生成模型迅速地進步到接近生產級可用的水平。聲音,成為了重要的競爭因素。
無獨有偶,今年下半年發布的快手可靈2.6、谷歌的Veo 3.1以及阿里的WAN 2.5,都將聲畫同步功能作為了宣傳重點。
![]()
來源:小紅書用戶@AI哈哈鏡
相較之下,Seedance 1.5 pro頗有自己的特點。
首先,Seedance 1.5 pro在對口型方面,已經達到相當高匹配度;而谷歌Veo 3.1等海外模型,對中文適配程度較低,很多時候嘴型對不上,配音也不夠自然。
另外,Seedance 1.5 pro所生成的視頻,沉浸感是更突出的——不僅口型對得好,聲音和人物、環境的適配度。
運鏡、動作張力,則是Seedance一貫的王牌功能。這次的Seedance 1.5 pro,重點強化了對電影級運鏡和動態張力的遵循。
比如,在室外,不同的天氣,人物的聲音會顯得更加悠遠,甚至有淡淡的回音。
![]()
- 提示詞:一個男人站在雨中的街頭,他穿著黑色風衣,雨水順著他的臉往下流。他慢慢抬起頭看向天空,然后低聲用上海話說:“是時候做個了斷了。”鏡頭切換到對面的人,對面的人回答:“你要怎么做?”,背景是模糊的霓虹燈和濕漉漉的街道,最后鏡頭切換到男人背后的幾個路人,幾個路人在馬路對面,靜靜地觀察。
![]()
- 提示詞:一輛紅色跑車在山路上疾馳,輪胎摩擦地面冒出白煙。車子快速過彎,車身傾斜。然后鏡頭切換到駕駛座,司機緊握方向盤,眼神專注,冷哼一聲,車子加速沖過終點線
Seedance 1.5 pro生成的視頻,動作幅度以及多鏡頭、多主體等等呈現,也明顯是在行業水平線之上。
事實上,要做到聲畫同步,不僅需要大量的訓練數據,在訓練架構、路線選擇上都做不少調整。
之前,視頻生成大多基于傳統T2V模型來進行,都是先將視頻畫面生成出來,效果就是“啞巴視頻”,用戶得自己后期配音、配樂、對口型,費時費力。
無論對追求創作效率的C端用戶,還是對看重成本和穩定性的B端客戶,這都具備實在的商業價值。
模型訓練架構的改進,也提升了商業化落地的效率。比如,通過多階段蒸餾、量化等工程優化,Seedance 1.5 pro模型的端到端推理速度提升超過10倍,這極大減少了生成成本。
火山引擎智能算法負責人吳迪在一次采訪中表示,在模型訓練目標設定之初,火山就重點關注了B端重點場景的需求,“音畫同步”正是客戶的核心訴求之一。
可以說,在一致性、運鏡、敘事、聲音等等因素都成熟后,AI視頻生成的拼圖漸漸完整。
這背后同樣反映整個創作生態的成熟。
從Seedance 1.5 pro上線的宣發就可見一斑——在小紅書上,字節旗下的AI視頻Agent小云雀、即夢等等,主推1.5 pro時,選用的AI視頻素材大多是包含多個動作的短視頻、有劇情有故事,抖音感非常強烈。
![]()
小紅書上的二創、整活類視頻
視頻是否好玩,很大程度決定傳播潛力。Seedance 1.5 pro對各種方言、對白和強表演場景的支持,讓模型天然適合在豆包、即夢等C端產品中,生成可供二次創作和分享的社交貨幣——比如方言類“整活”視頻,正在成為AI視頻模型屢試不爽的、撬動用戶的路徑。
作為短視頻巨頭,字節跳動對內容也沉淀了最深的理解——對什么內容能火、為什么火。這些理解,最終都轉化為了模型的訓練目標。
信號也非常明顯:隨著視頻生成模型的逐步成熟,很快,這些AI生產的視頻,也會和豆包、即夢、小云雀等C端產品聯動起來,為用戶生成可供二次創作和分享的社交貨幣。
當模型能理解并生成復雜的長鏡頭、希區柯克變焦等等電影術語,還能精準復刻川話、粵語、滬語等等小眾方言,成為隨手可用的創作工具時,它就不僅僅只是一個技術工具,而是具備了逐步演變成社交平臺的潛力。
![]()
大模型已是系統工程較量,但火山要做模型上的減法
火山引擎的迅速增長,也是當下AI應用爆發的映照。
“智能涌現”了解到,和2025年末相比,2030年,豆包大模型的Token調用量,將增長100倍左右。
不過,大模型領域仍處在非常早期。火山智能算法負責人吳迪在會后采訪中曾披露一個數字:在國內,大約10%-20%左右的頭部企業,消耗了超過90%的Token,大模型服務的滲透率并不高。
“這個領域的頭部效應依然非常明顯。”他表示。
光有好模型,還遠遠不足以服務好客戶。不過,火山引擎如今的思路反倒是,做減法。
豆包大模型1.8就做了一個很多廠商不敢做的決定:把所有模型能力塞進一個模型。
具體而言,客戶只需要面對一個API接口,不管是LLM、VLM、Thinking版本等,全部集成在一起,不分版本,不用再糾結選哪個版本,不用擔心模型之間的能力差異,也不用在多個模型之間來回切換。
這跟市面上的主流做法不太一樣。大多數模型廠商,都會習慣于提供不同的模型版本,比如語言、視覺理解、思考模型等等,每個版本對應不同的模型能力邊界。好處是各司其職,但挑戰是是選擇成本高,集成流程也比較復雜。
在模型上能做減法,難度是指數級上升的,這需要更領先的基模——這是火山強調的底座邏輯。
基礎模型的能力,直接決定了下游應用的天花板。Seedance 1.5 pro之所以能在聲畫同步上做得細致,背后是豆包基礎模型能力在支撐。
比如,模型能精準捕捉人物情緒、理解復雜的敘事意圖、處理方言的語音語調,這些都依賴于基模在語義理解、情感識別等維度的深厚積累。
在讓模型真正被用起來這件事上,火山引擎搭建了一套更龐大的系統工程。
![]()
來源:火山引擎
如今的Token降價,模型降價倒逼廠商,必須把模型訓練得更高效、更好用,讓MaaS服務的“密度”更高。
密度指的是什么?簡單理解,就是在同樣的成本下,模型能提供更多的價值。
通過持續的工程優化、訓練策略改進,火山不斷壓縮推理成本,同時保持甚至提升模型性能。Seedance 1.5 pro的端到端推理速度提升超過10倍,就是這種優化的直接成果。
就連計費模式,也應該符合AI應用的使用特點。
這次的發布會上,火山就推出了一個很有意思的計費模式:“AI節省計劃”。這個計劃覆蓋所有按量后付費的大模型產品,通過階梯式折扣,幫助企業最高節省47%的成本。
“今天行業還按Token計費,但未來絕對不會是只有這種消費方式。”2024年,在接受“智能涌現”專訪時,譚待就曾表示。未來,他認為應該按照交付的“智能”付費,比如用AI寫一份報告,按交付物的價值來計費。
在2025年,火山也開始推出以按照思考長度,分段付費的模式,來幫助企業達到降成本的目的。
事實上,從火山成立開始,譚待就曾反復表示,AI是火山的主旋律。
這句話背后的含義是,火山的基礎設施、產品架構、商業模式,從第一天起就是圍繞AI云原生設計的。對于后起之秀的火山而言,傳統的公有云市場已經被站滿了先行者的旗幟——這是事實。
所以,AI,是火山彎道超車的關鍵所在。
火山的AI Native,體現在很多細節上。比如,火山的GPU集群調度系統,專門針對大模型訓練做了優化;存儲架構,也考慮了AI訓練對基礎設施的極端需求。
AI基礎設施的競爭,已經從單純的模型能力比拼,演變成了系統工程的較量。
對于更廣闊的企業客戶來說,他們面臨的最大問題往往不是模型不夠強,而是不知道怎么用、用不起來。一個企業要真正用上大模型和Agent,需要解決數據接入、任務編排、效果評估、成本控制等一系列復雜問題。
這就像擁有一臺性能強勁的發動機,但如果沒有配套的傳動系統、控制系統和操作界面,普通人根本開不起來。
火山如今在同步建設模型的“腦”和“手”。
如果說,豆包大模型是“腦”,提供核心的理解和生成能力;那么這次重磅發布的AgentKit,就是這只“手”,目的是降低開發者的開發門檻。
傳統的Agent開發,需要開發者自己處理prompt工程、工具調用、狀態管理等復雜問題,開發周期長、調試困難。AgentKit把這些底層能力做了封裝,開發者只需要關注業務邏輯本身。
更重要的是,AgentKit不只是一個開發工具,它還提供了完整的運營能力。從Agent的創建、測試、部署,到上線后的監控、優化,形成了一個閉環。這對企業客戶來說至關重要,他們需要的是一個可管理、可迭代的解決方案,而不只是一個demo。
火山自己在Agent方面已經積累了大量實踐。字節內部的很多業務場景,包括客服、內容審核、數據分析等,都在使用Agent來提升效率。這些實踐中沉淀下來的能力和經驗,最終通過AgentKit對外輸出。
在Force大會的演示中,一個企業級的電商客服Agent從零搭建到上線,整個過程只用了不到半小時。這種效率提升,對很多企業來說是質的飛躍。
往前看,火山在Agent方向的目標很明確:讓每個企業都能擁有自己的AI助手,就像今天每個企業都有自己的網站和APP一樣。這需要的不僅是技術能力,還需要完整的生態支撐。
從這個角度看,火山的雄心已然明晰:它要做的不只是提供模型API,而是構建一個完整的AI基礎設施和服務體系,讓所有企業都能低門檻、低成本地用上最先進的AI能力。
這場系統工程的較量,才剛剛開始。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.