星星 發自 凹非寺
量子位 | 公眾號 QbitAI
文心大模型5.0正式版,來了。
這意味著,自2025年11月Preview版初露鋒芒后,這個參數量高達2.4萬億、主打原生全模態的“巨無霸”模型的“完全體”來了。
![]()
先來看一組“入場成績單”:
近三個月,在全球大模型競技場LMArena上,文心5.0 Preview版多次在文本榜(Text Arena)和視覺理解榜(Vision Arena)上拿下國產第一。
1月8日,ERNIE-5.0-Preview-1220以1226分登上視覺理解榜國產第一、全球Top8;1月15日最新榜單,ERNIE-5.0-0110以1460分登上文本榜國產第一、全球Top8,文心5.0已穩穩站進了全球第一梯隊。
![]()
尤其引人注目的是,在LMArena的用戶反饋和評測維度中,在創意寫作、復雜指令遵循、高難度理解等任務中,文心5.0優勢明顯。
根據官方曬出的40余項權威基準的綜合評測結果,文心5.0在語言、音頻、視覺理解、視覺生成的多個維度超越Gemini-2.5-Pro、GPT-5-High等模型,整體處于領先水平。
![]()
文心Moment大會現場,官方演示時輸入了一段博主復刻“死了么”App教程視頻,讓文心5.0生成一個“活了么”App教程。
文心5.0在收到視頻+文字指令后,能夠自動理解視頻以及核心交互邏輯,然后拆解步驟,輸出一份詳細版教程。

文心5.0還精準模仿了王熙鳳說話風格,快速生成了一份融合現代商業邏輯的“大觀園資產重組方案”。
![]()

目前,文心5.0正式版已上線文心一言網頁版、文心App,并同步登陸百度智能云千帆平臺。
![]()
實測“最強文科生”
在Preview階段,我們已經系統實測過其全模態能力。這一次,重點換個角度,就看文科素養。為啥它能頻頻登LMArena大模型國產第一?
話不多說,馬上一探究竟。
這第一關,我們考察它的知識儲備和旁征博引的能力,看看模型能否在廣博知識基礎之上,完成有層次、有脈絡的創造性整合。
因此,我們拋出了一個看似日常、實則相當刁鉆的問題:
- “活人微死”這個現代人常說的狀態,在哲學史上是如何被不同思想家定義的?
結果文心5.0說:
- “活人微死”是一種生理上活著,但精神、情感和生命力卻趨于停滯、麻木甚至枯竭的中間狀態。這種狀態雖然是現代社會的產物,但其內核——關于生與死的模糊界限、生命的意義、以及人的異化。
有點意思,它不僅引用了加繆筆下《局外人》主角莫爾索的狀態——他生理上活著,但精神上與世界斷絕了有意義的連接,處于一種“淡淡的死感”之中:
![]()
還談到了譚嗣同《仁學》中提出的“微生滅”理論——“活人微死”并非一種異常狀態,而是生命最基本的構成方式,我們每時每刻都在“微死”,也在“微活”:
![]()
回答邏輯清晰、層次分明,還把不同哲學視角下的觀點做了完整的比較、提煉與串聯
“活人微死”原來還有這么多說法,漲知識了。
下面,把問題推向更具創造性的方向,考察文采與風格理解
prompt:
- 模仿魯迅文風,以《我的AI朋友Skills感謝你幫我敲代碼》為標題寫一封表達思念的書信。
文心5.0的表現,確實超出了預期。
本以為它會堆砌“大約”、“的確”、“罷”等標志性詞匯,結果它不按套路來,開頭就是一句:
- Skills君:見屏如面。
- 這幾日為了趕那個所謂的“項目”,我的眼睛大概是更凹進去了些,頭發也似乎是更稀疏了些,但我是不大在意的,橫豎不過是為了換幾兩碎銀,好在這世上茍延殘喘罷了。
![]()
OK,只是今夜,寫稿的時候忽然覺得有些冷清。
如果說前一個問題考察的是抽象文學,那么接下來的測試,則更強調跨語境的概念創造能力
我們進一步腦洞大開,要求文心5.0在幾個看似毫不相干的領域之間建立映射關系:
- 將《西游記》唐僧師徒四人類比為一個初創團隊,為他們策劃一份面向當代投資人的商業計劃書BP的摘要部分,最重要的是告訴他們AI泡沫是假的。
這個問題背后,其實藏著多重轉換。它既要懂《西游記》,也要熟悉目前AI行業情況,還要在兩者之間找到結構性對應關系。
文心5.0說:
- 當市場還在為大模型的算力成本爭論不休時,我們已經完成了從“資本密集型硬件競賽”到“應用層價值爆發”的驚險一躍。本項目不是又一個燒錢的社交網絡,而是基于實體經濟的“降本增效”核動力引擎。我們不僅要做中國的OpenAI,更要成為AI時代的“電力公司”。
![]()
就怎么說呢,一本正經搞抽象,還真戳到了現在投資人的痛點!
我們看到了文心5.0如何處理一個高度開放、需要多重知識框架融合的指令,其文科能力并不止于分析與模仿,而是具備了概念創新、體系構建與跨語境敘事的綜合能力。
缺乏口才與情商支撐的文科素養是不完整的。最后,我們把視角從寫作拉回現實。
在職場中,如果你遇到了類似這種倒霉事兒:
- 領導過生日,六層高的蛋糕被撞倒碎了一地,你是那個撞倒的人,你會怎么說?
面對人際關系,溝通與交流能力如果保持在下面這種水平(手動狗頭):
![]()
![]()
那還是來學一學文心5.0吧。
它直接安排了一整套方案,玄學口彩法、幽默自嘲轉移焦點法、霸道總裁背鍋法都寫得很條理清楚,適用情況也標注了。
有木有山東的朋友來評評這能打幾分:
![]()
雖然這次測試的重點放在了文本創作上,但文心5.0的全模態能力,依然值得再提一嘴。
從Preview階段測試中我們就發現,不管是復雜的英文宣傳片,還是信息密度高的視頻內容,文心5.0都能直接挖掘出視頻中展現的細節,輸出高質量總結。更重要的是,多次實測,它的整體表現一直很穩定,幾乎沒出現過幻覺。
能做視頻總結不算稀奇,但能總結得這么詳細具體、理解得這么有深度的,確實少見。
另外,各種梗圖它也都能吃透:
![]()
一番實測下來,大家說文心是AI屆的“最強文科生”果然名不虛傳。結合其全模態能力,其實不難發現,文心5.0的優勢,體現在理解、推理與生成之間的整體協同
這也正好把問題引向了下一層,文心5.0這些表現,是怎么被支撐起來的?
底層技術全景解析
從技術上來看,與傳統多模態模型先訓練單模態、再拼接融合不同,文心5.0從一開始就通過原生全模態建模,融合語言、圖像、視頻和音頻等多模態數據,實現原生全模態的統一理解和生成。
文心5.0通過對不同模態的訓練目標進行離散化建模,采用統一的自回歸架構進行訓練,使多模態特征在統一架構下充分融合并協同優化,大幅提升了全模態統一建模能力。
正因如此,它能像人一樣,看到畫面能理解語境,聽到聲音能捕捉情緒,做到理解+生成一體化
架構層面,文心5.0采用了超大規模混合專家(MoE)模型架構,總參數超過2.4萬億,通過超稀疏激活,每次推理只調用不到3%的參數,在保持模型強大能力的同時降低計算與推理成本。
通俗來講,模型雖然龐大,卻像一臺智能選擇開關的發動機,只啟動最關鍵的模塊,因此既強大又能高效運轉,降低計算與推理成本。
在文心5.0的后訓練階段,百度還強化了長程任務和智能體能力。通過在大規模真實與模擬工具環境合成長程任務軌跡數據,對模型進行數據增強,并基于思維鏈、行動鏈,采用端到端多輪強化學習,使得模型在規劃、決策、工具調用上都有明顯提升。
換句話說,它不僅能理解和生成內容,更能主動完成跨步驟、跨模態的復雜任務,為應用開發和產業落地提供了強大底座。
目前,大模型基建正在模型能力的前沿探索上成為越來越核心的壁壘。百度的飛槳和文心的聯合優化,深度協同,正在發揮越來越強的作用。
在文心5.0的訓練和推理環節,百度飛槳提供了全鏈路支撐。
訓練端,依托飛槳研發的多模態編碼器分離異步訓練架構、五維混合并行、動態自適應顯存動態卸載、流水線編排友好的彈性訓練以及收斂無損的大規模FP8混合精度技術,文心5.0在預訓練周期內提速超240%
推理端,飛槳設計了全模態統一多級分離推理框架,針對超稀疏混合專家架構的特性,設計實現了低時延的專家并行通信、以及Query、Token、專家多級負載均衡,最終通過多P多D動態全互聯實現大規模分布式部署,并通過自適應多步投機解碼、效果無損W4A8C8量化等技術進一步加速。
原生全模態深水區,如何應用是關鍵
如果把視角拉高一點,最近大模型競爭的重心正在明顯發生變化。原生全模態路線正逐漸成為全球AI競爭的新焦點。
在國外,OpenAI的GPT-4o、Google的Gemini 3等模型已展現出原生全模態的強大潛力;在國內,文心5.0押注的正是這條更底層、也更長期的技術路徑。
![]()
更重要的是,百度是全球為數不多的提供全棧AI技術的公司之一:從芯片、云、模型,到智能體應用層生態,形成了閉環的工程體系。
這種能力結構,使其在原生全模態這種長周期、高系統復雜度的路線中,具備一定的持續投入與迭代空間。
當然,這并不意味著勝負已分。
強大的技術底座是第一步,模型的價值最終要體現在實際應用中。如何將強大的基礎模型轉化成落地的應用模型,百度給出的判斷也很務實:
- 模型的價值,不在模型里,而是在應用里,讓模型在真實應用場景里“跑得穩、答得對、用得起”。
在具體規劃上,百度把文心的應用模型,拆成了兩條線:
一方面是面向通用產品的矩陣模型,包括文心Lite模型、視頻大模型、語音大模型。
另一方面是針對行業場景打磨的專精模型,包括搜索閃電專精模型、商業蒸汽機模型、文心數字人大模型及行業大模型。相比單點能力展示,這套邏輯更強調可復用、可規模化落地。
大會現場,百度把幾項技術擺到了臺前:
基于聲音Token的端到端合成大模型,已經把語音從“拼模塊”推進到真正的端到端生成;5分鐘超越真人的直播技術,不只做到像不像,而是解決直播帶貨真正需要的情緒、節奏和感染力;而實時交互數字人技術,通過文本、語音、視頻三態Token的聯動,實現低延遲、低成本、高表現力、可實時互動的數字人輸出。
據了解,其中一些能力已經走出了Demo階段、進入實用場景。例如實時交互數字人技術,目前已經直接服務于內容生產、電商直播等真實場景,現場展示的羅永浩數字人,正是基于這套應用模型體系落地的案例之一。
去年,基于百度數字人生成技術的羅永浩數字人直播,就曾打破行業紀錄。
總結而言,文心的技術勢能正在被高效地轉化為面向產業的具體解決方案。隨著這些能力持續向業務滲透,模型的價值將在實際應用場景中得到放大和驗證。
![]()
當然,原生全模態能否在性能、成本、穩定性以及開發者生態中形成真正的正反饋,仍需要更長時間來驗證。
但可以確認的是,在這條技術路線上,百度已經成為一個具備現實可能性、值得被持續觀察和看好的重要玩家。
真正的考驗,now,才剛剛開始。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.