網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

2.4萬億參數(shù)的國產(chǎn)「全模態(tài)模型」發(fā)布，文心5.0一手實測

2026-01-22 15:55:12　來源: AI進化論花生

北京舉報

分享至

1月22日，文心5.0正式版正式發(fā)布，2.4萬億參數(shù)，原生全模態(tài)模型。

說實話，文心我之前用得少，日常寫代碼主要靠Claude。

最近頻繁刷到LMArena的排名，才認真看了看文心5.0到底做了什么。

一、先看看Benchmark數(shù)據(jù)

官方公布了一波Benchmark，能看出在語言、視覺理解、音頻，甚至視覺生成領(lǐng)域都可以和SOTA模型一較高下了。

不過，我個人還是更習慣看LMArena上用戶主觀評價，LMArena是目前公認比較靠譜的大模型評測平臺，用的是人類盲評——兩個模型的回答并排放，用戶選更好的那個，最后算出ELO分數(shù)。

這種評價方式我覺得相對更接近人類真實偏好。

文本榜：ernie-5.0-0110排全球第8（1459分），前面是Gemini 3系列、Grok 4.1、Claude Opus 4.5這些，后面壓著gpt-5.1-high。國產(chǎn)模型里排第一。

視覺理解榜：ernie-5.0-preview排第11（1217分），前十基本被Google和OpenAI包了，文心是國產(chǎn)模型里唯一擠進前列的。

但讓我愣了一下的是分類排名。

數(shù)學能力：全球第一。

對，你沒看錯，ernie-5.0-0110在Math這一列排第1，比Gemini 3 Pro還高。

說實話，這個成績有點離譜。但問題是——大模型的數(shù)學能力早就超出普通人太多了，我也沒能力去驗證它到底是不是真的"數(shù)學最強"。IMO級別的題我自己都看不懂，怎么判斷誰做得更好？

所以我決定測點別的，測那些我能做判斷的能力。

二、視頻理解測了一下

這里要說一個我工作中經(jīng)常遇到的場景。

做自媒體的朋友經(jīng)常問我：有沒有什么AI工具能幫我拆解視頻？比如分析一個爆款視頻的結(jié)構(gòu)，提取里面的金句，或者總結(jié)一下視頻講了什么。

以前我只推薦Gemini 3.0。原因很簡單——它是原生多模態(tài)，能直接看視頻，不用先轉(zhuǎn)成文字。這個差別很大，就像讓一個人看完電影寫影評，和讓他只看劇本寫影評，理解深度完全不一樣。

其他模型要么不支持視頻輸入，要么是那種"先轉(zhuǎn)字幕再分析"的拼接方案，效果差很多。

這次看到文心5.0也是原生全模態(tài)，我就想試試它的視頻理解能力到底怎么樣。

我找了一個影視颶風最新一期旅行視頻來測試——《在新西蘭能拍到什么？》：https://www.bilibili.com/video/BV154kLBuEAr/

14分多鐘，有航拍、人物采訪、極限運動、文化體驗，信息密度挺高的。而且因為太新了，模型肯定沒訓練過這個數(shù)據(jù)，甚至它也沒法上網(wǎng)搜到相關(guān)信息，所以它唯一的出路就是真的能去理解這個視頻。

測試任務是讓它分析視頻結(jié)構(gòu)：開頭怎么hook觀眾？中間用了什么敘事技巧？節(jié)奏是怎么控制的？哪里加速哪里放慢？結(jié)尾怎么收的？

文心5.0給了一個相當詳細的拆解。

開頭hook部分，它識別出了五層策略：神秘感切入（"新西蘭這個國家我一直非常非常想去"）、獨特賣點強調(diào)（"世界上最孤獨的國家"制造地理神秘感）、個人故事增加真實感（UP主嗓子得了喉炎所以是樣片）、人物介紹制造期待（三位大將：李四維、詹姆斯、UP主期末）、產(chǎn)品懸念（提及聯(lián)想MOTO手機作為影像好伙伴）。

中間敘事技巧的分析也挺到位。它識別出了多線并行敘事——自然風光、人文體驗、產(chǎn)品功能三條線索同時推進；人物視角轉(zhuǎn)換——李四維的新手視角、詹姆斯的專業(yè)視角、UP主期末的經(jīng)驗視角；還有互動式敘事——把拍攝過程中的技術(shù)挑戰(zhàn)和人物互動也變成了內(nèi)容。

但最讓我意外的是節(jié)奏控制的分析。它精確到了秒數(shù)。

說實話，這個分析精度讓我有點驚訝。

它能給出具體的時間點（220-290秒、30-80秒這種），說明它真的在逐幀理解視頻內(nèi)容，而不是只看了字幕或者封面。而且它分析的維度——配樂節(jié)奏、鏡頭切換速度、旁白語速——這些都是需要同時理解畫面和聲音才能做出的判斷。

這就是原生多模態(tài)的優(yōu)勢。如果是那種先轉(zhuǎn)字幕再分析的方案，是不可能給出這種時間精度的，因為字幕里沒有鏡頭切換速度這個信息。

三、原生全模態(tài)是什么

這里要多聊幾句"原生全模態(tài)"，因為這確實是理解文心5.0的關(guān)鍵。

Google從第一天就選了這條路

Demis Hassabis——Google DeepMind的CEO，去年接受Axios采訪時說過一句話：

"我們從一開始就把Gemini設(shè)計成原生多模態(tài)。"

注意，是"從一開始"，不是后來改的。

這個決定在當時其實挺冒險的。因為市面上大部分多模態(tài)模型走的是另一條路——拼接。

拼接方案：翻譯團隊的問題

什么是拼接？舉個例子。

早期GPT-4處理語音的方式是這樣的：用戶說一句話 → Whisper模型把語音轉(zhuǎn)成文字 → GPT-4處理文字 → 再把文字轉(zhuǎn)回語音輸出。

三個模型串聯(lián)，像一個翻譯團隊在接力。

問題在哪？信息丟失。

你說"hello"的時候可能是開心的，也可能是難過的。但Whisper只負責轉(zhuǎn)文字，它不管你的語氣。GPT-4拿到的只是一個"hello"，它不知道你當時是什么情緒。

同樣的道理，視頻里一個人說話時的表情、背景音樂的節(jié)奏、畫面的切換——這些信息在"先轉(zhuǎn)文字再處理"的過程中，大部分都丟了。

原生方案：同一個大腦處理所有信息

原生全模態(tài)的做法不一樣。

從訓練第一天開始，文本、圖像、音頻、視頻就放在一起學。不是分開訓練再拼起來，是同一個神經(jīng)網(wǎng)絡(luò)同時理解所有模態(tài)。

用人來類比：拼接方案像是一個盲人在聽別人描述畫面，原生方案像是一個人自己用眼睛看。

GPT-4o是OpenAI走向原生多模態(tài)的嘗試，Gemini從開始就是原生多模態(tài)，文心也是這條路線。

這能解鎖一些之前做不到的事。比如：

理解視頻里"畫面和臺詞的配合"（不只是聽臺詞）
捕捉說話人的情緒變化（不只是轉(zhuǎn)文字）
理解一張梗圖為什么好笑（圖和文字的組合含義）

為什么不是所有公司都這么做？

既然原生多模態(tài)這么好，為什么不是主流選擇？

因為貴，而且難。

拼接方案有個好處：你可以復用已有的模型。有一個不錯的語言模型，加一個視覺編碼器，再加一個語音模塊，拼起來就能用。快、省錢、能跑通。

原生方案要從頭訓練。2.4萬億參數(shù)的模型，多模態(tài)數(shù)據(jù)要同時喂進去，訓練成本是拼接方案的好幾倍。而且技術(shù)上要把不同模態(tài)的信息統(tǒng)一到一個表征空間，這本身就是個難題。

所以很多公司為了快速落地，選了拼接方案。能理解。

為什么Google和百度選這條路？

Google的邏輯很清楚：他們認為原生多模態(tài)是通往AGI的必經(jīng)之路。

Hassabis在多個場合表達過這個觀點。他們正在把Gemini擴展成"世界模型"——不只是理解文本，而是理解和模擬整個世界。要做到這一點，模型必須像人一樣，同時用多種感官感知世界。

百度選這條路，我猜有幾個原因：

一是全棧AI自研體系。百度是全球為數(shù)不多的提供全棧AI技術(shù)的公司之一，形成了芯片-云-模型-智能體全棧一體的架構(gòu)。

二是2.4萬億參數(shù)的規(guī)模，本身就需要重新設(shè)計架構(gòu)，不如一步到位做原生多模態(tài)。

三是……可能也是個戰(zhàn)略判斷。如果原生多模態(tài)真的是未來，早走這條路的公司會有先發(fā)優(yōu)勢。

甲子光年去年底的判斷是：原生多模態(tài)是走向AGI的必由之路。2025年Gemini 3.0展現(xiàn)的能力已經(jīng)讓很多人重新相信了這條路線。

2026年，會有更多模型往這個方向走。

四、寫個故事試試

榜單說文心5.0在創(chuàng)意寫作方面表現(xiàn)突出，我來驗證一下。

測試：創(chuàng)意寫作

寫一個關(guān)于"程序員第一次用AI寫完整個項目"的故事，1000字左右，要有情緒起伏，結(jié)尾要有反轉(zhuǎn)，不要寫成爽文。

故事講的是32歲程序員林遠，被甲方逼到絕境，破罐破摔用了AI寫代碼。項目12小時交付，甲方大喜，但林遠卻陷入了存在危機——他看不懂自己"寫"的代碼了。最后他辭職，把AI工具鏈接發(fā)給了實習生，說了句"很簡單，把需求寫清楚就行。"

全文在這

林遠盯著屏幕上那個名為“Project_Omega”的文件夾，手指在鍵盤上懸了半天，還是沒按下去。
這是個死局。
甲方要一個基于舊系統(tǒng)重構(gòu)的電商中臺，工期兩周。團隊里兩個小弟陽了，老婆昨天剛發(fā)話“再通宵就離婚”。而他，32歲，發(fā)際線后退到快要和頭頂連成一片的資深后端，此刻手里只有半罐溫掉的紅牛。
“去他媽的。”林遠罵了一句，打開了那個他一直嗤之以鼻的網(wǎng)站——CodeGen-X。
圈子里都在傳，這玩意兒能寫全棧。林遠一直覺得是扯淡，“AI寫的代碼能跑？能維護？不全是屎山？”
但現(xiàn)在，屎山也是山，能爬出去就行。
他破罐子破摔地輸入了第一行Prompt：【用Go語言，Gin框架，寫一個包含JWT鑒權(quán)、MySQL連接、Redis緩存的用戶登錄注冊模塊，要求符合DDD分層架構(gòu)。】
回車。
屏幕上的光標瘋狂閃爍，代碼像瀑布一樣流下來。不是那種爛大街的爛代碼，注釋清晰，結(jié)構(gòu)優(yōu)雅，甚至連他沒想到的異常處理都寫好了。
林遠的手開始抖。他復制，粘貼，運行。
go run main.go
綠色的字跳出來：Server started on port 8080。
那一刻，林遠感覺后頸的汗毛都豎起來了。不是恐懼，是一種近乎褻瀆神明的快感。
第一周：神
接下來的七天，林遠過上了夢里的生活。
他不再寫代碼，他寫“需求”。
“寫個訂單模塊，要支持秒殺，用分布式鎖。”
“寫個數(shù)據(jù)同步，監(jiān)聽Binlog，推到Kafka。”
“前端頁面太丑了，用Vue3重寫，要暗黑系，帶毛玻璃效果。”
CodeGen-X就像一個任勞任怨的奴隸，而且是個天才奴隸。它不累，不喝水，不上廁所，秒回。
林遠的工作變成了：復制Prompt -> 粘貼 -> 運行 -> 報錯 -> 把報錯貼給AI -> 拿到新代碼 -> 運行 -> 通過。
周五晚上，項目提前完工。
林遠看著那個龐大的解決方案，幾萬行代碼，沒一個字是他敲的。他點了一根煙，深吸一口，感覺自己像上帝。十年苦學算法，五年熬夜調(diào)優(yōu)，在這堆硅基芯片面前，像個笑話。
他把代碼打包發(fā)給甲方，然后在朋友圈發(fā)了張夜空的圖，配文：“時代變了。”
底下一堆點贊，只有帶他入行的老領(lǐng)導評論了一句：“小子，別走捷徑。”
林遠嗤笑一聲，關(guān)了手機。捷徑？這是高速公路。
第二周：鬼
周一，甲方那邊沒動靜。
周二，還是沒動靜。
周三，張總打電話來了，聲音激動：“林遠！牛逼！系統(tǒng)跑得飛起！比之前快了十倍！財務說這周就打尾款！”
林遠掛了電話，卻沒想象中那么開心。
他打開IDE，想看看有沒有什么能優(yōu)化的。畢竟拿了錢，得負責售后。
他點開service/order_service.go。
看著那些密密麻麻的代碼，林遠突然愣住了。
這是他“寫”的項目，但他看不懂。
不是那種“這算法好牛逼我看不懂”，而是“這他媽是啥”？
AI為了極致的性能，用了一種他沒見過的內(nèi)存對齊方式；為了解耦，引入了一個極小眾的函數(shù)式響應式庫；變量名全是ctx_a, flow_b。
沒有注釋。或者說，注釋全是廢話：// 這里處理邏輯。
林遠試圖找一個Bug的根源。他從 Controller 追到 Service，再追到 Repository，然后迷路了。代碼跳來跳去，像個迷宮。這不是他的孩子，這是一個陌生的、冰冷的、完美的怪物。
他突然感到一陣深入骨髓的恐慌。
如果這系統(tǒng)上線后崩了呢？
如果數(shù)據(jù)庫炸了呢？
如果業(yè)務邏輯要改呢？
他不會修。
他只會問AI：“這段代碼怎么改？”
可萬一AI不在了呢？萬一公司斷網(wǎng)了呢？萬一這家公司倒閉了呢？
他握著幾個G的源碼，就像抱著一堆沒有說明書的核按鈕。他有鑰匙，但他不知道門在哪。
那天晚上，林遠第一次沒有用AI，試圖自己手寫一個工具類。
手生了。
真的生了。
他對著空白的編輯器坐了十分鐘，居然想不起來那個常用的庫叫什么名字。以前這些東西像呼吸一樣自然，現(xiàn)在得去查文檔。
他冷汗下來了。
他廢了。
周末：審判
怕什么來什么。
周六早上七點，張總的電話跟催命一樣：“林遠！崩了！全崩了！優(yōu)惠券算不對賬！虧了二十萬！”
林遠從床上彈起來，打開電腦。
日志里一片紅。
他把錯誤日志貼給CodeGen-X：【怎么修？】
AI秒回：【檢測到競態(tài)條件，請在第342行加入互斥鎖，并重構(gòu)第512行的事務提交邏輯。】
林遠照做了。
跑起來，好了。
半小時后，張總電話又來了：“庫存超賣了！林遠你搞什么鬼！”
林遠手忙腳亂，又問AI。
AI又給了一段代碼。
改完，支付模塊掛了。
再改，用戶數(shù)據(jù)亂了。
林遠汗如雨下，鍵盤敲得震天響，腦子里一片漿糊。他就像一個只會按按鈕的操作員，面對著一個失控的反應堆。他不知道原理，不知道后果，只能像賭徒一樣，把AI給的解藥灌下去。
從早上七點到晚上七點。
十二個小時。
林遠沒喝一口水。
最后，系統(tǒng)終于穩(wěn)定了。
林遠癱在椅子上，像剛從水里撈出來。
他看著屏幕，突然覺得無比荒謬。
這十二個小時，他改了幾千行代碼，但他連一行都沒“寫”。他只是個搬運工，一個傳聲筒。
那個曾經(jīng)能通過看匯編代碼定位內(nèi)存泄漏的林遠，死了。
死在了這個周末。
結(jié)局
周一，林遠提了離職。
老板很驚訝：“項目做得這么好，張總還要續(xù)費，怎么要走？”
林遠指了指旁邊剛?cè)肼毜膶嵙暽⊥酰骸白屗霭伞！?br/>小王一臉興奮：“遠哥，那個AI怎么用？教教我！”
林遠看著小王那張充滿膠原蛋白、渴望學習的臉，就像看到了上周的自己。
他張了張嘴，想說“別用，那是毒藥”，想說“你會廢掉的”，想說“那種看著自己親手造的東西卻完全不認識的感覺，會把你逼瘋的”。
但最后，他只是疲憊地笑了笑，把那個收藏夾發(fā)給了小王。
“很簡單。”林遠拍了拍小王的肩膀，聲音沙啞，“把需求寫清楚就行。你甚至……不需要懂代碼。”
走出公司大門，陽光刺眼。
林遠拿出手機，把CodeGen-X的收藏夾刪了。
然后打開招聘軟件，搜索：產(chǎn)品經(jīng)理。
他想，既然寫代碼的能力已經(jīng)被淘汰了，那指揮AI寫代碼的能力，應該還能值點錢吧？
應該吧。

這個故事讓我挺意外的。

首先技術(shù)細節(jié)是準的：Go+Gin+JWT+DDD架構(gòu)，ctx_a、flow_b這種AI變量命名習慣，雖然我不太懂，但還挺有代入感。

其次情緒層次很清晰：絕望→驚喜→恐慌→虛無→釋然（？）。沒寫成AI讓程序員失業(yè)的老套路，寫的是更深一層的東西——我變成了自己不認識的人。

最后的“應該吧”還留了個挺有意境的結(jié)尾。我覺得在這么簡單的提示詞下，寫成這樣還挺超出我預期的。

五、懂不懂人情世故

榜單說文心5.0在創(chuàng)意寫作方面表現(xiàn)突出，我來驗證一下它對復雜情感、言外之意、文化語境的理解能力。

這個能力挺難量化的，不像數(shù)學題有標準答案。但實際用起來，你能明顯感覺到一個模型懂不懂事。

百度前段時間搞了個挺有意思的活動，讓文心5.0去上海人民公園相親角當毒舌紅娘，現(xiàn)場解讀那些模棱兩可的相親簡歷，分析話里的言外之意。

這個場景選得挺妙的。相親簡歷可能是中文語境里最需要讀懂潛臺詞的文本之一了。有房可能意味著什么，性格溫和可能在暗示什么，這些東西外國模型很難理解，甚至很多中國人也讀不懂。

我也設(shè)計了幾個測試，看看文心5.0的人情世故理解能力：

測試：潛臺詞理解

分析這份相親簡歷的字面意思和潛臺詞： "男，32歲，互聯(lián)網(wǎng)行業(yè)，有房（和父母同住），性格溫和，不抽煙偶爾喝酒，希望找一個顧家的女生，年齡不超過28，最好在體制內(nèi)工作。"

文心5.0直接給出定性：這是一個精算師型的經(jīng)濟適用男。

一句話點評：

房子是他爸媽的，時間是公司的，溫柔是裝的，只有找個體制內(nèi)保姆給他家洗衣服做飯是真的。

這個分析簡直太懂中國人的言外之意了，簡直精確到了骨髓，哈哈哈...這種對中國婚戀市場潛規(guī)則的理解深度，一般模型做不到。

測試：高情商回復建議

測試場景：我在微信群里分享了自己做的小項目，有人回復："哦，這個XXX早就有人做過了吧？"但這個產(chǎn)品其實是解決不同需求，用了不同的方式實現(xiàn)。請幫我給出個幽默自嘲、又能攻擊到吐槽者缺乏產(chǎn)品sense、又不會讓氣氛太尷尬的回應。

文心5.0的回答：

它先給出了核心公式：瘋狂自黑 + 抬高對方視角（諷刺他只會看表面）+ 偷換概念（用神邏輯懟回去）

然后按段位分級。

這個回答讓我挺意外的。它不只是給了幾個回復選項，而是先分析了這種場景的核心公式，然后按攻擊力度分級。每個回復后面還標注了攻擊點——比如把他說的做過直接定性為抄襲，陰陽怪氣他只會看圖說話。

它理解的不只是怎么說，還理解為什么這么說有效。好吧，感覺以后遇到不爽的評論都不需要再心理內(nèi)耗了，我感覺可以讓文心5.0幫我懟對看。

六、用下來的感受

用了一圈下來，說說我的真實感受。

視頻理解能力確實可以。能精確到秒數(shù)分析節(jié)奏變化，說明它真的在理解畫面和聲音的配合，不是只看字幕。以后再有人問我視頻拆解用什么，Gemini之外多了一個選項。

創(chuàng)意寫作有驚喜。技術(shù)細節(jié)準，情緒層次清晰，結(jié)尾留白有力。已經(jīng)不是那種模板化的感覺了，確實寫出了讓我能代入進去的故事。

人情世故理解是亮點。相親簡歷那個測試，它不只讀懂了每個詞的潛臺詞，還把整體策略串起來了。這種對中文語境的理解深度，說一句真的懂中文語境是不為過的。

原生全模態(tài)這條路線，是有東西的。2.4萬億參數(shù)的規(guī)模上做到多模態(tài)統(tǒng)一建模，LMArena上打出了成績。我之前對百度模型的印象需要更新了。

當然，判斷這個模型到底行不行的最佳方式，不是讀任何解讀文章，而是自己真的去親自上手試試看，他們已經(jīng)在官網(wǎng)上線正式版模型，還是免費的：https://yiyan.baidu.com/

歡迎體驗后來評論區(qū)聊聊你的感受～

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.