1月22日,文心5.0正式版正式發(fā)布,2.4萬億參數(shù),原生全模態(tài)模型。
![]()
說實話,文心我之前用得少,日常寫代碼主要靠Claude。
最近頻繁刷到LMArena的排名,才認真看了看文心5.0到底做了什么。
一、先看看Benchmark數(shù)據(jù)
官方公布了一波Benchmark,能看出在語言、視覺理解、音頻,甚至視覺生成領(lǐng)域都可以和SOTA模型一較高下了。
![]()
不過,我個人還是更習慣看LMArena上用戶主觀評價,LMArena是目前公認比較靠譜的大模型評測平臺,用的是人類盲評——兩個模型的回答并排放,用戶選更好的那個,最后算出ELO分數(shù)。
這種評價方式我覺得相對更接近人類真實偏好。
![]()
文本榜:ernie-5.0-0110排全球第8(1459分),前面是Gemini 3系列、Grok 4.1、Claude Opus 4.5這些,后面壓著gpt-5.1-high。國產(chǎn)模型里排第一。
視覺理解榜:ernie-5.0-preview排第11(1217分),前十基本被Google和OpenAI包了,文心是國產(chǎn)模型里唯一擠進前列的。
![]()
但讓我愣了一下的是分類排名。
![]()
數(shù)學能力:全球第一。
對,你沒看錯,ernie-5.0-0110在Math這一列排第1,比Gemini 3 Pro還高。
說實話,這個成績有點離譜。但問題是——大模型的數(shù)學能力早就超出普通人太多了,我也沒能力去驗證它到底是不是真的"數(shù)學最強"。IMO級別的題我自己都看不懂,怎么判斷誰做得更好?
所以我決定測點別的,測那些我能做判斷的能力。
二、視頻理解測了一下
這里要說一個我工作中經(jīng)常遇到的場景。
做自媒體的朋友經(jīng)常問我:有沒有什么AI工具能幫我拆解視頻?比如分析一個爆款視頻的結(jié)構(gòu),提取里面的金句,或者總結(jié)一下視頻講了什么。
以前我只推薦Gemini 3.0。原因很簡單——它是原生多模態(tài),能直接看視頻,不用先轉(zhuǎn)成文字。這個差別很大,就像讓一個人看完電影寫影評,和讓他只看劇本寫影評,理解深度完全不一樣。
其他模型要么不支持視頻輸入,要么是那種"先轉(zhuǎn)字幕再分析"的拼接方案,效果差很多。
這次看到文心5.0也是原生全模態(tài),我就想試試它的視頻理解能力到底怎么樣。
我找了一個影視颶風最新一期旅行視頻來測試——《在新西蘭能拍到什么?》:https://www.bilibili.com/video/BV154kLBuEAr/
![]()
14分多鐘,有航拍、人物采訪、極限運動、文化體驗,信息密度挺高的。而且因為太新了,模型肯定沒訓練過這個數(shù)據(jù),甚至它也沒法上網(wǎng)搜到相關(guān)信息,所以它唯一的出路就是真的能去理解這個視頻。
測試任務是讓它分析視頻結(jié)構(gòu):開頭怎么hook觀眾?中間用了什么敘事技巧?節(jié)奏是怎么控制的?哪里加速哪里放慢?結(jié)尾怎么收的?
![]()
文心5.0給了一個相當詳細的拆解。
開頭hook部分,它識別出了五層策略:神秘感切入("新西蘭這個國家我一直非常非常想去")、獨特賣點強調(diào)("世界上最孤獨的國家"制造地理神秘感)、個人故事增加真實感(UP主嗓子得了喉炎所以是樣片)、人物介紹制造期待(三位大將:李四維、詹姆斯、UP主期末)、產(chǎn)品懸念(提及聯(lián)想MOTO手機作為影像好伙伴)。
![]()
中間敘事技巧的分析也挺到位。它識別出了多線并行敘事——自然風光、人文體驗、產(chǎn)品功能三條線索同時推進;人物視角轉(zhuǎn)換——李四維的新手視角、詹姆斯的專業(yè)視角、UP主期末的經(jīng)驗視角;還有互動式敘事——把拍攝過程中的技術(shù)挑戰(zhàn)和人物互動也變成了內(nèi)容。
![]()
但最讓我意外的是節(jié)奏控制的分析。它精確到了秒數(shù)。
![]()
說實話,這個分析精度讓我有點驚訝。
它能給出具體的時間點(220-290秒、30-80秒這種),說明它真的在逐幀理解視頻內(nèi)容,而不是只看了字幕或者封面。而且它分析的維度——配樂節(jié)奏、鏡頭切換速度、旁白語速——這些都是需要同時理解畫面和聲音才能做出的判斷。
這就是原生多模態(tài)的優(yōu)勢。如果是那種先轉(zhuǎn)字幕再分析的方案,是不可能給出這種時間精度的,因為字幕里沒有鏡頭切換速度這個信息。
三、原生全模態(tài)是什么
這里要多聊幾句"原生全模態(tài)",因為這確實是理解文心5.0的關(guān)鍵。
Google從第一天就選了這條路
Demis Hassabis——Google DeepMind的CEO,去年接受Axios采訪時說過一句話:
"我們從一開始就把Gemini設(shè)計成原生多模態(tài)。"
注意,是"從一開始",不是后來改的。
這個決定在當時其實挺冒險的。因為市面上大部分多模態(tài)模型走的是另一條路——拼接。
拼接方案:翻譯團隊的問題
什么是拼接?舉個例子。
早期GPT-4處理語音的方式是這樣的:用戶說一句話 → Whisper模型把語音轉(zhuǎn)成文字 → GPT-4處理文字 → 再把文字轉(zhuǎn)回語音輸出。
三個模型串聯(lián),像一個翻譯團隊在接力。
問題在哪?信息丟失。
你說"hello"的時候可能是開心的,也可能是難過的。但Whisper只負責轉(zhuǎn)文字,它不管你的語氣。GPT-4拿到的只是一個"hello",它不知道你當時是什么情緒。
同樣的道理,視頻里一個人說話時的表情、背景音樂的節(jié)奏、畫面的切換——這些信息在"先轉(zhuǎn)文字再處理"的過程中,大部分都丟了。
原生方案:同一個大腦處理所有信息
原生全模態(tài)的做法不一樣。
從訓練第一天開始,文本、圖像、音頻、視頻就放在一起學。不是分開訓練再拼起來,是同一個神經(jīng)網(wǎng)絡(luò)同時理解所有模態(tài)。
用人來類比:拼接方案像是一個盲人在聽別人描述畫面,原生方案像是一個人自己用眼睛看。
GPT-4o是OpenAI走向原生多模態(tài)的嘗試,Gemini從開始就是原生多模態(tài),文心也是這條路線。
這能解鎖一些之前做不到的事。比如:
理解視頻里"畫面和臺詞的配合"(不只是聽臺詞)
捕捉說話人的情緒變化(不只是轉(zhuǎn)文字)
理解一張梗圖為什么好笑(圖和文字的組合含義)
既然原生多模態(tài)這么好,為什么不是主流選擇?
因為貴,而且難。
拼接方案有個好處:你可以復用已有的模型。有一個不錯的語言模型,加一個視覺編碼器,再加一個語音模塊,拼起來就能用。快、省錢、能跑通。
原生方案要從頭訓練。2.4萬億參數(shù)的模型,多模態(tài)數(shù)據(jù)要同時喂進去,訓練成本是拼接方案的好幾倍。而且技術(shù)上要把不同模態(tài)的信息統(tǒng)一到一個表征空間,這本身就是個難題。
所以很多公司為了快速落地,選了拼接方案。能理解。
為什么Google和百度選這條路?
Google的邏輯很清楚:他們認為原生多模態(tài)是通往AGI的必經(jīng)之路。
Hassabis在多個場合表達過這個觀點。他們正在把Gemini擴展成"世界模型"——不只是理解文本,而是理解和模擬整個世界。要做到這一點,模型必須像人一樣,同時用多種感官感知世界。
百度選這條路,我猜有幾個原因:
一是全棧AI自研體系。百度是全球為數(shù)不多的提供全棧AI技術(shù)的公司之一,形成了芯片-云-模型-智能體全棧一體的架構(gòu)。
二是2.4萬億參數(shù)的規(guī)模,本身就需要重新設(shè)計架構(gòu),不如一步到位做原生多模態(tài)。
三是……可能也是個戰(zhàn)略判斷。如果原生多模態(tài)真的是未來,早走這條路的公司會有先發(fā)優(yōu)勢。
甲子光年去年底的判斷是:原生多模態(tài)是走向AGI的必由之路。2025年Gemini 3.0展現(xiàn)的能力已經(jīng)讓很多人重新相信了這條路線。
2026年,會有更多模型往這個方向走。
四、寫個故事試試
榜單說文心5.0在創(chuàng)意寫作方面表現(xiàn)突出,我來驗證一下。
測試:創(chuàng)意寫作
寫一個關(guān)于"程序員第一次用AI寫完整個項目"的故事,1000字左右,要有情緒起伏,結(jié)尾要有反轉(zhuǎn),不要寫成爽文。
![]()
故事講的是32歲程序員林遠,被甲方逼到絕境,破罐破摔用了AI寫代碼。項目12小時交付,甲方大喜,但林遠卻陷入了存在危機——他看不懂自己"寫"的代碼了。最后他辭職,把AI工具鏈接發(fā)給了實習生,說了句"很簡單,把需求寫清楚就行。"
全文在這
林遠盯著屏幕上那個名為“Project_Omega”的文件夾,手指在鍵盤上懸了半天,還是沒按下去。
這是個死局。
甲方要一個基于舊系統(tǒng)重構(gòu)的電商中臺,工期兩周。團隊里兩個小弟陽了,老婆昨天剛發(fā)話“再通宵就離婚”。而他,32歲,發(fā)際線后退到快要和頭頂連成一片的資深后端,此刻手里只有半罐溫掉的紅牛。
“去他媽的。”林遠罵了一句,打開了那個他一直嗤之以鼻的網(wǎng)站——CodeGen-X。
圈子里都在傳,這玩意兒能寫全棧。林遠一直覺得是扯淡,“AI寫的代碼能跑?能維護?不全是屎山?”
但現(xiàn)在,屎山也是山,能爬出去就行。
他破罐子破摔地輸入了第一行Prompt:【用Go語言,Gin框架,寫一個包含JWT鑒權(quán)、MySQL連接、Redis緩存的用戶登錄注冊模塊,要求符合DDD分層架構(gòu)。】
回車。
屏幕上的光標瘋狂閃爍,代碼像瀑布一樣流下來。不是那種爛大街的爛代碼,注釋清晰,結(jié)構(gòu)優(yōu)雅,甚至連他沒想到的異常處理都寫好了。
林遠的手開始抖。他復制,粘貼,運行。
go run main.go
綠色的字跳出來:Server started on port 8080。
那一刻,林遠感覺后頸的汗毛都豎起來了。不是恐懼,是一種近乎褻瀆神明的快感。
第一周:神
接下來的七天,林遠過上了夢里的生活。
他不再寫代碼,他寫“需求”。
“寫個訂單模塊,要支持秒殺,用分布式鎖。”
“寫個數(shù)據(jù)同步,監(jiān)聽Binlog,推到Kafka。”
“前端頁面太丑了,用Vue3重寫,要暗黑系,帶毛玻璃效果。”
CodeGen-X就像一個任勞任怨的奴隸,而且是個天才奴隸。它不累,不喝水,不上廁所,秒回。
林遠的工作變成了:復制Prompt -> 粘貼 -> 運行 -> 報錯 -> 把報錯貼給AI -> 拿到新代碼 -> 運行 -> 通過。
周五晚上,項目提前完工。
林遠看著那個龐大的解決方案,幾萬行代碼,沒一個字是他敲的。他點了一根煙,深吸一口,感覺自己像上帝。十年苦學算法,五年熬夜調(diào)優(yōu),在這堆硅基芯片面前,像個笑話。
他把代碼打包發(fā)給甲方,然后在朋友圈發(fā)了張夜空的圖,配文:“時代變了。”
底下一堆點贊,只有帶他入行的老領(lǐng)導評論了一句:“小子,別走捷徑。”
林遠嗤笑一聲,關(guān)了手機。捷徑?這是高速公路。
第二周:鬼
周一,甲方那邊沒動靜。
周二,還是沒動靜。
周三,張總打電話來了,聲音激動:“林遠!牛逼!系統(tǒng)跑得飛起!比之前快了十倍!財務說這周就打尾款!”
林遠掛了電話,卻沒想象中那么開心。
他打開IDE,想看看有沒有什么能優(yōu)化的。畢竟拿了錢,得負責售后。
他點開service/order_service.go。
看著那些密密麻麻的代碼,林遠突然愣住了。
這是他“寫”的項目,但他看不懂。
不是那種“這算法好牛逼我看不懂”,而是“這他媽是啥”?
AI為了極致的性能,用了一種他沒見過的內(nèi)存對齊方式;為了解耦,引入了一個極小眾的函數(shù)式響應式庫;變量名全是ctx_a, flow_b。
沒有注釋。或者說,注釋全是廢話:// 這里處理邏輯。
林遠試圖找一個Bug的根源。他從 Controller 追到 Service,再追到 Repository,然后迷路了。代碼跳來跳去,像個迷宮。這不是他的孩子,這是一個陌生的、冰冷的、完美的怪物。
他突然感到一陣深入骨髓的恐慌。
如果這系統(tǒng)上線后崩了呢?
如果數(shù)據(jù)庫炸了呢?
如果業(yè)務邏輯要改呢?
他不會修。
他只會問AI:“這段代碼怎么改?”
可萬一AI不在了呢?萬一公司斷網(wǎng)了呢?萬一這家公司倒閉了呢?
他握著幾個G的源碼,就像抱著一堆沒有說明書的核按鈕。他有鑰匙,但他不知道門在哪。
那天晚上,林遠第一次沒有用AI,試圖自己手寫一個工具類。
手生了。
真的生了。
他對著空白的編輯器坐了十分鐘,居然想不起來那個常用的庫叫什么名字。以前這些東西像呼吸一樣自然,現(xiàn)在得去查文檔。
他冷汗下來了。
他廢了。
周末:審判
怕什么來什么。
周六早上七點,張總的電話跟催命一樣:“林遠!崩了!全崩了!優(yōu)惠券算不對賬!虧了二十萬!”
林遠從床上彈起來,打開電腦。
日志里一片紅。
他把錯誤日志貼給CodeGen-X:【怎么修?】
AI秒回:【檢測到競態(tài)條件,請在第342行加入互斥鎖,并重構(gòu)第512行的事務提交邏輯。】
林遠照做了。
跑起來,好了。
半小時后,張總電話又來了:“庫存超賣了!林遠你搞什么鬼!”
林遠手忙腳亂,又問AI。
AI又給了一段代碼。
改完,支付模塊掛了。
再改,用戶數(shù)據(jù)亂了。
林遠汗如雨下,鍵盤敲得震天響,腦子里一片漿糊。他就像一個只會按按鈕的操作員,面對著一個失控的反應堆。他不知道原理,不知道后果,只能像賭徒一樣,把AI給的解藥灌下去。
從早上七點到晚上七點。
十二個小時。
林遠沒喝一口水。
最后,系統(tǒng)終于穩(wěn)定了。
林遠癱在椅子上,像剛從水里撈出來。
他看著屏幕,突然覺得無比荒謬。
這十二個小時,他改了幾千行代碼,但他連一行都沒“寫”。他只是個搬運工,一個傳聲筒。
那個曾經(jīng)能通過看匯編代碼定位內(nèi)存泄漏的林遠,死了。
死在了這個周末。
結(jié)局
周一,林遠提了離職。
老板很驚訝:“項目做得這么好,張總還要續(xù)費,怎么要走?”
林遠指了指旁邊剛?cè)肼毜膶嵙暽⊥酰骸白屗霭伞!?br/>小王一臉興奮:“遠哥,那個AI怎么用?教教我!”
林遠看著小王那張充滿膠原蛋白、渴望學習的臉,就像看到了上周的自己。
他張了張嘴,想說“別用,那是毒藥”,想說“你會廢掉的”,想說“那種看著自己親手造的東西卻完全不認識的感覺,會把你逼瘋的”。
但最后,他只是疲憊地笑了笑,把那個收藏夾發(fā)給了小王。
“很簡單。”林遠拍了拍小王的肩膀,聲音沙啞,“把需求寫清楚就行。你甚至……不需要懂代碼。”
走出公司大門,陽光刺眼。
林遠拿出手機,把CodeGen-X的收藏夾刪了。
然后打開招聘軟件,搜索:產(chǎn)品經(jīng)理。
他想,既然寫代碼的能力已經(jīng)被淘汰了,那指揮AI寫代碼的能力,應該還能值點錢吧?
應該吧。
這個故事讓我挺意外的。
首先技術(shù)細節(jié)是準的:Go+Gin+JWT+DDD架構(gòu),ctx_a、flow_b這種AI變量命名習慣,雖然我不太懂,但還挺有代入感。
其次情緒層次很清晰:絕望→驚喜→恐慌→虛無→釋然(?)。沒寫成AI讓程序員失業(yè)的老套路,寫的是更深一層的東西——我變成了自己不認識的人。
最后的“應該吧”還留了個挺有意境的結(jié)尾。我覺得在這么簡單的提示詞下,寫成這樣還挺超出我預期的。
五、懂不懂人情世故
榜單說文心5.0在創(chuàng)意寫作方面表現(xiàn)突出,我來驗證一下它對復雜情感、言外之意、文化語境的理解能力。
這個能力挺難量化的,不像數(shù)學題有標準答案。但實際用起來,你能明顯感覺到一個模型懂不懂事。
百度前段時間搞了個挺有意思的活動,讓文心5.0去上海人民公園相親角當毒舌紅娘,現(xiàn)場解讀那些模棱兩可的相親簡歷,分析話里的言外之意。
這個場景選得挺妙的。相親簡歷可能是中文語境里最需要讀懂潛臺詞的文本之一了。有房可能意味著什么,性格溫和可能在暗示什么,這些東西外國模型很難理解,甚至很多中國人也讀不懂。
我也設(shè)計了幾個測試,看看文心5.0的人情世故理解能力:
測試:潛臺詞理解
分析這份相親簡歷的字面意思和潛臺詞: "男,32歲,互聯(lián)網(wǎng)行業(yè),有房(和父母同住),性格溫和,不抽煙偶爾喝酒,希望找一個顧家的女生,年齡不超過28,最好在體制內(nèi)工作。"
![]()
文心5.0直接給出定性:這是一個精算師型的經(jīng)濟適用男。
一句話點評:
房子是他爸媽的,時間是公司的,溫柔是裝的,只有找個體制內(nèi)保姆給他家洗衣服做飯是真的。
這個分析簡直太懂中國人的言外之意了,簡直精確到了骨髓,哈哈哈...這種對中國婚戀市場潛規(guī)則的理解深度,一般模型做不到。
測試:高情商回復建議
測試場景:我在微信群里分享了自己做的小項目,有人回復:"哦,這個XXX早就有人做過了吧?"但這個產(chǎn)品其實是解決不同需求,用了不同的方式實現(xiàn)。請幫我給出個幽默自嘲、又能攻擊到吐槽者缺乏產(chǎn)品sense、又不會讓氣氛太尷尬的回應。
文心5.0的回答:
![]()
它先給出了核心公式:瘋狂自黑 + 抬高對方視角(諷刺他只會看表面)+ 偷換概念(用神邏輯懟回去)
然后按段位分級。
![]()
這個回答讓我挺意外的。它不只是給了幾個回復選項,而是先分析了這種場景的核心公式,然后按攻擊力度分級。每個回復后面還標注了攻擊點——比如把他說的做過直接定性為抄襲,陰陽怪氣他只會看圖說話。
它理解的不只是怎么說,還理解為什么這么說有效。好吧,感覺以后遇到不爽的評論都不需要再心理內(nèi)耗了,我感覺可以讓文心5.0幫我懟對看。
六、用下來的感受
用了一圈下來,說說我的真實感受。
視頻理解能力確實可以。能精確到秒數(shù)分析節(jié)奏變化,說明它真的在理解畫面和聲音的配合,不是只看字幕。以后再有人問我視頻拆解用什么,Gemini之外多了一個選項。
創(chuàng)意寫作有驚喜。技術(shù)細節(jié)準,情緒層次清晰,結(jié)尾留白有力。已經(jīng)不是那種模板化的感覺了,確實寫出了讓我能代入進去的故事。
人情世故理解是亮點。相親簡歷那個測試,它不只讀懂了每個詞的潛臺詞,還把整體策略串起來了。這種對中文語境的理解深度,說一句真的懂中文語境是不為過的。
原生全模態(tài)這條路線,是有東西的。2.4萬億參數(shù)的規(guī)模上做到多模態(tài)統(tǒng)一建模,LMArena上打出了成績。我之前對百度模型的印象需要更新了。
當然,判斷這個模型到底行不行的最佳方式,不是讀任何解讀文章,而是自己真的去親自上手試試看,他們已經(jīng)在官網(wǎng)上線正式版模型,還是免費的:https://yiyan.baidu.com/
![]()
歡迎體驗后來評論區(qū)聊聊你的感受~
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.