最新更新的LMArena排名里,文心 ERNIE-5.0拿下 1206 分,直接坐上國內視覺理解模型的頭把交椅。
不過我沒有很驚訝,因為之前用的感受是一致的,感覺就是正常發揮。
很多國產模型之前登上LMArena成績不錯,但視覺理解賽道是另一回事。
視覺是工業質檢、醫學影像、視頻解讀的主戰場,也是最能暴露底層能力的地方。能進榜的就不多,能在榜上和 Claude4、GPT-5同一水平線并排的,目前只有文心。
只說技術先進、參數大,那都是場面話。關鍵走的路線,別人還真沒法輕易復刻。
行業主流做法是“先做語言模型,再往上貼視覺模塊”,像給大腦外掛一只眼睛;
文心 5.0 選擇的則是原生多模態,直接從訓練第一天起,就是多模態一起進化:語言、圖像、視頻、音頻統統統一到一個自回歸架構里。
我之前用文心 5.0 Preview 做幾次測試,印象深的不是它能看懂圖,是它能“串邏輯”。
比如短劇內容讓它幫忙代看,它能把爽點、反轉、時間節點標得有板有眼。
復雜的圖表、混剪視頻、跨模態任務?它幾乎沒有“讀錯”的情況。
所以對真正用過的人來說,看到它在視覺理解榜第一,應該不會震驚,會覺得“終于輪到你公布成績了”。
文心 5.0 這次視覺理解第一,其實是 11 月以來的第二次“全球沖榜”。
11 月 8 日它剛在 LMArena 文本榜拿下全球并列第二、中國第一,海外研究圈一堆人出來討論。
今天視覺理解榜一出,相當于又補了一刀——不是文本強,整體都挺強。
更有意思的是,海外學者對文心的評價,也都很技術向:
斯坦福研究員:文心 5.0 的全模態架構“印象深刻”。
亞利桑那州立大學研究員:極高評價它的“原生全模態世界表征”,認為它是在從底層重寫多模態模型的認知方式。
……
他們看重的未必是分數,但是百度技術路線的未來可能性更值得關注。
模型這東西,上不了國際討論區都沒意義;但文心這次不僅上了,還被認真分析
這次,它在視覺理解榜上的成績,真正在全球序列里排到了前列的位置,也是不說自明的國產之光。
我的判斷是:未來一年,中國模型真正能走向海外開發者社區的,會是文心 5.0 這一類“路線獨立、底層原創”的模型
這次視覺理解榜第一,是個開始,而不是終點
#文心5.0 #文心大模型 #視覺理解 #百度 #互聯網大廠 #AI異類弗蘭克
![]()
![]()
![]()
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.