LMArena 最新一輪文本排行榜又更新!
這一次,國產模型有新驚喜。
12月23日,也就是今天,LMArena 公布最新文本榜單,ERNIE-5.0-Preview-1203(文心 5.0 Preview)以 1451 分登榜,位列國內第一。
而且它不僅是在“國產榜”里領先,還直接和一眾美國模型同場對打,超過了 Claude Opus 4.1、GPT-5.2、GPT-5.1、Qwen3-Max-Preview 等多款主流模型。
而且在前 20 名中,它是唯一的非美國模型。
LMArena 和其他榜單還不一樣:它不是自報參數,會基于真實用戶對話、匿名盲測的偏好投票,更接近真實使用體驗。
誰更好用、誰更像“能長期對話的模型”,是用戶說了算。
從能力分布來看,這次文心拉開差距的,是創意寫作、高難度指令這些最容易翻車、但最貼近真實場景的能力。
可以看出,文心的確是那個真實用戶場景完成度更高的大模型。
如果把時間線拉長,想想也很合理,文心5.0 Preview這次國內排第一也挺有跡可循的。
過去一個多月,文心在 LMArena 的出現頻率明顯變高:
11 月拿下文本榜全球并列第二、中國第一;
然后在視覺理解榜再次進入國內第一;
到這次文本榜再度刷新分數,上探 23 分。
迭代節奏真夠快,像是在持續公開驗證能力邊界,也不是為了一次性的榜單排名。
業內也有消息稱,文心大模型 5.0 正式版將于 1 月上線。
從這個角度看,Preview 階段頻繁上榜,可能是在為正式發布提前“跑一輪國際壓力測試”。
過去聊 AI,很容易形成一種默認敘事:前沿在美國,國內更多是追趕。
但現在,至少在部分核心能力上,國產模型已經開始被直接放進全球第一梯隊里對照,而且不是陪跑角色。
至少可以說:中美 AI 的對比,正在從發布會和參數表,轉向真實使用體驗的正面競爭。
而 LMArena上排第一的文心,只是這個變化最早被看見的地方之一。
#百度 #文心一言 #文心 #文心大模型 #AI #AI大模型 #科技 #AI技術 #干貨分享 #AI異類弗蘭克
![]()
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.