在國際評測和公開對比中,LMArena(Language Model Arena)是業界廣泛關注的大模型競技榜單。2025年12月23日,LMArena發布了最新文本榜單,文心新模型ERNIE-5.0-Preview-1203 以 1451 分的成績,穩居中國第一。
這次更新中,文心5.0 進入前十,超過了Claude-Opus-4-1、GPT-5.2、GPT-5.1和Qwen3-Max-Preview等多款國內外主流模型。甚至拉到前20 名中,也是唯一個非美國模型。
![]()
(ERNIE-5.0-Preview-1203登上LMArena文本榜國內第一)
前兩年談AI,似乎前沿總是在美國,國內更多在跟進。這也成了一種感官上的科技敘事范式,而實際上各方都鉚足了勁在研發和進化。
現在,當我們談論AI,我們還在談跟進、談追趕嗎?答案已經發生變化,文心新模型ERNIE-5.0-Preview-1203的成績排名,釋放了一個信號:國產模型不再只是在國際上“露個臉”,而是開始被直接放進中美同一維度下比較。注意,這不是單獨分組,而是同場競技。
科技敘事范式正在被打破,從最初“能不能上榜”,到現在文心、DeepSeek這些國產模型,開始和美國模型站在同一排被對照,榜單本身已經發生了變化。中美 AI 的對照,沒有停留在發布層面,而是落在了真實使用能力的橫向比較上。
那些被反復提起的頂尖名字里,穩穩地嵌入了“文心”這個國產模型。這不僅僅是分數或排名的變化,而是整個AI賽場畫風的改變:從一個美國獨白的舞臺,變成了多層次、多主體對話的競技場。
從“創新荒漠”到“實力競技場”:一個榜單的隱喻
榜單是坐標系,是角斗場,也是敘事本身。國際舞臺上,中國模型長期面臨一種視角困境:一邊是DeepMind CEO這樣的偏見:“中國人工智能毫無創新,但跟進速度可怕”;另—邊則是國內市場的巨大內需與快速迭代。這兩種看似矛盾的現象,共同構成了一個刻板的國際印象——
中國AI是“敏捷的跟隨者”,而非“原創的領航者”。
LMArena 最新榜單的分量,恰恰在于其直接打破了這種陳舊印象。
LMArena 不是“國產專屬賽道”,而是全球統—大賽場。 在這份榜單中,排名前列的模型,不再因為“出身”而被區別對待。文心 5.0Preview 位列 LMArena 全球榜單前十,不僅超過了Claude-Opus-4-1,也壓過了更前沿的GPT-5.2、GPT-5.1,以及國內同樣表現出色的Qwen3-Max-Preview。在創意寫作、高難度指令等領域,文心 5.0Preview展現出了與國際頂尖水平同場競技的核心能力。
前二十名中,文心5.0 Preview是唯一的“非美國面孔”。 在GPT、Claude、Gemini等一水兒的美國模型名字里,文心這個名字就像一個有力的驚嘆號。它不是“陪跑”,不是“追趕者”,而是以第一梯隊玩家的姿態,站上了全球最受關注的AI競技場中央。這也不僅僅是一個位置,更是一種存在感的宣告。
“中國AI無創新”的陳詞濫調應該被事實扭轉。創新從來不只是理論上的“0到1”,更包括場景的深耕、工程的極致、系統的融合。文心能夠在 LMArena 這樣的開發者真實投票與使用反饋中脫穎而出,背后體現的是其對大語言模型架構、訓練、對齊等全棧技術實力與系統工程能力的綜合掌控。這本身就是一種硬核創新。
中美AI格局:從“代際差”到“局部超車”的換軌
過去我們常聽到“中美AI有代際差距”,但這實際上是一個過于簡化的靜態描述。人工智能的競爭是多層次、多賽道的動態博弈。
底層原創與基礎研究,是賽道之一。這方面,美國仍保持著強大的基礎優勢,有著深厚的學術傳統和持續的創新投入。客觀講,依然是美國的“戰略縱深”,保持了領先地位。
工程化與產品化,是另一個重要賽道。這是中國企業的優勢地帶。從移動互聯網時代積累的工程能力、大規模數據處理和快速迭代經驗,正在AI時代轉化為 “更快、更穩、更貼合實際需求”的產品演進。文心、千問、智譜GLM等,都展現出了這種特點。
場景融合與應用生態,更是大有前景的賽道。全球范圍內,中國擁有最復雜、最多元的應用場景,包括制造業、金融、醫療到教育、娛樂、政務等等,這為模型從實驗室走向真實世界提供了無與倫比的“實戰練兵場”。文心大模型在國內已深入千行百業,這種深度的應用反哺了模型能力的進化。
此次文心5.0 Preview 在 LMArena 文本榜上的表現,恰恰是工程化和場景融合能力的一次綜合展現。不是在一個狹窄的學術指標上“刷分”,而是面對開發者和專業用戶真實需求下,展現出的整體產品力。
![]()
這意味著什么?一句話:中美AI的競爭形態正在從“全面跟隨”,轉變為“系統性追趕、局部性超車的復雜交織”。通用能力上,文心等國產模型已經進入“全球一線陣營”的對話圈。中文理解、本土文化、特定行業領域(如醫療、法律)上,正出現明確的、基于場景優勢的局部超車。
這種變化足以讓某些帶有傲慢的“創新論斷”,顯得蒼白無力。
為什么是“文心”?從長期主義找答案
一個不爭的事實是,在通用大模型領域,百度是國內起步最早、投入最堅決、技術棧最完整的公司之一。 這種技術上的長期主義,在當下的激烈競賽中,正轉化為結構性的競爭壁壘。
從昆侖芯AI芯片、飛槳深度學習框架,到文心大模型,百度是國內唯一一家在大模型“芯片一框架一模型-應用”全鏈條進行布局的科技公司。這種全棧自研的“壓強優勢”,特別是縱向一體化的技術棧,使得在底層基礎設施、訓練推理優化、模型迭代上擁有更深層次的掌控力和協同效率。
搜索基因的“數據與場景優勢”加持了文心模型的應用飛輪效應。百度的搜索引擎,天然是信息檢索、知識理解、意圖識別的終極致用場景,這使得百度在早期就積累了深厚的大規模文本處理和理解能力,轉化為對復雜推理、真實檢索等核心能力的深刻理解。文心在創意寫作和復雜指令上的突出表現,正是這種優勢的體現。
文心5.0 Preview 在 LMArena 上能取得如此成績,絕非偶然或“單點爆發”,而是長期在技術壓強、數據積累、場景深耕上持續投入的必然結果。據近期的行業消息,文心5.0 正式版即將在2025年1月上線的消息也越來越清晰。從Preview版的驚艷表現來看,正式版帶來的能力提升和應用革新,無疑將是“全球AI第一梯隊”實力的一次全面檢閱。這不僅關乎一個模型,更關乎中國在全球AI競技版圖上的真實水位。
一場遠未結束的競賽
可以說,中國AI正進入“技術自信”的新階段。這個階段不再是“有差距”,而是有能力在各個維度上與全球頂尖玩家對峙。從LMArena榜單的變化,能看到國產大模型不僅出現了,而且在通用能力上足以躋身全球前列,不再是追隨者,而是真正的競爭者。
創新需要被重新定義。狹隘地將創新等同于“從無到有的理論突破,”已經不適應這個快速迭代的時代。大規模系統工程、復雜場景解耦、技術與產業深度融合中,去創造價值,同樣是深刻的創新。文心在中文長文本、多輪對話、知識增強等領域的深耕,已經證明了這一點。
中國AI的創新之路,或許不是一條筆直的,也非從0到1的絕對原創路徑,而是在不斷的場景深耕、技術迭代、生態構建中,實現技術的突圍與超越。這場實力與智慧的雙重考驗中,剛好印證了在高質量發展中,量的合理增長和質的有效提升。
競爭是全方位的。不僅是模型的Benchmark分數,更是生態系統、開發者信任、應用深度、產業融合能力的綜合比拼。LMArena 榜單只是中美AI大變局中,冰山露出的一角。
上榜不是結束,是一場遠未結束的競賽,是真正的開始。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.