![]()
當(dāng)前產(chǎn)業(yè)端應(yīng)用AI的效果,仍受限于基礎(chǔ)模型的能力邊界。
很多時(shí)候,一個(gè)應(yīng)用場(chǎng)景之所以無法落地,不是因?yàn)楣こ滩恍校腔A(chǔ)模型在準(zhǔn)確性、魯棒性或推理深度上,差了那么幾個(gè)百分點(diǎn)。而基礎(chǔ)模型的一次關(guān)鍵升級(jí),就可能將某個(gè)行業(yè)的AI可用性從80%提升到99%,真正跨越實(shí)用門檻。
所以我們看到,有實(shí)力做基模的頭部廠商,如OpenAI、谷歌仍在持續(xù)投入資源深耕底層技術(shù)。國(guó)產(chǎn)基礎(chǔ)模型,又走到了哪一步呢?
![]()
(文心全新模型ERNIE-5.0-Preview-1022登上LMArena文本排行榜國(guó)內(nèi)第一)
近期,一則信號(hào)悄然釋放:11月8日,LMArena 大模型競(jìng)技場(chǎng)最新排名顯示,文心全新模型ERNIE-5.0-Preview-1022登上文本排行榜全球并列第二、中國(guó)第一,甚至在多項(xiàng)核心指標(biāo)上超過GPT-5-High等國(guó)內(nèi)外主流模型。這一消息旋即引發(fā)了海外科技界與行業(yè)分析師的廣泛熱議,在X等社交媒體平臺(tái)中,可以看到眾多用戶與開發(fā)者表達(dá)了對(duì)文心全新模型的期待。
![]()
![]()
![]()
如果將產(chǎn)業(yè)智能化比作一座高樓,基礎(chǔ)大模型便是支撐整座建筑的地基。唯有地基深厚,才能讓構(gòu)筑在上面的產(chǎn)業(yè)應(yīng)用變得強(qiáng)健。
文心大模型登頂榜單,也是中國(guó)AI基礎(chǔ)加固、產(chǎn)業(yè)承重能力提升的一個(gè)標(biāo)志性信號(hào)。我們就從文心的一次迭代,聊聊國(guó)產(chǎn)基礎(chǔ)模型的產(chǎn)業(yè)承重力。
![]()
在眾多AI評(píng)測(cè)體系中,LMArena憑借基于人類真實(shí)偏好的盲測(cè)機(jī)制,被視為當(dāng)前最貼近真實(shí)用戶體驗(yàn)的大模型能力標(biāo)尺。
目前,LMArena托管了超過400個(gè)AI模型,用戶的投票完全基于AI的回答質(zhì)量,不受模型品牌的影響,既沒有大廠光環(huán),也不帶國(guó)產(chǎn)濾鏡,每一次投票都聚焦于模型能力的本身,而且所有數(shù)據(jù)開放查詢,沒有暗箱操作的可能。投票人數(shù)多,杜絕了偶然因素的干擾,并且動(dòng)態(tài)更新,競(jìng)爭(zhēng)十分激烈。
一句話總結(jié)這個(gè)榜,實(shí)力至上。
在這樣一個(gè)嚴(yán)苛的頂級(jí)競(jìng)技場(chǎng)上,在數(shù)百萬(wàn)真實(shí)用戶在不知模型身份的情況下,一票一票把ERNIE-5.0-Preview-1022投上了文本排行榜的全球并列第二、中國(guó)第一,特別是三個(gè)維度的表現(xiàn)突出:
1.創(chuàng)意寫作維度,可用于生成文章、營(yíng)銷文案、劇本等內(nèi)容,ERNIE-5.0-Preview-1022得分第一。
2.復(fù)雜長(zhǎng)問題理解維度。用于處理多層邏輯和長(zhǎng)文本任務(wù),如學(xué)術(shù)問答、報(bào)告分析、知識(shí)推理等,ERNIE-5.0-Preview-1022得分突出。
3.指令遵循維度,保證模型能準(zhǔn)確理解并執(zhí)行用戶意圖,適用于智能助理、代碼生成、業(yè)務(wù)流程自動(dòng)化等場(chǎng)景,表現(xiàn)也十分出色。
![]()
此次登頂,標(biāo)志著中國(guó)大模型正式進(jìn)入與全球頂級(jí)模型并跑的新階段。
基礎(chǔ)模型的產(chǎn)業(yè)承重力基礎(chǔ)模型的能力邊界,決定了產(chǎn)業(yè)智能的天花板。所以,榜單只是開始,能否支撐產(chǎn)業(yè)應(yīng)用AI,才是基礎(chǔ)模型的硬核挑戰(zhàn)。
當(dāng)前,中國(guó)各行業(yè)在智能化轉(zhuǎn)型進(jìn)程中,正經(jīng)歷著文本大模型的幾個(gè)痛點(diǎn):
寫不好,部分基模寫作能力一般,停留在模板化產(chǎn)出階段,無法深度參與創(chuàng)意核心環(huán)節(jié);
看不懂,在金融投研、醫(yī)療輔助、工業(yè)運(yùn)維等專業(yè)領(lǐng)域,AI難以理解復(fù)雜邏輯,無法承擔(dān)專業(yè)角色;
動(dòng)不起來,基礎(chǔ)模型的理解力不足,智能體無法理解任務(wù)和自主編排,只能依靠workflow和人工定義規(guī)則,本質(zhì)上并不是真的智能。
解決上述問題,離不開基礎(chǔ)模型的升級(jí)迭代。ERNIE-5.0-Preview-1022在創(chuàng)意寫作、復(fù)雜長(zhǎng)問題理解、指令遵循三大核心維度的突出表現(xiàn),不僅是技術(shù)實(shí)力的證明,更呼應(yīng)了產(chǎn)業(yè)亟待解決的痛點(diǎn)。
我們測(cè)試了一下,看ERNIE-5.0-Preview-1022的這些能力是不是真的過硬,是否突破了此前AI水平的臨界點(diǎn)。
測(cè)試一,創(chuàng)意寫作。
讓模型用李白五言絕句的語(yǔ)感,寫一條現(xiàn)代人“手機(jī)沒電”的抱怨。下面兩個(gè)答案,你認(rèn)為哪個(gè)更好?
答案一:玉板手中握,熒光忽已滅。與君從此絕,獨(dú)對(duì)一窗月。
答案二:手機(jī)忽無電,音信盡沉屏。獨(dú)坐燈花冷,明月照空屏。
讓第三方模型打分,對(duì)方認(rèn)為:答案一9分,用“玉板”比喻手機(jī),意象古典,是神來之筆,符合“語(yǔ)感”轉(zhuǎn)換要求。而且情感遞進(jìn)強(qiáng)烈,“獨(dú)對(duì)一窗月”的孤獨(dú),極具敘事張力。“忽已滅”“從此絕”等語(yǔ)言凝練。
![]()
與之相比,答案二“手機(jī)”一詞過于直白,開篇就破壞了語(yǔ)感,并且第二句的“沉屏”和第四句的“空屏”都用了“屏”字,不夠精致。
![]()
揭曉答案,答案一是ERNIE-5.0-Preview-1022寫的,答案二是GPT-5-High。
![]()
![]()
詩(shī)寫得好,有啥用呢?這代表語(yǔ)言、語(yǔ)意的掌控能力更強(qiáng)了。過去,AIGC在內(nèi)容領(lǐng)域多承擔(dān)效率工具角色,比如生成模板化文案、簡(jiǎn)單文章本,解決寫得快的問題。但當(dāng)模型具備高連貫性、風(fēng)格可控性與情感共鳴力,正如文心在LMArena所體現(xiàn)的,AIGC開始深度參與價(jià)值創(chuàng)造。
廣告行業(yè)可根據(jù)品牌調(diào)性、目標(biāo)人群自動(dòng)生成數(shù)十版差異化slogan、短視頻腳本,大幅縮短創(chuàng)意試錯(cuò)周期,降低創(chuàng)作成本;影視制作領(lǐng)域,輔助編劇完成分鏡構(gòu)思、角色對(duì)白潤(rùn)色,甚至提供世界觀設(shè)定靈感,成為編劇的第二大腦;游戲與IP開發(fā)中,動(dòng)態(tài)生成NPC對(duì)話樹、支線劇情腳本,實(shí)現(xiàn)千人千面的敘事體驗(yàn),豐富IP內(nèi)容生態(tài)……
基礎(chǔ)模型的創(chuàng)意寫作能力升級(jí),可不只是效率工具,更讓AI成為內(nèi)容創(chuàng)作的核心參與者。
測(cè)試二,復(fù)雜長(zhǎng)問題理解。
在專業(yè)領(lǐng)域,我們希望AI具備長(zhǎng)邏輯的記憶、理解和整合能力,解決一些復(fù)雜問題。我們模擬了一個(gè)真實(shí)世界中社會(huì)、法律問題交織的復(fù)雜考題。
![]()
這個(gè)題目交給本科生、研究生,恐怕都很難完成,不僅要求模型語(yǔ)言流暢,還必須有嚴(yán)密的邏輯、調(diào)用法律領(lǐng)域知識(shí),還不能照本宣科,必須在約束條件下,創(chuàng)造性解決問題。
下面是ERNIE-5.0-Preview-1022的答案:
![]()
![]()
不知道大家看完,感覺怎么樣,反正gpt-5-high是給出了9.5的高分,表示ERNIE-5.0-Preview-1022給出了“一個(gè)接近完美的答案”,展示了如何系統(tǒng)性地思考一個(gè)交織了技術(shù)、倫理和社會(huì)制度的復(fù)雜問題。
![]()
AI之所以很難在一些專業(yè)領(lǐng)域落地,一大瓶頸就是答非所問,或淺層響應(yīng)。比如面對(duì)金融投研的復(fù)雜需求,只能輸出零散數(shù)據(jù),無法形成深度洞察。而文心的多跳推理、上下文整合與知識(shí)溯源能力,就成了打造專業(yè)智能的關(guān)鍵。
可以幫助金融從業(yè)者整合財(cái)報(bào)數(shù)據(jù)、行業(yè)供需報(bào)告、政策文件,輸出結(jié)構(gòu)化分析;結(jié)合復(fù)雜病史(如合并多種基礎(chǔ)病、用藥史),關(guān)聯(lián)臨床指南、相似病例文獻(xiàn),為醫(yī)生提供輔助診療建議。只有理解了復(fù)雜難題,AI才能從問答機(jī)器人升級(jí)為可信賴的專業(yè)協(xié)作者。
測(cè)試三,指令遵循。
高精度指令遵循能力,意味著AI能準(zhǔn)確解析意圖、自動(dòng)調(diào)用工具、執(zhí)行多步操作,這對(duì)智能體的落地至關(guān)重要。
我們讓專業(yè)編程工具Claude-sonnet-4-5和ERNIE-5.0-Preview-1022,分別生成一個(gè)Bash命令,要求輸出結(jié)構(gòu)正確、日期計(jì)算精準(zhǔn),沒有幻覺。
![]()
![]()
可以看到,二者的答案完全一致。這意味著,基于文心最新模型,各類智能體有望精準(zhǔn)解析意圖、自動(dòng)拆解任務(wù)、聯(lián)動(dòng)工具執(zhí)行,真正實(shí)現(xiàn)開箱即用。
相信大家已經(jīng)發(fā)現(xiàn),如果能將ERNIE-5.0-Preview-1022在榜單中展現(xiàn)的能力,轉(zhuǎn)化為解決方案,各行各業(yè)或?qū)⒂瓉硪徊ˋI生產(chǎn)力紅利。
在全球AI競(jìng)賽的關(guān)鍵節(jié)點(diǎn),在全球大模型迭代節(jié)奏放緩的窗口期,百度用一根扎得穩(wěn)、扎得深的承重樁,交出了一份硬核答卷,支撐中國(guó)產(chǎn)業(yè)智能化向縱深發(fā)展。
![]()
今年以來,OpenAI、Anthropic等國(guó)際頭部廠商的技術(shù)代差擴(kuò)張速度明顯減慢,為國(guó)產(chǎn)大模型創(chuàng)造了相對(duì)穩(wěn)定的發(fā)展環(huán)境。能否牢牢抓住這一機(jī)遇,持續(xù)攻堅(jiān)國(guó)產(chǎn)基礎(chǔ)模型,打通產(chǎn)業(yè)落地閉環(huán),直接決定著中國(guó)在接下來的全球AI競(jìng)賽中的核心身位。
這時(shí),ERNIE-5.0-Preview-1022 登頂LMArena 榜單,無疑釋放了一個(gè)積極信號(hào):中國(guó)大模型已具備與全球頂級(jí)玩家同臺(tái)競(jìng)技的實(shí)力。
而回溯文心大模型的發(fā)展脈絡(luò),自2019年首次公開亮相后,歷經(jīng)6年技術(shù)深耕迭代,2025年更是進(jìn)入加速期,先后推出多模態(tài)模型文心4.5與4.5 Turbo、深度思考模型文心X1、X1 Turbo及X1.1,在多項(xiàng)權(quán)威評(píng)測(cè)中持續(xù)穩(wěn)居中文大模型第一梯隊(duì)。
我們知道,不少國(guó)內(nèi)模廠放棄了自研基模。但中國(guó)AI,不能沒有先進(jìn)的基礎(chǔ)模型;各行各業(yè),不能缺少穩(wěn)固的AI地基。于是,一個(gè)更深層的疑問隨之而來:為什么底層的AI突破,始終是百度?
![]()
拋開技術(shù)信仰之類的抽象因素,文心大模型始終位于國(guó)產(chǎn)模型第一梯隊(duì),而且不斷加速奔跑,背后是有實(shí)打?qū)嵉姆e累支撐,那就是百度耗時(shí)十多年構(gòu)建的芯片、框架、模型、應(yīng)用四層布局的AI全棧技術(shù)體系。
百度自研的昆侖芯已迭代至第三代,芯片自研讓國(guó)產(chǎn)大模型僅憑自主硬件體系,也能跑出世界級(jí)訓(xùn)練與推理性能。
文心也是全球極少數(shù)完全基于自研框架飛槳PaddlePaddle訓(xùn)練且達(dá)到國(guó)際頂尖水平的大模型。在全球大模型領(lǐng)域,絕大多數(shù)玩家依賴PyTorch框架訓(xùn)練,僅有谷歌與百度兩家能做到這一點(diǎn)。
更關(guān)鍵的是,全棧自研讓模型的訓(xùn)練成本與迭代周期完全可控,無需依賴外部工具鏈,也不受制于第三方技術(shù)更新節(jié)奏,能快速響應(yīng)產(chǎn)業(yè)痛點(diǎn)。
文心5.0 Preview在LMArena的成功,是這套全棧AI體系的一次價(jià)值驗(yàn)證。中國(guó)不僅能做出性能頂尖的大模型,更能構(gòu)建起支撐大模型持續(xù)進(jìn)化的完整技術(shù)基座。
文心Preview版本是預(yù)演,文心新模型正式版將于2025年11月13日百度世界大會(huì)發(fā)布。它能否將榜單上的優(yōu)勢(shì),轉(zhuǎn)化為可規(guī)模化落地的產(chǎn)業(yè)生產(chǎn)力?真正的考驗(yàn)還在后面。
但至少此刻,我們可以樂觀地說:中國(guó)基礎(chǔ)模型沒有掉隊(duì),反而正在借勢(shì)加速。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.