在全球AI的牌桌上,百度再次成為焦點(diǎn)。
LMArena最新發(fā)布的排名當(dāng)中,文心全新模型ERNIE-5.0-Preview-1022登上文本排行榜,全球排名并列第二、中國(guó)第一。榜單顯示,文心在創(chuàng)意寫作、復(fù)雜問題理解、指令遵循方面表現(xiàn)亮眼,超過gpt-5-high等多款國(guó)內(nèi)外主流模型,引發(fā)了海外開發(fā)者的熱議。
![]()
這不是一次普通的榜單登頂。LMArena的特殊之處,在于它用“真實(shí)用戶投票”替代了傳統(tǒng)基準(zhǔn)測(cè)試,因此在海外一直受到開發(fā)者的廣泛關(guān)注。國(guó)產(chǎn)大模型正在憑借技術(shù)實(shí)力,與國(guó)際頂尖模型“正面交鋒”。
以下是LMArena官網(wǎng)的榜單地址:
https://lmarena.ai/?mode=direct
01
大模型落地下半場(chǎng),需要什么?
當(dāng)今,大模型有三個(gè)“卡脖子”的難題:一是,表達(dá)缺乏個(gè)性,輸出的“AI味”很重;二是不專業(yè),難以理解金融、醫(yī)療等行業(yè)的復(fù)雜邏輯;三是理解力不足,無法執(zhí)行任務(wù)和自主編排。
這些問題,限制了AI技術(shù)在更廣泛場(chǎng)景中的應(yīng)用潛力,而文心大模型5.0-Preview恰好為上述難題提供了解法。
文心大模型5.0-Preview在三項(xiàng)得分中表現(xiàn)亮眼:創(chuàng)意寫作得分全球第一、復(fù)雜長(zhǎng)問題理解得分領(lǐng)先、指令遵循能力位列前茅。這些不是冰冷的指標(biāo),而是AI能否真正“幫上忙”的核心能力,直接關(guān)乎能否在實(shí)際應(yīng)用中真正發(fā)揮效用。
例如,在創(chuàng)意寫作維度上,文心大模型5.0-Preview得分第一,這個(gè)指標(biāo)用來衡量大模型的文本創(chuàng)作上的創(chuàng)新性,對(duì)于廣告創(chuàng)意、影視創(chuàng)作、營(yíng)銷策劃等領(lǐng)域的AI應(yīng)用有積極影響。
而文心大模型5.0-Preview在復(fù)雜長(zhǎng)問題理解、指令遵循方面,得分領(lǐng)先。復(fù)雜長(zhǎng)問題理解主要用于處理多層邏輯和長(zhǎng)文本任務(wù),是企業(yè)智能體的核心能力之一,主要用于學(xué)術(shù)問答、報(bào)告分析、知識(shí)推理等場(chǎng)景。指令遵循保證模型能準(zhǔn)確理解并執(zhí)行用戶意圖,適用于智能助理、代碼生成、業(yè)務(wù)流程自動(dòng)化等辦公自動(dòng)化場(chǎng)景。
以智能體為例,當(dāng)今企業(yè)最常用的智能體主要分成兩類:一是,流程智能化,就是把固定的一個(gè)或多個(gè)業(yè)務(wù)流程,實(shí)現(xiàn)任務(wù)的自動(dòng)化,比如審批流程、采購流程等;二是,超級(jí)智能體,即指定一個(gè)方向,讓AI自動(dòng)探索和完成任務(wù),比如寫調(diào)研報(bào)告、編程等。文心大模型5.0-Preview在復(fù)雜長(zhǎng)問題理解、指令遵循方面的優(yōu)勢(shì),恰好能夠幫助企業(yè)智能體在以上兩類場(chǎng)景中的落地。
可以說,這三個(gè)能力的躍升,讓文心大模型5.0-Preview不止于一款模型,而是成為真正能夠落地的AI生產(chǎn)力。
02
國(guó)產(chǎn)大模型,正在穿越周期
LMArena與傳統(tǒng)AI評(píng)測(cè)平臺(tái)不同,它的“含金量”非常高,是全球科技圈最具影響力的排行榜之一。LMArena是由加州大學(xué)伯克利分校的研究生團(tuán)隊(duì)創(chuàng)建,采用創(chuàng)新的"對(duì)戰(zhàn)"模式:讓用戶與兩個(gè)匿名的AI模型對(duì)話,然后投票選出表現(xiàn)更好的模型,通過這種眾包方式進(jìn)行評(píng)估。
當(dāng)我們將目光轉(zhuǎn)向中國(guó)大模型如何在國(guó)際競(jìng)技場(chǎng)上的表現(xiàn)時(shí),不難發(fā)現(xiàn),文心等中國(guó)大模型之所以能夠與世界頂級(jí)模型同場(chǎng)競(jìng)技,關(guān)鍵背后在于其全棧自研的技術(shù)體系。
K哥團(tuán)隊(duì)很早就關(guān)注文心大模型,也測(cè)評(píng)過不同版本的模型和產(chǎn)品,不論是文本大模型、多模態(tài)模型,還是深度思考模型,其表現(xiàn)都非常可圈可點(diǎn)。全球AI科技的比拼,不是“百米沖刺”而是“一場(chǎng)馬拉松”,AI技術(shù)的發(fā)展將經(jīng)歷五個(gè)階段:對(duì)話(Chatbot)、推理(Reasoner)、行動(dòng)(Agent)、創(chuàng)造(Innovator)、組織(Organization)。想要贏得這場(chǎng)科技角逐,靠的是對(duì)技術(shù)趨勢(shì)的準(zhǔn)確判斷和布局,以及長(zhǎng)期主義的戰(zhàn)略定力,保持節(jié)奏、穩(wěn)扎穩(wěn)打。
文心大模型登上LMArena,只是百度AI的一個(gè)小切口。其背后是百度構(gòu)建的“芯片—框架—模型—應(yīng)用”四層全棧布局,就拿深度學(xué)習(xí)框架來說,全球頂尖大模型主要基于PyTorch訓(xùn)練,能用自研框架支撐起頂級(jí)模型的,只有谷歌和百度(PaddlePaddle,百度飛槳)兩家公司,文心大模型5.0-Preview,不僅驗(yàn)證了百度在AI底層架構(gòu)上的長(zhǎng)期投入,我們還可以借此窺見中國(guó) AI 技術(shù)的發(fā)展趨勢(shì)。
![]()
AI的浪潮此起彼伏,唯有技術(shù)自立者才能穿越周期。以文心為代表的國(guó)產(chǎn)大模型正在以實(shí)踐證明,堅(jiān)持長(zhǎng)期主義、堅(jiān)持全棧自研、堅(jiān)持技術(shù)創(chuàng)新,中國(guó)完全有能力在AI這條賽道上走出一條自主可控的發(fā)展道路。國(guó)產(chǎn)AI的星辰大海,正在我們眼前徐徐展開。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.