5月29日,極客邦科技雙數(shù)研究院InfoQ研究中心正式發(fā)布《2025推理模型評測報告》,基于邏輯推理、數(shù)學(xué)推理、多步推理、語言推理、及幻覺控制五大維度,對OpenAI O3、文心X1 Turbo、DeepSeek-R1、Kimi k1.5、Doubao-1.5-thinking-pro、Qwen3-235B-A22B等八款國內(nèi)外主流推理模型展開深度評估。報告顯示,文心X1 Turbo以總分第一的成績領(lǐng)跑國內(nèi)模型,并在幻覺控制、語言推理等核心維度展現(xiàn)顯著優(yōu)勢,成為國內(nèi)首個在五大評測維度中斬獲最多單項冠軍的推理模型。
InfoQ研究中心指出,受“推理時計算拓展”與“可驗證獎勵強(qiáng)化學(xué)習(xí)”兩大技術(shù)范式驅(qū)動,全球廠商已進(jìn)入推理模型密集發(fā)布期,OpenAI o1、DeepSeek R1、 文心 X1 Turbo、Claude 3.7 Sonnet Reasoning等十余款推理模型相繼上線,爭奪下一代大模型的“推理入場券”。
根據(jù)報告,文心X1 Turbo是本次評測中“單項冠軍數(shù)量最多”的模型,在五大細(xì)分維度中表現(xiàn)亮眼:在幻覺控制方面,文心X1 Turbo以80.56%的得分位列第一,領(lǐng)先DeepSeek-R1、Qwen3-235B-A22B等模型,有效降低模型生成錯誤或誤導(dǎo)性信息的風(fēng)險;在語言推理方面,文心X1 Turbo以70.31%的得分位列第一,領(lǐng)先Doubao-1.5-thinking-pro、DeepSeek-R1、Qwen3-235B-A22B等模型;在數(shù)學(xué)推理方面,OpenAI O3以81.25%的得分位列第一,文心X1 Turbo緊跟其后,位居國內(nèi)第一。
![]()
幻覺控制Top 5模型得分情況
![]()
語言推理Top 5模型得分情況
報告認(rèn)為,作為國產(chǎn)推理模型代表,文心X1 Turbo其技術(shù)突破不僅標(biāo)志著國產(chǎn)模型在推理能力上的里程碑式進(jìn)展,更為AI從“內(nèi)容生成”向“可驗證邏輯執(zhí)行”的躍遷提供了關(guān)鍵支撐。
隨著技術(shù)迭代與場景深化,推理模型把大模型從單純的內(nèi)容生成器升級為“可驗證的邏輯執(zhí)行器”。伴隨著單場景推理深度、跨工具編排廣度、在線自進(jìn)化能力的同步躍升,更多新商業(yè)機(jī)會正被快速打開。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.