《科創(chuàng)板日報》2月12日訊(記者 黃心怡)國產(chǎn)AI大模型春節(jié)檔密集發(fā)布。
在智譜正式推出新一代旗艦?zāi)P虶LM-5,Minimax亦上線Minimax 2.5。同時,DeepSeek已在網(wǎng)頁及App端進(jìn)行模型的版本更新,上下文窗口由原有的128K直接提升至1M(百萬Token)級別,能夠單次完成處理一部長篇小說。
《科創(chuàng)板日報》記者獲悉,阿里千問的Qwen 3.5、字節(jié)跳動的豆包大模型2.0預(yù)計也將在春節(jié)期間發(fā)布。
從已發(fā)布的模型來看,編程和智能體能力成為重點。但隨著智能體任務(wù)復(fù)雜度提升,單次任務(wù)的token消耗在急劇增加。若無法進(jìn)一步降低成本,將影響未來AI的規(guī)模化落地。
▍MiniMax、智譜瞄準(zhǔn)AI編程
2月12日,MiniMax正式上線最新旗艦編程模型MiniMax M2.5。
作為全球首個為Agent場景原生設(shè)計的生產(chǎn)級模型,其編程與智能體性能 (Coding & Agentic)比肩國際頂尖模型,直接對標(biāo) Claude Opus 4.6,支持PC、App、跨端應(yīng)用的全棧編程開發(fā),尤其在Excel高階處理、深度調(diào)研、PPT等Office核心生產(chǎn)力場景中均處于行業(yè)領(lǐng)先(SOTA)地位。M2.5模型激活參數(shù)量僅10B,在顯存占用和推理能效比上優(yōu)勢明顯,支持 100 TPS超高吞吐量,推理速度遠(yuǎn)超國際頂尖模型。
而智譜在前一日推出的旗艦?zāi)P虶LM-5,同樣主攻編程與智能體能力。GLM-5參數(shù)規(guī)模由上一代的355B擴(kuò)展至744B,激活參數(shù)從32B提升至40B。內(nèi)部評估顯示,GLM-5在前端、后端、長程任務(wù)等編程開發(fā)場景中,平均性能較上一代提升超20%,真實編程體驗逼近Claude Opus 4.5水平。
![]()
由于GLM-5的超強表現(xiàn),智譜在港股近四個交易日實現(xiàn)翻倍,從203港元今日最高漲至443港元,收盤價已經(jīng)逼近Minimax。
過去一年,AI編程發(fā)展迅猛。Anthropic此前發(fā)布的《2026年智能體編碼趨勢報告》中指出,傳統(tǒng)軟件開發(fā)的游戲規(guī)則正在被徹底改寫。一個曾預(yù)計需要4到8個月的項目,使用Claude大模型后僅用兩周就完成。
《報告》明確指出,程序員這一職業(yè)并不會消失,但那些“只會寫代碼”的程序員將逐漸被市場淘汰。Anthropic的CEO達(dá)里奧·阿莫代伊在一年前就曾預(yù)言:“未來3~6個月,AI將編寫90%的軟件代碼。”如今,這一預(yù)言正逐步轉(zhuǎn)化為現(xiàn)實。
這或?qū)鹘y(tǒng)軟件行業(yè)帶來影響。業(yè)內(nèi)分析認(rèn)為,AI智能體可以直接調(diào)用軟件底層系統(tǒng),這動搖了傳統(tǒng)軟件“按人頭訂閱”的盈利邏輯,推動行業(yè)向“按使用計費”的模式轉(zhuǎn)型。
▍智能體成為最核心的競爭主線
CIC灼識咨詢TMT行業(yè)相關(guān)分析師對《科創(chuàng)板日報》記者表示,國產(chǎn)大模型競爭已從單純的參數(shù)規(guī)模競賽,全面轉(zhuǎn)向以技術(shù)差異化、應(yīng)用場景深耕與成本效率為核心的新階段。春節(jié)期間及近期,各廠商的發(fā)布與迭代均圍繞此主線展開。
除了騰訊元寶和阿里千問等推出的營銷活動帶動市場對生態(tài)側(cè)的關(guān)注,近期字節(jié)跳動發(fā)布的Seedance2.0、DeepSeek的V4模型和MiniMax上線的Agent平臺等,從技術(shù)細(xì)節(jié)來看,無論是基座模型還是Agent的更新,都反映出智能體工程(Agentic Engineering)成為技術(shù)路線的重要競技場,AI企業(yè)對于模型的推理效率和長期任務(wù)表現(xiàn)更加注重,從大模型廠商當(dāng)下模型設(shè)計的實際來看,產(chǎn)品形態(tài)也越來越Agent導(dǎo)向。
![]()
圖片由AI生成
灼識咨詢分析師表示,通用大模型在復(fù)雜業(yè)務(wù)邏輯和專業(yè)知識場景中表現(xiàn)有限。智能體通過集成領(lǐng)域知識、工具調(diào)用、工作流編排等能力,能夠深入垂直場景,提供專業(yè)化、自動化的解決方案,真正實現(xiàn)生產(chǎn)力變革。經(jīng)歷近幾年的發(fā)展,市場普遍對于AI在實際場景中能夠帶來的真實價值更加關(guān)注,智能體是鏈接模型與用戶場景的關(guān)鍵一步,自然也是競爭的焦點。
IDC中國研究經(jīng)理孫振亞認(rèn)為,大模型的能力正在從純粹的生成式輸出向智能體能力進(jìn)化。“可以看到,各家模型廠商都在代碼、多模態(tài)、長上下文和工具調(diào)用能力上做針對性的優(yōu)化。代碼和工具調(diào)用能力讓模型能夠進(jìn)行執(zhí)行和操作,多模態(tài)能力讓模型的感知從文本擴(kuò)展至圖文音視頻,長上下文讓模型能處理更多的環(huán)境和記憶信息。這些能力是模型能不能在更多場景中干活并產(chǎn)出價值的基礎(chǔ),也是智能體能力的重要組成部分。”
▍AI規(guī)模化落地仍要過成本關(guān)
談及AI規(guī)模應(yīng)用的挑戰(zhàn),CIC灼識咨詢TMT行業(yè)相關(guān)分析師表示,國內(nèi)AI生態(tài)在芯片、框架、模型、應(yīng)用層仍存在一些碎片化問題,需要進(jìn)一步統(tǒng)一。
在成本方面,他指出,從B端(企業(yè)端)來看,盡管API調(diào)用成本下降,但企業(yè)若追求私有化本地部署,一次性硬件投入和長期運維成本依然高昂且需要明確的業(yè)務(wù)價值閉環(huán)來證明投資回報,企業(yè)端部署的投入產(chǎn)出比(ROI)仍舊需要進(jìn)一步驗證。
孫振亞也表示成本是一大挑戰(zhàn)。隨著智能體任務(wù)復(fù)雜度提升,模型需要處理的上下文越來越長,調(diào)用鏈路越來越深,單次任務(wù)的token消耗在急劇增加。成本降不下來,智能體就只能停留在高價值場景,很難真正普及。
另外,可靠性也是瓶頸。灼識咨詢分析師稱,一些行業(yè)對于可靠性要求極高,當(dāng)前技術(shù)未能完全消除幻覺。孫振亞同樣指出,當(dāng)前AI在執(zhí)行復(fù)雜任務(wù)時的穩(wěn)定性還不夠,模型依然存在的幻覺問題,使得復(fù)雜場景下多步執(zhí)行非常容易出現(xiàn)錯誤累積。如果沒有可靠性,就談不上規(guī)模化落地。
而在治理與信任方面,孫振亞表示,隨著AI從輔助工具走向自主執(zhí)行,權(quán)限管理、審計追溯、責(zé)任界定這些治理能力必須跟上。“企業(yè)敢不敢讓AI去做決策、出了問題誰來負(fù)責(zé)、AI的操作過程能不能被審計。這些解決了,AI才會真正在各行業(yè)大規(guī)模落地。”
灼識咨詢分析師還指出,在敏感領(lǐng)域,數(shù)據(jù)出域安全、模型訓(xùn)練數(shù)據(jù)的合規(guī)性與質(zhì)量、以及智能體交互中的數(shù)據(jù)隱私保護(hù),也是規(guī)模化落地的主要障礙之一。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.