![]()
智東西
編譯 王欣逸
編輯 程茜
智東西12月10日消息,昨晚,法國大模型獨角獸Mistral AI發(fā)布并開源編程系列模型Devstral 2,該系列分為兩個不同規(guī)格的模型Devstral 2 132B和Devstral Small 2 24B。此外,Mistral還同時推出了原生CLI工具Mistral Vibe,能實現(xiàn)端到端的代碼自動化。此次發(fā)布距Mistral 3系列模型才過去一周。
![]()
Devstral 2參數(shù)為123B,支持256K上下文窗口,可以探索代碼庫,并能在保持架構(gòu)層面上下文理解的同時,進行跨文件協(xié)調(diào)更改;Devstral Small 2參數(shù)為24B,同樣具備256K上下文窗口,支持快速推理和反饋,可以定制和本地部署,同時還支持圖像輸入,可應用于多模態(tài)Agents。
在SWE-bench Verified編程基準測試中,Devstral 2取得了72.2%的成績,優(yōu)于Qwen 3 coder plus、Kimi K2 Thinking等開源模型,僅次于DeepSeek V3.2;Devstral Small 2取得了68.8%的成績,超過GPT-OOS-120B,和GLM 4.6持平;在針對實際編程任務進行的人工測試中,Devstral 2表現(xiàn)優(yōu)于DeepSeek V3.2。基準測試結(jié)果如下:
![]()
此外,在部署上,Devstral 2至少需要四塊H100級GPU,更輕量化的Devstral Small 2可以在消費級硬件上本地運行。
Mistral Vibe是一個由Devstral驅(qū)動的開源命令行編程助手,集成了文件操作、代碼搜索、版本控制及命令執(zhí)行等工具。
Mistral AI是一家法國創(chuàng)企,成立于2023年,由前DeepMind和Meta研究人員成立,專注于開源模型開發(fā)。今年9月,該公司宣布獲得17億歐元(約合人民幣139.9億元)C輪融資,估值達到117億歐元(約合人民幣962.6億元),英偉達曾三次投資這家公司。
一、基準測試位列開源第二,和頂尖閉源還有性能差距
據(jù)Mistral官網(wǎng),Devstral 2 123B支持探索代碼庫,能跨多個文件協(xié)調(diào)修改,還能保持上下文理解。它可以跟蹤框架依賴、檢測故障,并能通過修正后重試,從而解決如修復錯誤、改造遺留系統(tǒng)等復雜挑戰(zhàn)。
該模型支持微調(diào),可針對特定編程語言進行優(yōu)化,適配大型企業(yè)代碼庫的需求。
不過,Devstral 2以修改版的MIT協(xié)議發(fā)布,這一協(xié)議對大企業(yè)進行了限制:月收入超過2000萬美元(約合人民幣1.41億元)的公司,在未獲得Mistral單獨商業(yè)許可的情況下,無法使用該模型。
更輕量化的模型Devstral Small 2 24B支持快速推理、迭代反饋和定制,可本地部署,同時還支持圖像輸入,可應用于多模態(tài)Agents。
從基準測試來看,Devstral 2模型位列開源模型的第二名,并正趕超頂尖閉源模型。
Devstral 2在SWE-bench Verified編程基準測試中取得了72.2%的得分,Devstral Small 2取得了68%的得分,在開源模型中已經(jīng)達到了領(lǐng)先水平,Devstral 2的得分僅次于DeepSeek V3.2。
![]()
Devstral 2系列模型的亮點在于小參數(shù)設計,其模型在關(guān)鍵基準測試中展現(xiàn)出和頂尖開源模型齊平的性能,卻僅需后者幾分之一的參數(shù)量。
得分只比Devstral 2高0.9%的DeepSeek V3.2,其參數(shù)大小是Devstral 2的5倍,是Devstral Small 2的28倍,而表現(xiàn)次于Devstral 2的Kimi K2 Thinking,其參數(shù)大小是Devstral 2的8倍,是Devstral Small 2的41倍。
![]()
不過,Devstral 2系列模型與頂尖閉源模型之間還存在差距。
人工評測結(jié)果顯示,在Cline構(gòu)建的任務場景中,Devstral 2相對DeepSeek V3.2優(yōu)勢明顯,勝率為42.8%,敗率為28.6%。然而,Devstral 2相對頂尖閉源模型Claude Sonnet 4.5敗下陣來,勝率僅為21.4%,敗率為53.1%。
![]()
二、端到端代碼自動化,能進行架構(gòu)級推理
Mistral Vibe是基于Devstral模型構(gòu)建的開源命令行編程助手,能通過自然語言交互,接入IDE,實現(xiàn)對代碼庫的探索、修改與變更執(zhí)行。
![]()
Mistral Vibe提供了一個交互式對話界面,集成了文件操作、代碼搜索、版本控制及命令執(zhí)行等工具。
它能自動掃描用戶文件結(jié)構(gòu)及Git狀態(tài),提供相關(guān)上下文信息,能理解整個代碼庫的架構(gòu),并進行架構(gòu)級推理,此外,它還擁有智能引用、持久化歷史、自動補全和可自定義主題等功能。
開發(fā)者可以通過腳本編程方式運行Mistral Vibe,啟用工具執(zhí)行的自動批準功能,通過簡潔的config.toml配置文件管理本地模型與供應商設置,靈活控制工具權(quán)限。
結(jié)語:平衡高性能與小參數(shù),為企業(yè)提供了低門檻解決方案
從Mistral 3到Devstral 2系列、Mistral Vibe,Mistral AI正以相當快的進擊速度參與AI競爭,并在模型的高性能與輕量化間實現(xiàn)了平衡,從測試結(jié)果看,Devstral Small 2模型在參數(shù)僅為24B的情況下,依然優(yōu)于不少開源模型,和GLM 4.6打平。
Mistral AI在公告中提到,Devstral 2系列模型專為生產(chǎn)級工作流打造,并被定位為下一代SOTA編程模型。盡管和頂尖閉源編程模型還有很大差距,不過,對大多數(shù)企業(yè)而言,Devstral 2和Devstral Small 2可以作為一個低門檻的初步解決方案,尤其是在和Mistral Vibe的搭配使用上,Devstral 2系列模型或?qū)⒃谔囟ǖ纳a(chǎn)環(huán)節(jié)發(fā)揮作用。
來源:Mistral AI
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.