Mistral開源兩大編程模型！大參數(shù)模型性能超Kimi、Qwen，小參數(shù)模型PC可跑

2025-12-10 18:14:24　來源: 智東西

北京舉報

分享至

智東西
編譯王欣逸
編輯程茜

智東西12月10日消息，昨晚，法國大模型獨角獸Mistral AI發(fā)布并開源編程系列模型Devstral 2，該系列分為兩個不同規(guī)格的模型Devstral 2 132B和Devstral Small 2 24B。此外，Mistral還同時推出了原生CLI工具Mistral Vibe，能實現(xiàn)端到端的代碼自動化。此次發(fā)布距Mistral 3系列模型才過去一周。

Devstral 2參數(shù)為123B，支持256K上下文窗口，可以探索代碼庫，并能在保持架構(gòu)層面上下文理解的同時，進行跨文件協(xié)調(diào)更改；Devstral Small 2參數(shù)為24B，同樣具備256K上下文窗口，支持快速推理和反饋，可以定制和本地部署，同時還支持圖像輸入，可應用于多模態(tài)Agents。

在SWE-bench Verified編程基準測試中，Devstral 2取得了72.2%的成績，優(yōu)于Qwen 3 coder plus、Kimi K2 Thinking等開源模型，僅次于DeepSeek V3.2；Devstral Small 2取得了68.8%的成績，超過GPT-OOS-120B，和GLM 4.6持平；在針對實際編程任務進行的人工測試中，Devstral 2表現(xiàn)優(yōu)于DeepSeek V3.2。基準測試結(jié)果如下：

此外，在部署上，Devstral 2至少需要四塊H100級GPU，更輕量化的Devstral Small 2可以在消費級硬件上本地運行。

Mistral Vibe是一個由Devstral驅(qū)動的開源命令行編程助手，集成了文件操作、代碼搜索、版本控制及命令執(zhí)行等工具。

Mistral AI是一家法國創(chuàng)企，成立于2023年，由前DeepMind和Meta研究人員成立，專注于開源模型開發(fā)。今年9月，該公司宣布獲得17億歐元（約合人民幣139.9億元）C輪融資，估值達到117億歐元（約合人民幣962.6億元），英偉達曾三次投資這家公司。

一、基準測試位列開源第二，和頂尖閉源還有性能差距

據(jù)Mistral官網(wǎng)，Devstral 2 123B支持探索代碼庫，能跨多個文件協(xié)調(diào)修改，還能保持上下文理解。它可以跟蹤框架依賴、檢測故障，并能通過修正后重試，從而解決如修復錯誤、改造遺留系統(tǒng)等復雜挑戰(zhàn)。

該模型支持微調(diào)，可針對特定編程語言進行優(yōu)化，適配大型企業(yè)代碼庫的需求。

不過，Devstral 2以修改版的MIT協(xié)議發(fā)布，這一協(xié)議對大企業(yè)進行了限制：月收入超過2000萬美元（約合人民幣1.41億元）的公司，在未獲得Mistral單獨商業(yè)許可的情況下，無法使用該模型。

更輕量化的模型Devstral Small 2 24B支持快速推理、迭代反饋和定制，可本地部署，同時還支持圖像輸入，可應用于多模態(tài)Agents。

從基準測試來看，Devstral 2模型位列開源模型的第二名，并正趕超頂尖閉源模型。

Devstral 2在SWE-bench Verified編程基準測試中取得了72.2%的得分，Devstral Small 2取得了68%的得分，在開源模型中已經(jīng)達到了領(lǐng)先水平，Devstral 2的得分僅次于DeepSeek V3.2。

Devstral 2系列模型的亮點在于小參數(shù)設計，其模型在關(guān)鍵基準測試中展現(xiàn)出和頂尖開源模型齊平的性能，卻僅需后者幾分之一的參數(shù)量。

得分只比Devstral 2高0.9%的DeepSeek V3.2，其參數(shù)大小是Devstral 2的5倍，是Devstral Small 2的28倍，而表現(xiàn)次于Devstral 2的Kimi K2 Thinking，其參數(shù)大小是Devstral 2的8倍，是Devstral Small 2的41倍。

不過，Devstral 2系列模型與頂尖閉源模型之間還存在差距。

人工評測結(jié)果顯示，在Cline構(gòu)建的任務場景中，Devstral 2相對DeepSeek V3.2優(yōu)勢明顯，勝率為42.8%，敗率為28.6%。然而，Devstral 2相對頂尖閉源模型Claude Sonnet 4.5敗下陣來，勝率僅為21.4%，敗率為53.1%。

二、端到端代碼自動化，能進行架構(gòu)級推理

Mistral Vibe是基于Devstral模型構(gòu)建的開源命令行編程助手，能通過自然語言交互，接入IDE，實現(xiàn)對代碼庫的探索、修改與變更執(zhí)行。

Mistral Vibe提供了一個交互式對話界面，集成了文件操作、代碼搜索、版本控制及命令執(zhí)行等工具。

它能自動掃描用戶文件結(jié)構(gòu)及Git狀態(tài)，提供相關(guān)上下文信息，能理解整個代碼庫的架構(gòu)，并進行架構(gòu)級推理，此外，它還擁有智能引用、持久化歷史、自動補全和可自定義主題等功能。

開發(fā)者可以通過腳本編程方式運行Mistral Vibe，啟用工具執(zhí)行的自動批準功能，通過簡潔的config.toml配置文件管理本地模型與供應商設置，靈活控制工具權(quán)限。

結(jié)語：平衡高性能與小參數(shù)，為企業(yè)提供了低門檻解決方案

從Mistral 3到Devstral 2系列、Mistral Vibe，Mistral AI正以相當快的進擊速度參與AI競爭，并在模型的高性能與輕量化間實現(xiàn)了平衡，從測試結(jié)果看，Devstral Small 2模型在參數(shù)僅為24B的情況下，依然優(yōu)于不少開源模型，和GLM 4.6打平。

Mistral AI在公告中提到，Devstral 2系列模型專為生產(chǎn)級工作流打造，并被定位為下一代SOTA編程模型。盡管和頂尖閉源編程模型還有很大差距，不過，對大多數(shù)企業(yè)而言，Devstral 2和Devstral Small 2可以作為一個低門檻的初步解決方案，尤其是在和Mistral Vibe的搭配使用上，Devstral 2系列模型或?qū)⒃谔囟ǖ纳a(chǎn)環(huán)節(jié)發(fā)揮作用。

來源：Mistral AI

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.