![]()
新智元報道
編輯:傾傾
【新智元導讀】中美正忙著堆算力打AI戰,歐洲卻突然殺出一條血路:模型落地更重要!Mistral一口氣扔出Large 3和Ministral 3,全開源、能看圖、能跑在大多數電子設備上,甚至斷網也能用。未來,AI是巨頭的專屬權力,還是人人都能握在手中的智能?這一次,歐洲給出了自己的答案。
就在昨天,「歐洲版DeepSeek」一口氣公布了兩件事:
一個MoE大模型:Mistral Large 3
一套小模型:Ministral 3(14B/8B/3B)
全部開源、全部多模態、全部能落地。
![]()
Mistral Large 3
這次Mistral推出的Mistral Large 3,規格上看幾乎是「開源界的準天花板」:
41B active / 675B total的MoE架構、原生圖像理解、256k context、多語言能力在非英中語種上強得離譜,LMArena排名直接殺到開源模型第6。
![]()
Mistral Large 3的ELO得分在開源大模型中穩居第一梯隊,和Kimi K2打成平手,僅落后DeepSeek v3.2一小截
它的底模表現也不弱,在多個基礎任務上與DeepSeek、Kimi這種體量更大的模型正面交手。
![]()
Mistral Large 3(Base)在MMLU、GPOA、SimpleQA、AMC、LiveCodeBench等多項基礎任務上與DeepSeek 37B、Kimi K2 127B保持同一水平,屬于開源系的第一梯隊底模
再看預訓練能力,它和Qwen、Gemma的底模在核心評測上也是正面硬剛:
![]()
Mistral Large 3在多個核心基準上與DeepSeek、Qwen正面對比
但官方卻沒把重點放在數值上,反而強調:
我們開源Apache 2.0,全權在你;你想怎么改、怎么部署都行
為了實現這一點,他們和NVIDIA做了一件簡單,但卻很關鍵的事:
為了讓Large 3運行得更穩定,Mistral聯合NVIDIA把底層推理鏈路重新做了一遍:
采用NVIDIA的FP4,并重寫了Blackwell的注意力與MoE內核,讓Large 3在Blackwell NVL72上既快、又穩、又便宜。
這不是簡單的適配,而是把Blackwell的注意力機制、MoE內核、預填充/解碼分離和投機解碼等關鍵推理路徑重新做了一遍。
![]()
Ministral 3系列
真正讓Mistral得意的,是Ministral 3系列。
它們體量小,但性能強。
3B、8B、14B三種大小,全部有base、instruct、reasoning三個版本,全部能看圖,全部在官方benchmark里表現不俗。
這意味著:你的筆記本能跑,你的臺式機能跑,無人機、機器人、汽車、邊緣攝像頭都能跑,甚至脫離互聯網也能跑。
更關鍵的是,模型不只是「小」,而是「更聰明」。
Ministral 3的instruct版本在綜合智能指數上的得分分別是31(14B)/ 28(8B)/ 22(3B)──全部跑贏上一代Mistral Small 3.2,參數量甚至多40%。
也就是說這代小模型不僅便宜、能跑在更多設備上,本身能力也從底層被拉升了一大截。
![]()
Large 3相比上一代Large 2提升了11分,達到38分。
但即便這樣,它仍沒有進入GPT-5、Gemini 3、Claude Opus那種頂級專有模型所在的第一梯隊。
Artificial Analysis的綜合榜單里,前排依舊被GPT-5、Gemini 3、Opus系列占據;
DeepSeek和Qwen也在持續貼近第一梯隊,Mistral Large 3則恰好卡在兩者之間。
![]()
這是一次可見的進步,但它的定位從來都不是「跑分之王」。
但這并不影響它的工程價值。Large 3用的是稀疏MoE架構,本身就很吃算力。
所以這次Mistral直接和NVIDIA深度綁定,把Blackwell 系列最新的注意力機制、MoE加速內核都接了上來。
![]()
最有意思的是,他們一起把「預填充 / 解碼分離」和「投機解碼」也做進了底層,讓長文本、高并發這種企業級場景跑起來更穩、更快。
更關鍵的是,Ministral 3系列不僅體積小,它們已經被官方優化到能直接跑在各種真實設備上:DGX Spark、RTX PC、普通筆記本,甚至是 Jetson 這種嵌入式板子。
從數據中心到機器人,從工廠到無人機,只要有塊GPU,就能跑Mistral的小模型。
![]()
Mistral Large 3(Instruct)在真實任務評估中對比 DeepSeek V3.1 / Kimi K2的勝率
再看reasoning版,AIME’25(數學推理)能在14B下做到85%。
![]()
Ministral 14B的底模實力遠超同量級對手,在數學、知識問答、多語言任務中幾乎全面領先Gemma 13B和Qwen 1.8B
![]()
Ministral 14B(Reasoning)在AIME’25、LiveCodeBench、GPOA Diamond、HMMT等推理任務上全面領先Qwen 14B「Thinking」,數學和代碼推理幾乎是同量級中的天花板。
![]()
Ministral 14B(Instruction)在WildBench、Arena Hard、數學推理和多模態任務上全面領先Gemma 13B與Qwen 1.8B,指令調優后的綜合能力幾乎碾壓同量級模型。
這在小模型推理中,幾乎是突破天花板的表現。
Mistral首席科學家Guillaume Lample一語點破:
超過90%的企業任務,用微調過的小模型就足夠了。
這相當于對OpenAI的直接挑釁。
OpenAI的最強模型需要昂貴的顯卡,每個token都在燒錢;Google、Anthropic的Agentic模型配置更高。
但企業真正要的是:能用、可控、便宜、可靠。
Ministral 3正是在針對這一痛點。
![]()
Lample在一次采訪中提到這樣一個有趣的現象:
很多公司用最強閉源模型做原型,結果上線時發現成本太貴、延遲太高,只能退回來找我們。
閉源頭部模型有天然的缺陷:出了問題企業無法修復,企業數據必須上傳云端,成本高的嚇人......
Mistral直擊要害:模型不夠好?我們下場幫你造數據、幫你調模型。
他們直接派工程師進駐客戶公司,把模型變成按需定制的「企業專屬AI」。
用一個14B,干掉別人70B、400B的大模型,在企業場景里完全可能。
![]()
在真實人工評估中,Mistral Large 3在通用任務和多語言任務里對DeepSeek V3.1、Kimi K2取得53%–60%的勝率
Mistral的野心
把視線從模型本身移開,就會發現Mistral不僅僅是賣模型。
它在悄悄把自己變成一種平臺型的存在,而那套結構現在已經清晰到讓人無法忽視。
Mistral Agents API,它不僅能跑模型,還能直接在API內部接Code Interpreter、執行代碼、接連工具、保持長期記憶、做結構化推理。
![]()
Magistral,專門為「復雜推理、透明推理、多語言推理」訓練的模型系列。
還有突然爆火的AI Studio。官方稱其能「部署在任何地方」。
![]()
由此可見,Mistral在走一種不同尋常的AI路線。
它不像美國那套「云端神諭」,更像是歐洲式的「軟件制造業」哲學:
把能力做成標準件,讓所有人隨取隨用。
Mistral 3的發布,讓全球AI版圖出現了一個新的裂縫。
一邊是不斷做大的「云端巨獸」,另一邊是開始滲透到筆記本、無人機、工廠、公共機構里的「小而強AI」。
AI的未來到底屬于幾家巨頭,還是屬于每個人的設備、每個國家的生態?
這場爭奪從今天才正式開盤。
參考資料:
https://mistral.ai/news/mistral-3
https://venturebeat.com/ai/mistral-launches-mistral-3-a-family-of-open-models-designed-to-run-on
https://x.com/MistralAI/status/1995872768601325836 https://x.com/ArtificialAnlys/status/1995946145236001168
秒追ASI
?點贊、轉發、在看一鍵三連?
點亮星標,鎖定新智元極速推送!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.