![]()
法國AI初創(chuàng)公司Mistral于周二發(fā)布了全新的Mistral 3系列開放權(quán)重模型,旨在證明其在公開AI技術(shù)和服務企業(yè)客戶方面能夠超越科技巨頭競爭對手。
此次發(fā)布包含10個模型,其中有一個具備多模態(tài)和多語言能力的大型前沿模型,以及九個可離線運行、完全可定制的小型模型。
Mistral開發(fā)開放權(quán)重語言模型和面向歐洲的AI聊天機器人Le Chat,此前似乎一直在追趕硅谷一些閉源前沿模型的步伐。開放權(quán)重模型會公開發(fā)布其模型權(quán)重,任何人都可以下載和運行。而閉源模型如OpenAI的ChatGPT則保持權(quán)重專有,僅通過API或受控接口提供訪問。
這家成立兩年的初創(chuàng)公司由前DeepMind和Meta研究人員創(chuàng)立,迄今已籌集約27億美元資金,估值137億美元。相比之下,競爭對手OpenAI籌集570億美元、估值5000億美元,Anthropic籌集450億美元、估值3500億美元。
但Mistral試圖證明,更大并不總是更好,特別是對于企業(yè)用例。
Mistral聯(lián)合創(chuàng)始人兼首席科學家Guillaume Lample表示:"我們的客戶有時樂于從無需微調(diào)的大型閉源模型開始,但當他們部署時,會發(fā)現(xiàn)成本高昂且速度緩慢。然后他們會找我們微調(diào)小型模型來更高效地處理用例。"
"實際上,絕大多數(shù)企業(yè)用例都可以通過小型模型解決,特別是經(jīng)過微調(diào)后。"Lample繼續(xù)說道。
Lample表示,將Mistral小型模型與閉源競爭對手進行的初步基準比較可能具有誤導性。大型閉源模型可能在開箱即用時表現(xiàn)更好,但真正的收益來自定制化。
"在許多情況下,你實際上可以匹配甚至超越閉源模型的性能。"他說。
Mistral的大型前沿模型名為Mistral Large 3,在重要能力方面追上了OpenAI的GPT-4o和Google的Gemini 2等大型閉源AI模型,同時與多個開放權(quán)重競爭對手不相上下。Large 3是首批集多模態(tài)和多語言能力于一體的開放前沿模型之一,與Meta的Llama 3和阿里巴巴的Qwen3-Omni處于同一水平。
Large 3還采用"細粒度專家混合"架構(gòu),擁有410億活躍參數(shù)和6750億總參數(shù),能夠在256,000上下文窗口內(nèi)進行高效推理。這種設計兼顧速度和能力,可以處理長篇文檔并充當復雜企業(yè)任務的智能體助手。
Mistral推出的新小型模型系列名為Ministral 3,公司大膽聲稱小型模型不僅足夠,而且更優(yōu)秀。
該系列包括九個不同的高性能密集模型,涵蓋三種規(guī)模(140億、80億和30億參數(shù))和三種變體:Base(預訓練基礎(chǔ)模型)、Instruct(針對對話和助手式工作流優(yōu)化的聊天模型)和Reasoning(針對復雜邏輯和分析任務優(yōu)化)。
Mistral表示,這種范圍為開發(fā)者和企業(yè)提供了靈活性,可以根據(jù)確切的性能需求匹配模型。公司聲稱Ministral 3的得分與其他開放權(quán)重領(lǐng)導者相當或更好,同時更高效,在執(zhí)行同等任務時生成更少的Token。所有變體都支持視覺,處理128,000-256,000上下文窗口,并支持多種語言。
實用性是推廣的重要部分。Lample強調(diào)Ministral 3可以在單個GPU上運行,使其能夠部署在經(jīng)濟實惠的硬件上——從本地服務器到筆記本電腦、機器人和其他可能連接有限的邊緣設備。這不僅對保持數(shù)據(jù)內(nèi)部的企業(yè)很重要,對尋求離線反饋的學生或在偏遠環(huán)境中操作的機器人團隊也很重要。
"確保AI對每個人都可訪問是我們使命的一部分,特別是那些沒有互聯(lián)網(wǎng)接入的人。我們不希望AI僅由幾個大型實驗室控制。"他說。
這種可訪問性推動了Mistral日益增長的物理AI關(guān)注。今年早些時候,公司開始致力于將其小型模型集成到機器人、無人機和車輛中。Mistral正在與新加坡內(nèi)政部科技局合作開發(fā)機器人、網(wǎng)絡安全系統(tǒng)和消防安全的專用模型;與德國國防科技初創(chuàng)公司Helsing合作開發(fā)無人機的視覺-語言-行動模型;與汽車制造商Stellantis合作開發(fā)車載AI助手。
對Mistral而言,可靠性和獨立性與性能同樣重要。
"使用競爭對手每兩周就會宕機半小時的API——如果你是大公司,無法承受這種情況。"Lample說。
Q&A
Q1:Mistral 3系列模型有什么特點?
A:Mistral 3系列包含10個模型,有一個具備多模態(tài)和多語言能力的大型前沿模型Mistral Large 3,以及九個可離線運行、完全可定制的小型模型Ministral 3。這些模型采用開放權(quán)重設計,任何人都可以下載和運行。
Q2:為什么Mistral認為小型模型比大型模型更好?
A:Mistral認為大型閉源模型雖然開箱即用效果好,但部署時成本高昂且速度緩慢。而小型模型經(jīng)過微調(diào)后,在許多企業(yè)用例中可以匹配甚至超越閉源模型性能,同時更高效、成本更低。
Q3:Ministral 3模型可以在什么設備上運行?
A:Ministral 3可以在單個GPU上運行,能夠部署在經(jīng)濟實惠的硬件上,包括本地服務器、筆記本電腦、機器人和其他邊緣設備,特別適合連接有限或需要離線運行的環(huán)境。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.