![]()
智東西
作者 李水青
編輯 云鵬
智東西2月25日報道,今日,阿里推出馬年首批新模型——Qwen3.5中型模型系列,包括推出Qwen3.5-122B-A10B、Qwen3.5-35B-A3B、Qwen3.5-27B(Dense)三款開源模型,同時Qwen3.5-Flash(Qwen3.5-35B-A3B生產版本)API已上線阿里云百煉。
Qwen3.5最新三款中型模型在指令遵循、研究生級推理、哈佛-MIT數學競賽級數學、多語言知識、智能體工具使用等
12項能力測評中,在通用推理、數學、智能體、多模態等多個方面,整體表現可與GPT-5 mini、Claude Sonnet 4.5等國際一流模型相媲美。
![]()
▲Qwen3.5中型模型系列測評情況
模型一經發布在開發者圈引起關注。多位開發者稱這些模型尺寸是本地推理的絕佳選擇,贊嘆其“更小模型實現更強性能”,甚至有人稱Qwen3.5-35B-A3B有望將其每月花費從2000歐元(購買Gemini服務)降至50歐元,大大節省成本。![]()
▲社交平臺X上的網友評論
具體來看,其中最受關注的Qwen3.5-35B-A3B,性能已超越參數規模大數倍的Qwen3-235B-A22B-2507和Qwen3-VL-235B-A22B。正如一位海外網友所說:“架構+數據質量>原始參數。我一年來一直這么說。”
![]()
▲社交平臺X上的網友評論
Qwen3.5-122B-A10B和Qwen3.5-27B進一步縮小了中型模型與前沿模型之間的差距,尤其是在復雜智能體場景中表現突出。Qwen3.5-Flash是與35B-A3B版本一致的托管生產版本,主打以較快速度提供強性能,每百萬Token價格低至0.2元,默認支持1M超長上下文長度,滿足長文檔與復雜任務處理需求。
目前,Qwen Chat上的模型均已更新為Qwen3.5系列,最新四款中型模型也已上線。智東西第一時間對這三款開源模型進行了初步體驗,發現這三款中型模型已能滿足多種日常的多模態理解、知識解答、視覺編程等任務,達到匹敵Qwen3-235B-A22B-2507的效果,不過在SVG卡通場景繪制等場景仍有提升空間。
![]()
▲四款新模型已上線Qwen Chat
持續迭代的產品力有望讓阿里千問占據更大市場。近期,國際市場調研機構沙利文報告顯示,2025年下半年,中國企業級大模型日均調用量千問(Qwen)占比32.1%位列第一,相較上半年的17.7%幾乎翻倍,相比字節豆包(21.3%)、DeepSeek(18.4%)領先優勢擴大。
Hugging Face地址:
https://huggingface.co/collections/Qwen/qwen35
魔搭社區地址:
https://modelscope.cn/collections/Qwen/Qwen35
體驗地址:
https://chat.qwen.ai/
一、實測多模態與知識能力出色,小體格編程,SVG生成待提升
在智東西的初步體驗中,三款模型在多模態理解和知識能力上都效果不錯。
比如當我上傳一張“公雞根雕”的圖片,三款模型都能夠準確識別其為根雕藝術品,能夠根據顏色和紋理準確識別材料為“崖柏”,能結合中國傳統文化解讀這一物件的意義,甚至能基于材質、工藝水平、尺寸大小等因素進行價格評估,評估結果基本符合這一領域的專業水平,令人很驚喜。
如下圖所示,Qwen3.5-122B-A10B和Qwen3.5-35B-A3B的輸出答案都基本接近事實,對“這是什么物件,用的什么原材料,有什么寓意,可能值多少錢?”四個問題進行了準確的理解作答。
![]()
![]()
![]()
![]()
▲Qwen3.5-122B-A10B生成的答案
Qwen3.5-27B的輸出內容在形式上更加別出心裁,不僅對幾個問題進行了準確回答,還通過圖表、格式變化等方式,讓內容呈現更加重點分明,并最終給出了“5000-15000元”較為直接可參考的估價,體現了其“工程實用度高”的特點。
![]()
![]()
![]()
![]()
![]()
![]()
▲Qwen3.5-27B生成的答案
而后智東西著重考察了Qwen3.5-27B(Dense)的編程能力,讓其生成一個“虛擬助手個人智能體OpenQwen的官方主頁”,并提出“該助手可輔助編程、辦公、購物等各類事務。生成高質量圖片作為網站素材,包含智能體頭像及功能使用場景演示”等特征。
如下圖所示,Qwen3.5-27B能夠比較完整地生成這一網站的頁面,邏輯上基本與提示詞描述契合,展現其以較小參數規模實現了較強視覺編程能力的特征。不過相比Qwen3.5-397B-A17B的視覺編程能力,Qwen3.5-27B在視覺元素豐富程度、交互性等方面仍有一些差距。
![]()
![]()
![]()
![]()
![]()
▲Qwen3.5-27B生成的代碼預覽情況(部分)
![]()
▲Qwen3.5-397B-A17B生成的代碼預覽情況
而在SVG卡通場景繪制的場景中,智東西要求三款模型輸出“陽光沙灘”的SVG卡通圖,對尺寸、主題、元素、風格和細節要求具體,三款模型在復雜約束下輸出的SVG基本結構清晰,但太陽、海浪、遮陽傘、椰子樹等物體的貼近程度仍表現不足。
![]()
▲提示詞
Qwen3.5-122B-A10B生成的SVG相對更加準確,椰子樹下的陰影更符合物理規律,畫面的飽和度更加高。
![]()
▲Qwen3.5-122B-A10B生成的SVG
![]()
▲Qwen3.5-35B-A3B生成的SVG
![]()
▲Qwen3.5-27B生成的SVG
二、35B模型超235B,開發者喜迎降本,催更1B小版本
2月16日,阿里正式推出原生視覺語言模型Qwen3.5,Qwen3.5系列的第一款模型Qwen3.5-397B-A17B首次以開源權重形式亮相,該模型在推理、編程、智能體能力與多模態理解等全方位基準評估中領先,引起產業關注。
僅僅一周多之后,阿里發布了Qwen3.5系列幾款中型模型,進一步在海內外引起開發者的高熱討論。
其中最受關注的當屬擁有350億參數的Qwen3.5-35B-A3B。多位網友稱Qwen3.5-35B-A3B擊敗2350億參數的Qwen3-235B-A22B-2507是“重點”、“大新聞”。
有網友稱:“更小的模型在更便宜的硬件上運行速度更快,同時還能達到甚至超越大型模型的性能——這才是AI真正的民主化。”還有網友分享:“我現在在一個項目上每月要花2000歐元購買Gemini服務,如果這是真的,那費用就降到每月50歐元了。”
![]()
▲社交平臺X上的網友評論
一位開發者分享了其部署Qwen3.5-35B-A3B的情況,稱模型可以跑在16GB的顯存機器上,處理32k上下文時,每秒處理數能達到60-70個任務;但他也提到,模型吞token的速度驚人,一個短謎題就用了大約6k token,但最終答案是正確的。
![]()
▲社交平臺X上的網友評論
Qwen3.5-27B的模型參數更小,也做到了“小規模強性能”。一位網友稱:“Qwen3.5-27B型號的得分為何如此之高?GGUF版本何時發布?”另一位網友也稱:“這次發布太棒了!我對27B參數模型特別感興趣,不過以后你們能不能把GGUF模型也和主版本一起發布?這樣用戶就能更快地用上這個模型。”
![]()
![]()
▲社交平臺X上的網友評論
也有網友開啟了催更模式。有網友稱:“有計劃發布小型模型嗎?比如1B/3B/7B?”,也有網友喊話:“我希望未來幾周內也能推出2-4B參數的型號,Qwen3-4B-2507或許是迄今為止性能與體積比最高的型號,我希望你們能延續這一傳統。”
![]()
![]()
▲社交平臺X上的網友評論
不過也有網友表達了更高的期待:“我真搞不懂為什么這張圖表(測評圖表)里沒有Claude Sonnet 4.6和Opus 4.5這兩款在SWE認證評分中分別高達79.6分和80.6分的機型。”
![]()
▲社交平臺X上的網友評論
三、基準測試:122B大而全,35B強在智能體,27B工程實用度高
看完實際體驗,我們再回過頭來看看具體的測評成績。從這三款模型的定位來看:
Qwen3.5-122B-A10B是一個相對大而全的模型,綜合能力最強,相對適合多模態、視頻、多語言場景;
Qwen3.5-35B-A3B的優勢集中在智能體深度能力,適用于智能體規劃、深度推理、任務調度,空間智能能力強;
Qwen3.5-27B(Dense)主打輕量化部署,工程實用度高,交互、編程、長文本、數學拔尖。
在知識維度,Qwen3.5-122B-A10B在專業領域知識與推理(MMLU-Pro)、多語言與多領域知識(MMLU-Redux)、研究生級知識與推理(SuperGPQA)三項取得最高分。在指令跟隨、長上下文處理和STEM推理三大維度,Qwen3.5全系列都取得領先的成績。
在編程能力上,Qwen3.5-27B在SWE-bench Verified(真實軟件工程問題解決能力)中取得最高分,Qwen3.5-122B-A10B在Terminal Bench 2(終端環境下的代碼執行與調試能力)和 FullStackBench en(英文全棧開發能力)中表現最佳。
在通用智能體維度,Qwen3.5系列呈“梯隊式優勢”,在BFCL-V4(通用智能體工具使用能力)、TAU2-Bench(智能體任務執行與適配能力)、DeepPlanning(智能體深度規劃與邏輯推演能力)等多項測評中取得最佳成績。在搜索智能體維度,Qwen3.5-122B-A10B主導英文/中文瀏覽檢索,Qwen3.5-27B包攬復雜推理與綜合搜索最高分。
![]()
![]()
![]()
![]()
在多語言能力維度,Qwen3.5-122B-A10B表現尤為突出。在多模態能力維度,其在通用VQA領域也表現強勢,拿下RealWorldQA(真實世界場景下的視覺問答能力)、MMStar(多模態綜合理解與推理能力)等四項最高分;Qwen3.5-27B在HallusionBench(多模態幻覺抑制與事實一致性能力)、CharXiv(RQ)(學術文檔的理解與檢索能力)等評測中表現最佳。
在空間智能方面,Qwen3.5系列實現全維度領跑。在視頻理解方面,Qwen3.5-122B-A10B成為本次測評的絕對領跑者,包攬帶字幕的視頻多模態理解能力、視頻與語言結合的跨模態理解能力等6項單項最高分。
聚焦視覺智能體與專業視覺能力,Qwen3.5系列壟斷視覺智能體與醫療視覺核心能力:在8項測評中,Qwen3.5系列包攬了6項最高分,僅在桌面系統交互(OSWorld-Verified)上落后于GPT-5-mini,整體視覺智能體與醫療視覺能力領先。
![]()
![]()
![]()
![]()
![]()
![]()
四、對比Qwen3,解讀Qwen3.5五大技術升級
按照千問研發團隊的思路,智能進步的關鍵,從來不是堆參數,而是更優架構+更高質量數據+強化學習(RL)的有效協同。
相比于阿里上一代旗艦模型Qwen3,Qwen3.5具有以下增強功能:
統一視覺語言基礎:在多模態標記上進行早期融合訓練,實現了與Qwen3的跨代對等,并在推理、編碼、Agent和視覺理解基準測試中優于Qwen3-VL模型。
高效混合架構:門控Delta網絡與稀疏混合專家相結合,可實現高吞吐量推理,同時最大限度地減少延遲和成本開銷。
可擴展的強化學習泛化:將強化學習擴展到百萬智能體環境,并逐步增加任務分布的復雜性,以實現強大的現實世界適應性。
全球語言覆蓋范圍:擴展支持201種語言和方言,實現包容性的全球部署,并具備細致入微的文化和區域理解。
下一代訓練基礎設施:與僅文本訓練相比,多模態訓練效率接近100%,異步RL框架支持大規模代理支架和環境編排。
結語:企業級大模型市場頭部效應初顯,產品迭代速度是關鍵
通過此次發布Qwen3.5中型模型系列,阿里試圖以“更優架構+更高質量數據+強化學習”,驗證了“規模法則”之外的另一條進化路徑。
三款模型的發布時間距離Qwen3.5-397B-A17B僅一周,分別切入多模態、智能體深度推理與輕量化部署三大場景,在開發者圈引發了模型成本熱議,也快速補齊了其產品矩陣。
從市場格局看,Qwen系列在國內企業級市場的日均調用量份額從17.7%躍升至32.1%,進一步拉大領先優勢。此次發布通過分層產品矩陣,有望進一步鞏固其在企業級市場的頭部地位。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.