網易首頁 > 網易號 > 正文申請入駐

阿里Qwen3.5馬年首開源！35B性能逆襲235B，給開發者送省錢絕招

2026-02-25 19:57:23　來源: 智東西

北京舉報

分享至

智東西
作者李水青
編輯云鵬

智東西2月25日報道，今日，阿里推出馬年首批新模型——Qwen3.5中型模型系列，包括推出Qwen3.5-122B-A10B、Qwen3.5-35B-A3B、Qwen3.5-27B（Dense）三款開源模型，同時Qwen3.5-Flash（Qwen3.5-35B-A3B生產版本）API已上線阿里云百煉。

Qwen3.5最新三款中型模型在指令遵循、研究生級推理、哈佛-MIT數學競賽級數學、多語言知識、智能體工具使用等
12項能力測評中，在通用推理、數學、智能體、多模態等多個方面，整體表現可與GPT-5 mini、Claude Sonnet 4.5等國際一流模型相媲美。

▲Qwen3.5中型模型系列測評情況

模型一經發布在開發者圈引起關注。多位開發者稱這些模型尺寸是本地推理的絕佳選擇，贊嘆其“更小模型實現更強性能”，甚至有人稱Qwen3.5-35B-A3B有望將其每月花費從2000歐元（購買Gemini服務）降至50歐元，大大節省成本。

▲社交平臺X上的網友評論

具體來看，其中最受關注的Qwen3.5-35B-A3B，性能已超越參數規模大數倍的Qwen3-235B-A22B-2507和Qwen3-VL-235B-A22B。正如一位海外網友所說：“架構+數據質量>原始參數。我一年來一直這么說。”

▲社交平臺X上的網友評論

Qwen3.5-122B-A10B和Qwen3.5-27B進一步縮小了中型模型與前沿模型之間的差距，尤其是在復雜智能體場景中表現突出。Qwen3.5-Flash是與35B-A3B版本一致的托管生產版本，主打以較快速度提供強性能，每百萬Token價格低至0.2元，默認支持1M超長上下文長度，滿足長文檔與復雜任務處理需求。

目前，Qwen Chat上的模型均已更新為Qwen3.5系列，最新四款中型模型也已上線。智東西第一時間對這三款開源模型進行了初步體驗，發現這三款中型模型已能滿足多種日常的多模態理解、知識解答、視覺編程等任務，達到匹敵Qwen3-235B-A22B-2507的效果，不過在SVG卡通場景繪制等場景仍有提升空間。

▲四款新模型已上線Qwen Chat

持續迭代的產品力有望讓阿里千問占據更大市場。近期，國際市場調研機構沙利文報告顯示，2025年下半年，中國企業級大模型日均調用量千問（Qwen）占比32.1%位列第一，相較上半年的17.7%幾乎翻倍，相比字節豆包（21.3%）、DeepSeek（18.4%）領先優勢擴大。

Hugging Face地址：
https://huggingface.co/collections/Qwen/qwen35
魔搭社區地址：
https://modelscope.cn/collections/Qwen/Qwen35
體驗地址：
https://chat.qwen.ai/

一、實測多模態與知識能力出色，小體格編程，SVG生成待提升

在智東西的初步體驗中，三款模型在多模態理解和知識能力上都效果不錯。

比如當我上傳一張“公雞根雕”的圖片，三款模型都能夠準確識別其為根雕藝術品，能夠根據顏色和紋理準確識別材料為“崖柏”，能結合中國傳統文化解讀這一物件的意義，甚至能基于材質、工藝水平、尺寸大小等因素進行價格評估，評估結果基本符合這一領域的專業水平，令人很驚喜。

如下圖所示，Qwen3.5-122B-A10B和Qwen3.5-35B-A3B的輸出答案都基本接近事實，對“這是什么物件，用的什么原材料，有什么寓意，可能值多少錢？”四個問題進行了準確的理解作答。

▲Qwen3.5-122B-A10B生成的答案

Qwen3.5-27B的輸出內容在形式上更加別出心裁，不僅對幾個問題進行了準確回答，還通過圖表、格式變化等方式，讓內容呈現更加重點分明，并最終給出了“5000-15000元”較為直接可參考的估價，體現了其“工程實用度高”的特點。

▲Qwen3.5-27B生成的答案

而后智東西著重考察了Qwen3.5-27B（Dense）的編程能力，讓其生成一個“虛擬助手個人智能體OpenQwen的官方主頁”，并提出“該助手可輔助編程、辦公、購物等各類事務。生成高質量圖片作為網站素材，包含智能體頭像及功能使用場景演示”等特征。

如下圖所示，Qwen3.5-27B能夠比較完整地生成這一網站的頁面，邏輯上基本與提示詞描述契合，展現其以較小參數規模實現了較強視覺編程能力的特征。不過相比Qwen3.5-397B-A17B的視覺編程能力，Qwen3.5-27B在視覺元素豐富程度、交互性等方面仍有一些差距。

▲Qwen3.5-27B生成的代碼預覽情況（部分）

▲Qwen3.5-397B-A17B生成的代碼預覽情況

而在SVG卡通場景繪制的場景中，智東西要求三款模型輸出“陽光沙灘”的SVG卡通圖，對尺寸、主題、元素、風格和細節要求具體，三款模型在復雜約束下輸出的SVG基本結構清晰，但太陽、海浪、遮陽傘、椰子樹等物體的貼近程度仍表現不足。

▲提示詞

Qwen3.5-122B-A10B生成的SVG相對更加準確，椰子樹下的陰影更符合物理規律，畫面的飽和度更加高。

▲Qwen3.5-122B-A10B生成的SVG

▲Qwen3.5-35B-A3B生成的SVG

▲Qwen3.5-27B生成的SVG

二、35B模型超235B，開發者喜迎降本，催更1B小版本

2月16日，阿里正式推出原生視覺語言模型Qwen3.5，Qwen3.5系列的第一款模型Qwen3.5-397B-A17B首次以開源權重形式亮相，該模型在推理、編程、智能體能力與多模態理解等全方位基準評估中領先，引起產業關注。

僅僅一周多之后，阿里發布了Qwen3.5系列幾款中型模型，進一步在海內外引起開發者的高熱討論。

其中最受關注的當屬擁有350億參數的Qwen3.5-35B-A3B。多位網友稱Qwen3.5-35B-A3B擊敗2350億參數的Qwen3-235B-A22B-2507是“重點”、“大新聞”。

有網友稱：“更小的模型在更便宜的硬件上運行速度更快，同時還能達到甚至超越大型模型的性能——這才是AI真正的民主化。”還有網友分享：“我現在在一個項目上每月要花2000歐元購買Gemini服務，如果這是真的，那費用就降到每月50歐元了。”

▲社交平臺X上的網友評論

一位開發者分享了其部署Qwen3.5-35B-A3B的情況，稱模型可以跑在16GB的顯存機器上，處理32k上下文時，每秒處理數能達到60-70個任務；但他也提到，模型吞token的速度驚人，一個短謎題就用了大約6k token，但最終答案是正確的。

▲社交平臺X上的網友評論

Qwen3.5-27B的模型參數更小，也做到了“小規模強性能”。一位網友稱：“Qwen3.5-27B型號的得分為何如此之高？GGUF版本何時發布？”另一位網友也稱：“這次發布太棒了！我對27B參數模型特別感興趣，不過以后你們能不能把GGUF模型也和主版本一起發布？這樣用戶就能更快地用上這個模型。”

▲社交平臺X上的網友評論

也有網友開啟了催更模式。有網友稱：“有計劃發布小型模型嗎？比如1B/3B/7B？”，也有網友喊話：“我希望未來幾周內也能推出2-4B參數的型號，Qwen3-4B-2507或許是迄今為止性能與體積比最高的型號，我希望你們能延續這一傳統。”

▲社交平臺X上的網友評論

不過也有網友表達了更高的期待：“我真搞不懂為什么這張圖表（測評圖表）里沒有Claude Sonnet 4.6和Opus 4.5這兩款在SWE認證評分中分別高達79.6分和80.6分的機型。”

▲社交平臺X上的網友評論

三、基準測試：122B大而全，35B強在智能體，27B工程實用度高

看完實際體驗，我們再回過頭來看看具體的測評成績。從這三款模型的定位來看：

Qwen3.5-122B-A10B是一個相對大而全的模型，綜合能力最強，相對適合多模態、視頻、多語言場景；

Qwen3.5-35B-A3B的優勢集中在智能體深度能力，適用于智能體規劃、深度推理、任務調度，空間智能能力強；

Qwen3.5-27B（Dense）主打輕量化部署，工程實用度高，交互、編程、長文本、數學拔尖。

在知識維度，Qwen3.5-122B-A10B在專業領域知識與推理（MMLU-Pro）、多語言與多領域知識（MMLU-Redux）、研究生級知識與推理（SuperGPQA）三項取得最高分。在指令跟隨、長上下文處理和STEM推理三大維度，Qwen3.5全系列都取得領先的成績。

在編程能力上，Qwen3.5-27B在SWE-bench Verified（真實軟件工程問題解決能力）中取得最高分，Qwen3.5-122B-A10B在Terminal Bench 2（終端環境下的代碼執行與調試能力）和 FullStackBench en（英文全棧開發能力）中表現最佳。

在通用智能體維度，Qwen3.5系列呈“梯隊式優勢”，在BFCL-V4（通用智能體工具使用能力）、TAU2-Bench（智能體任務執行與適配能力）、DeepPlanning（智能體深度規劃與邏輯推演能力）等多項測評中取得最佳成績。在搜索智能體維度，Qwen3.5-122B-A10B主導英文/中文瀏覽檢索，Qwen3.5-27B包攬復雜推理與綜合搜索最高分。

在多語言能力維度，Qwen3.5-122B-A10B表現尤為突出。在多模態能力維度，其在通用VQA領域也表現強勢，拿下RealWorldQA（真實世界場景下的視覺問答能力）、MMStar（多模態綜合理解與推理能力）等四項最高分；Qwen3.5-27B在HallusionBench（多模態幻覺抑制與事實一致性能力）、CharXiv（RQ）（學術文檔的理解與檢索能力）等評測中表現最佳。

在空間智能方面，Qwen3.5系列實現全維度領跑。在視頻理解方面，Qwen3.5-122B-A10B成為本次測評的絕對領跑者，包攬帶字幕的視頻多模態理解能力、視頻與語言結合的跨模態理解能力等6項單項最高分。

聚焦視覺智能體與專業視覺能力，Qwen3.5系列壟斷視覺智能體與醫療視覺核心能力：在8項測評中，Qwen3.5系列包攬了6項最高分，僅在桌面系統交互（OSWorld-Verified）上落后于GPT-5-mini，整體視覺智能體與醫療視覺能力領先。

四、對比Qwen3，解讀Qwen3.5五大技術升級

按照千問研發團隊的思路，智能進步的關鍵，從來不是堆參數，而是更優架構+更高質量數據+強化學習（RL）的有效協同。

相比于阿里上一代旗艦模型Qwen3，Qwen3.5具有以下增強功能：

統一視覺語言基礎：在多模態標記上進行早期融合訓練，實現了與Qwen3的跨代對等，并在推理、編碼、Agent和視覺理解基準測試中優于Qwen3-VL模型。

高效混合架構：門控Delta網絡與稀疏混合專家相結合，可實現高吞吐量推理，同時最大限度地減少延遲和成本開銷。

可擴展的強化學習泛化：將強化學習擴展到百萬智能體環境，并逐步增加任務分布的復雜性，以實現強大的現實世界適應性。

全球語言覆蓋范圍：擴展支持201種語言和方言，實現包容性的全球部署，并具備細致入微的文化和區域理解。

下一代訓練基礎設施：與僅文本訓練相比，多模態訓練效率接近100%，異步RL框架支持大規模代理支架和環境編排。

結語：企業級大模型市場頭部效應初顯，產品迭代速度是關鍵

通過此次發布Qwen3.5中型模型系列，阿里試圖以“更優架構+更高質量數據+強化學習”，驗證了“規模法則”之外的另一條進化路徑。

三款模型的發布時間距離Qwen3.5-397B-A17B僅一周，分別切入多模態、智能體深度推理與輕量化部署三大場景，在開發者圈引發了模型成本熱議，也快速補齊了其產品矩陣。

從市場格局看，Qwen系列在國內企業級市場的日均調用量份額從17.7%躍升至32.1%，進一步拉大領先優勢。此次發布通過分層產品矩陣，有望進一步鞏固其在企業級市場的頭部地位。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.