網易首頁 > 網易號 > 正文申請入駐

除夕迎「源神」？Qwen3.5以小勝大，大模型競賽下半場開始了

2026-02-16 22:45:48　來源: 機器之心Pro

河北舉報

分享至

編輯｜+0、張倩

農歷蛇年的最后一天，當所有人都覺得「今年就卷到這里」的時候，Qwen3.5-Plus來了！

它的特點一句話就可以概括：又強又便宜。

「強」體現在，模型發布即登頂。大家現在最關注的幾項核心能力 —— 多模態理解、復雜推理、編程、Agent 智能體，Qwen3.5-Plus 在同級開源模型里都沒有對手，又一次強化了社區里「最強開源 = 千問」的思想烙印。在多項基準上，它甚至能媲美或超越 GPT-5.2、Gemini-3-pro 等幾個第一梯隊的閉源模型。

那它有多「便宜」呢？每百萬 Token 只要 0.8 元，還沒今天你手里拿的一小把瓜子貴。而它對標的 Gemini-3-pro，價格足足是它的 18 倍。

這一定價不是刻意壓縮成本的結果，而是由技術決定的。在一系列架構創新的加持下，Qwen3.5-Plus 的參數被極致精簡，但性能卻更強悍 —— 只用 3970 億的參數（激活參數只有 170 億）就超過了萬億參數的 Qwen3-Max。參數少了，跑起來自然輕盈，部署成本直降 60%，推理吞吐量最大提升 19 倍，效率大大提升。

這是第一次，「最強」和「最便宜」出現在了同一個模型上。

在開發者們頭疼都快用不起頂級 AI 的今天，Qwen3.5-Plus 這一「源神」的發布似乎讓大家打消了顧慮：技術紅利不再只屬于金字塔尖，而是開始真正向下滲透，成為人們手中用起來沒有成本焦慮的趁手工具。

Qwen3.5 可以協助進行網頁開發，尤其在構建網頁和設計用戶界面等前端任務方面表現出色。

通過將 OpenClaw 作為第三方智能體環境集成，Qwen3.5 能夠進行網頁搜索、信息收集和結構化報告生成。

借助對圖像像素級位置信息的建模，Qwen3.5 在物體計數、相對位置判斷、空間關系描述等任務中表現更準確。

體驗地址：https://chat.qwen.ai/

當然，性能、價格只是結果，真正值得展開講講的，是支撐這一切的那套底層技術邏輯。讓我們一起看看，Qwen 這次是怎么又一次捅破天花板的。

告別「力大磚飛」

Qwen3.5-Plus 的「以小博大」架構革命

在過去兩年的大模型軍備競賽中，行業普遍信奉「大力出奇跡」，參數量從千億一路狂飆至萬億級別。這種「力大磚飛」的模式雖然推高了性能上限，但也讓算力成本和部署門檻水漲船高。

Qwen3.5-Plus 則展示了一種更為靈巧的解法：不拼絕對體量，拼「聰明程度」與底層架構的極致效率。

具體而言，Qwen3.5-Plus 以 397B 的總參數量，實現了對自家萬億參數模型 Qwen3-Max 的性能超越，且多項基準測試媲美 Gemini-3-pro 和 GPT-5.2 等閉源第一梯隊模型。

這種「以小勝大」的跨級表現，主要歸功于以下四項核心架構創新：

混合注意力機制：傳統大模型在處理長文本時，每個 Token 都需要進行全量的上下文注意力計算，這導致算力消耗隨文本長度呈指數級增長。Qwen3.5-Plus 引入的混合機制賦予了模型「有詳有略」的閱讀能力，能夠根據信息權重動態分配注意力資源，實現了精度與效率的雙重提升。
極致稀疏的 MoE 架構：不同于每次推理都需要激活全量參數的稠密模型，Qwen3.5-Plus 將 MoE（混合專家）架構推向了極致。在其 397B 的總參數中，每次推理僅需激活 17B 的參數量。這意味著模型只需動用不到 5% 的算力，就能調用全局的知識儲備。
原生多 Token 預測：模型打破了傳統大模型「逐字吐出」的生成邏輯，在訓練階段就掌握了對后續多個位置進行聯合預測的能力。這種「一次想好幾步再說」的機制，使其在代碼補全、長文本生成等高頻場景中，推理速度接近翻倍，為用戶帶來幾乎「秒回」的交互體驗。
系統級訓練穩定性優化：為了讓上述復雜架構在大規模訓練中不翻車，阿里引入了多項深層優化，包括歸一化策略與專家路由初始化等。其中最值得一提的是榮獲 NeurIPS 2025 最佳論文獎的「注意力門控機制」。它在注意力層的輸出端精準調控信息流，既過濾了無效噪音，又防止了關鍵信息的流失，大幅增強了長上下文的泛化能力。

在這套組合拳的加持下，Qwen3.5-Plus 不僅訓練成本大降，算力部署成本較 Qwen3-Max 也降低了 60%，推理吞吐量在 256K 長文本下提升 19 倍，這為大規模提供推理服務奠定了基礎，也直接促成了其極致的定價策略。

拒絕「外掛拼裝」

Qwen3.5-Plus 的原生多模態「地基」

除了在推理效率上「減負」，Qwen3.5-Plus 的另一大技術看點在于其跨模態理解力的重構。

目前業內許多主打「多模態」的模型，本質上仍是工程上的「拼裝」：先訓練一個優秀的語言基座，再外掛視覺或音頻模塊，中間通過適配層進行勉強對齊。這種做法不僅難以實現真正的特征融合，有時還會出現「視覺能力增強，語言能力降智」的尷尬局面。

Qwen3.5-Plus 選擇了從地基開始重構，真正實現了「原生多模態」。

從預訓練的第一天起，Qwen3.5-Plus 就在文本與視覺混合數據上進行聯合學習。模型在統一的參數空間內深度融合視覺與語言特征，沒有中間翻譯帶來的信息損耗，從而具備了「見圖知意、讀文生境」的直覺理解力。

為了讓這種原生融合跑出效率，阿里摒棄了讓視覺和語言共享同一套并行策略的傳統做法，而是讓不同模態「各走各的最優路徑」，僅在關鍵節點進行高效匯合。配合精巧的 FP8/FP32 精度應用策略，該架構成功將激活內存減少約 50%，訓練提速 10%。更硬核的是，哪怕同時喂入文本、圖像、視頻三種數據，它的訓練速度也幾乎不受影響，依然能保持和只訓練純文本時相當的效率。

研發團隊針對純文本、多模態和多輪對話場景搭建了專門的強化學習框架，將整體訓練效率提升了 3 至 5 倍，確保模型能夠在海量真實場景中持續進化。

這種底層架構的躍遷，賦予了 Qwen3.5-Plus 超越「簡單讀圖」的廣闊能力邊界。目前的 Qwen3.5-Plus 不僅能進行圖像的像素級空間定位，還能理解長達 2 小時視頻的因果時序，甚至能將手繪草圖直譯為前端代碼，或者化身視覺智能體自主操控手機與電腦、跨應用完成多步復雜任務

結合此前在 AI Arena 榜單上位居全球前三、被譽為「國產 Nano Banana Pro」的 Qwen-image-2.0，阿里在多模態理解與生成兩條路線上正加速向全面掌握看、聽、說、做能力的 AGI 目標邁進。

算不過賬的時代結束了

新的競賽開始了

過去兩年，如果你一直在關注大模型的發展，其實會發現一件挺有意思的事：閉源模型是你方唱罷我登場，前三輪流做，明天榜首指不定是誰家。但開源領域就很明朗了，很多關鍵能力的「天花板刷新」，幾乎都發生在 Qwen 發新模型的時候，每一代、每一個尺寸都能穩定輸出。這種創新的連續性，意味著它已經形成了一條可以穩定產出的技術路線，比單次跑分高更說明問題。

而這次，Qwen3.5-Plus 又在捅一個新的天花板 —— 頂級智能的「性價比」。當模型性能逐漸逼近閉源第一梯隊，同時價格卻大幅往下走，事情的性質就開始變了。以前很多企業不是不想用最好的 AI，而是算不過賬。現在成本結構一變，決策邏輯自然就松動了。技術擴散往往卡的不是能力，而是門檻。

歷史上類似的轉折其實出現過很多次。真正改變行業的，往往不是最貴、最極致的系統，而是那個最后變成基礎設施的東西。Linux 當年是這樣，Android 也是這樣：開源降低門檻，生態把它鋪開，等你意識到的時候，它已經無處不在了。

而 Qwen3.5-Plus 之所以能捅破這個天花板，背后不只是一個模型，而是一整套從模型到算力再到云的聯動。阿里一邊把模型能力通過開源釋放出來，一邊又用阿里云和自研芯片把部署和推理成本繼續往下壓，本質是在同時解決「用得好嗎」和「用得起嗎」兩個問題。生態里的采用者也越來越多，從李飛飛團隊到 Airbnb 這樣的公司，都在把它當作實際可用的底座，而不只是研究對象。

所以如果把 Qwen3.5-Plus 只看成又一次模型升級，其實有點低估它了。更值得關注的是，一種新的競爭方式正在成形：不再只是比誰的模型最強，而是比誰能把足夠強的能力，變成最多人日常用得到的基礎設施。技術真正的大規模落地，往往就是從這種時刻開始的。

文中視頻鏈接：https://mp.weixin.qq.com/s/MZ_BPDKLsF8uT0XyOhCbrw

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.