網易首頁 > 網易號 > 正文申請入駐

千問3.5以小勝大，阿里巴巴的陽謀藏不住了

2026-02-17 17:14:06　來源: 鈦媒體APP

北京舉報

分享至

大模型領域的“春晚”頻率，已經快讓從業者跟不上節奏了。

2月16日除夕夜，阿里巴巴開源全新一代大模型千問Qwen3.5-Plus，性能媲美Gemini 3 Pro，登頂全球最強開源模型，不論從哪個方面，都可以說是給大模型行業的蛇年畫上一個句號。

Qwen3.5-Plus總參數3970億，但實際運行時的激活參數僅為170億，性能就超過了萬億參數的Qwen3-Max模型，算力部署成本降低60%，推理速度提升8倍，更別提還是一個原生多模態模型，Agent能力大幅加強，API價格每百萬Token低至0.8元。

更好、更快，還更省錢了，這當然不是千問獨有的特性，但千問是毫無爭議的標準答案，知道怎么做和做出來，是兩回事——大模型就是一幫這個星球上最聰明的大腦，在做最復雜的實現。

稍早時間，字節跳動、MiniMax、智譜等國內廠商發布了自己的大模型，GPT-5.3 Codex與Opus 4.6也先后亮相，兩種發布風格其實挺有意思。

在硅谷，OpenAI或Anthropic還習慣于扮演科技時代的預言者，他們的每一次更新都透著一種試圖定義文明走向的宏大敘事感；而在國內，以阿里Qwen為典型代表，更像是一種極其務實且兇猛的工業擴張，滿眼都是怎么讓AI應用到具體場景。

聊到應用，當然就到了中國企業的舒適區，這也是為何春節AI大戰，眾多應用被推到臺前，與以往不同的是，過去是有了模型，摸索能做什么應用，現在是應用場景的需求反過來去推動模型的發展。

在AI大航海時代，只有那些更聰明的船長，那些能以更低能耗航行更遠距離的船只，才能最終抵達前人未至的新大陸。

變“小”的千問，怎么還變強了？

過去兩年，硅谷乃至全球的AI共識一直籠罩在Scaling Law的既定路基下，更多的算力、更大的參數、更多的數據，等于更好的大模型。

但這種“大干快上”的擴張正在撞上兩堵無形的墻，一堵是Transformer架構隨序列長度增加而呈平方級爆炸的計算復雜度，另一堵則是讓無數企業望而卻步的推理成本。

這很容易讓人聯想到CPU時代的安迪-比爾定理（Andy and Bill’ s Law），硬件提升的性能，迅速被更吃資源的軟件消耗殆盡，在大模型時代，架構迭代和算法優化釋放出的算力紅利，被參數量的通脹和上下文長度的堆疊耗殆盡。

如果這件事注定無法避免，那么千問3.5就讓每一絲算力都能發揮出更大的價值。

傳統的Transformer架構雖然強大，但它在處理超長文本時極其“重”，每多讀一行字，內存和算力的負擔就成倍增加。

為了打破這個僵局，業界曾嘗試過各種路徑，比如稀疏注意力、線性注意力、狀態空間模型等，但往往陷入“性能提升則精度下降”的二律背反，要么保住效率，犧牲精度；要么保住性能，成本依舊高昂；要么提出全新架構，卻難以融入現有大模型體系。

千問3.5走出了一條“大道至簡”的道路，其性能躍升的背后，是對Transformer經典架構的重大創新突破。千問團隊自研的門控技術成果，曾斬獲全球AI頂會2025 NeurIPS最佳論文。

這不是一篇理論性質的論文，該前沿技術已融入到千問3.5創新的混合架構中去，團隊結合線性注意力機制與稀疏混合專家MoE模型架構，實現了397B總參數激活僅17B的極致模型效率。

如果用通俗的話來理解，它并不提前裁剪信息，而是在注意力計算真正發生之前，引入一個可學習的“門控”（Gated Attention），先對信息做一次動態評估，再決定哪些部分用完整算力精算，哪些部分用更低成本處理。

從架構層面看，它還補上了MoE長期存在的一塊短板。過去的MoE雖然已經實現了參數層面的稀疏激活，但注意力計算本身依然是全量執行，真正最重的那部分開銷并沒有被觸動。

Gated Attention則把“是否值得計算”這件事直接前移到了注意力內部，讓注意力本身也具備了可選擇計算路徑的能力。這意味著稀疏化第一次不只是發生在前饋網絡階段，而是深入到了Transformer最核心的計算單元里。

也正因為如此，它能夠同時做到過去行業很難兼得的三件事：推理更快、成本更低，同時性能上限不受損。

原生多模態，牽一發而動全身

在當前的大模型賽道上，多模態已經成為新的焦點，但大多數現有方案仍停留在“模態疊羅漢、參數堆積”的老路上，試圖把圖像、文本、視頻、表格等各種模態直接拼在一起，再用海量參數去支撐這種疊加，以求在Benchmark上刷出亮眼成績。

然而，這種方式存在明顯的局限，智力水平受限，推理效率低下，原因也很簡單，每增加一個模態，計算量和內存需求呈指數級上升，模型的大腦被迫同時激活更多部分，但推理能力卻沒有成比例提升。

千問3.5是千問系列首個原生多模態模型，性能超過上一代旗艦模型——萬億參數的Qwen3-Max，但參數量卻不到其40%，這背后的技術突破，值得深挖。

原生多模態的難點，在于讓模型同時理解不同類型信息、建立模態間邏輯，并高效推理。

文字、圖像、視頻、音頻各自的表達方式差異巨大，要在同一空間中理解它們的關系，本身就是技術挑戰。更棘手的是跨模態對齊，圖像與文字、視頻與字幕、圖表與說明的邏輯對應，如果處理不好，模型就可能“睜眼瞎”。

數據稀缺和訓練成本也是瓶頸。高質量多模態標注難得，訓練中，圖像編碼器、視頻序列處理器和跨模態注意力層讓算力消耗大，梯度易不穩，推理效率低下。

長上下文、多輪推理等任務，更要求模型動態調度注意力與算力，否則消耗呈指數級增長而理解能力提升有限。總之，簡單堆模態或擴參數無法解決這一核心瓶頸。

如前所述，千問3.5的技術創新緊密耦合且相互增強，門控注意力讓模型在處理長文本和多模態信息時能按需分配算力，保持推理效率與智力上限；線性注意力與稀疏MoE架構進一步降低長上下文的計算成本，讓超大模型在實際使用中也能高效運行；原生多模態訓練則為模型張開“眼睛”，讓文字、圖像、視頻等信息在同一個認知空間里自然融合，同時強化推理、任務規劃和空間理解能力。

這些創新并非孤立存在：高效的計算架構保證了多模態訓練可行，跨模態能力反過來又推動注意力機制的優化，推理效率和認知能力相輔相成。

正因為如此，千問3.5才能在文本理解、視覺分析、視頻理解、Agent執行、代碼生成等多維任務中表現均衡而突出，形成一套完整的、可落地的智能體系。

千問3.5在MMLU-Pro認知能力評測中得分87.8分，超越GPT-5.2；在博士級難題GPQA測評中斬獲88.4分，高于Claude 4.5；在指令遵循IFBench以76.5分刷新所有模型紀錄；而在通用Agent評測BFCL-V4、搜索Agent評測Browsecomp等基準中，千問3.5表現均超越Gemini 3 Pro。

原生多模態訓練，也帶來千問3.5的視覺能力飛躍：在多模態推理（MathVison）、通用視覺問答VQA（RealWorldQA）、文本識別和文件理解（CC_OCR）、空間智能（RefCOCO-avg）、視頻理解（MLVU）等眾多權威評測中，千問3.5均斬獲最佳性能。

大模型時代，阿里的陽謀

技術層面的緊耦合，其實是戰略意志的體現，阿里巴巴的芯片、大模型，云基礎設施等，最終是要為阿里巴巴的未來價值而服務。

就像云計算時代決定格局的不是CPU主頻，而是虛擬化技術；移動互聯網時代決定格局的不是帶寬峰值，而是分發效率；到了大模型時代，真正決定應用爆發速度的，也不會是模型規模，更可能是每一次推理被調用的成本。

阿里巴巴比更多人更早更深刻地看到了這一點，自此出發，就能理解阿里巴巴的全盤布局。

在應用層面，1月15日，千問App發布全球首個消費級AI購物Agent。春節活動期間，全國超過1.3億人第一次體驗AI購物，說了50億次“千問幫我”，千問一躍成為國民級AI助手。在全球首次實現大規模真實世界任務執行和商業化驗證。

作為千問App的基座模型，千問3.5的Agent能力也大幅增強，實現了從Agent框架到Agent應用的新突破，可自主操作手機與電腦，高效完成日常任務，在移動端支持更多主流APP與指令，在PC端可處理更復雜的多步驟操作，如跨應用數據整理、自動化流程執行等，顯著提升操作效率。

同時，千問團隊構建了一個可擴展的Agent異步強化學習框架，端到端可加速3到5倍，并將基于插件的智能體Agent支持擴展至百萬級規模，將進一步打開大模型在工作和生活中幫人辦事的想象空間。

另一方面，阿里不僅持續推出SOTA級模型，同時通過開源開放策略，讓任何人都能免費使用。這使千問迅速成為全球最受歡迎的開源模型，也為創新提供了肥沃土壤，激發了大量新的應用與創意。

目前，千問模型的開源數量超400個，衍生模型數量突破20萬個，下載量突破10億次，遠超美國的Llama，包括李飛飛團隊、愛彼迎等全球公司和機構都在使用千問模型。

規模化必然導致邊際成本的降低，這是阿里云基礎設施的強項。依托阿里云與平頭哥自研芯片的支持，千問的推理效率得以進一步提升，更好滿足企業級應用需求。模型、芯片與云端資源的深度耦合，實現了“1+1+1>3”的協同效應，不僅充分釋放了芯片算力潛力和集群效率，也顯著提高了模型訓練與推理的整體性能。

例如，真武芯片針對以Qwen3為代表的主流MoE架構模型做了大量優化，可滿足千問大模型對大規模計算的需求。得益于模型、芯片以及云的協同創新，千問3.5的價格進一步探底，API每百萬Token輸入低至0.8元，是同等性能Gemini-3-pro的1/18。

這樣的策略不僅讓千問在企業端備受歡迎，也讓阿里云再次進入高速增長期。沙利文數據顯示，千問在中國企業級大模型調用市場中位居第一，并成為阿里云新增需求的主要驅動力，帶動計算、存儲及數據庫等基礎資源消耗的增長。

根據市場調研機構Omdia數據，2025年第三季度，中國大陸云基礎設施服務市場規模達到134億美元，同比增長24%，市場已連續第二個季度實現20%以上的同比增長，阿里云在中國云基礎設施服務市場的份額則提升至36%，AI相關收入已連續九個季度實現三位數同比增長，繼續保持市場領先地位且優勢進一步擴大。

千問3.5這一輪技術躍遷的價值，更像是阿里巴巴一場早有預期的“陽謀”，不只是把性能做上去，當長上下文、多輪推理、Agent工作流開始變成默認配置時，模型才會真正變成這個時代的基礎設施，技術與商業在這里協同，算力與認知在這里形成閉環。

在大模型時代，阿里玩的是一盤既看得見的技術棋，又布局深遠的商業棋。

（作者｜張帥，編輯｜蓋虹達）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.