網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

最強開源大模型除夕登場！397B參數(shù)千問3.5超越Gemini 3

2026-02-16 19:08:19　來源: 量子位

山東舉報

分享至

西風鷺羽發(fā)自凹非寺
量子位 | 公眾號 QbitAI

我滴媽，最卷AI大模型，今年除夕又上新了！

剛剛，阿里全新一代大模型Qwen3.5-Plus重磅開源發(fā)布，直接登頂最強開源模型寶座。

這一次，“源”神標桿再次被千問拔到了一個新高度：

不僅性能全面領(lǐng)先同級開源模型，更是媲美Gemini-3-Pro、GPT-5.2等頂級閉源模型，多項基準測試甚至直接反超。

更炸裂的是，Qwen3.5-Plus總參數(shù)只有3970億，激活僅需170億，性能卻比萬億參數(shù)的Qwen3-Max還要強

直觀對比還包括——

部署顯存占用降低60%，最大推理吞吐量可提升至19倍，也就是說部署成本，以及推理效率雙雙實現(xiàn)大幅優(yōu)化。

這波“以小勝大”的史詩級PK，千問做到了。

重點還沒說完，千問這次直接把技術(shù)紅利釋放給用戶，直接讓SOTA級模型做到了平民價。

阿里云百煉這次給千問3.5 API的定價極具競爭力：百萬Tokens輸入低至0.8元，相當于同級別模型Gemini-3-pro的1/18

并且，千問3.5首次實現(xiàn)201種語言的全覆蓋，詞表規(guī)模從150k大幅擴充至250k，小語種編碼效率最高提升60%，真正讓頂尖大模型走向全球用戶。

截至目前，普通用戶只需登錄千問APP或PC端，即可免費體驗千問3.5模型；開發(fā)者們也可前往魔搭社區(qū)或HuggingFace，第一時間下載部署這款最強開源力作。

據(jù)悉，千問3.5還只是阿里春節(jié)檔的第一彈

接下來幾天，他們將繼續(xù)開源多款千問3.5模型，可部署在本地、端側(cè)等不同場景，無論是開發(fā)者還是中小企業(yè)，通通都能用上。

旗艦版Qwen3.5-Max也將在年后壓軸登場。

u1s1，DeepSeek之后，中國開源模型的“瘋狂二月”太頂了。

多項能力超越Gemini 3、GPT-5.2，視覺能力橫掃權(quán)威基準

話不多說，千問3.5有多強，我們先來看基準測試結(jié)果。

在推理、編程、智能體等核心維度上，千問3.5能夠以不到40%的參數(shù)量比肩國際一流梯隊。

比如，在考核綜合認知能力的MMLU-Pro測試中，千問3.5得分87.8分，超過GPT-5.2

在目前公認難度最高的博士級科學推理評測基準GPQA上，更是一舉斬獲88.4分，比以嚴謹邏輯著稱的Claude 4.5還要高

這就意味著千問3.5同時兼具推理廣度與深度，不僅具備極強的知識遷移能力，還在底層邏輯上實現(xiàn)了突破。

在指令遵循方面，千問3.5表現(xiàn)同樣亮眼。它以76.5分的成績領(lǐng)跑IFBench榜單，刷新了該項指標的最高紀錄。

除此之外，千問3.5在Agent能力上也是全面發(fā)力。無論是考察通用能力的BFCL-V4，還是側(cè)重搜索能力的Browsecomp，其評分均全面超越Gemini-3-Pro，展現(xiàn)出優(yōu)秀的Agent協(xié)同能力。

綜合來看，相比前幾代的千問模型，千問3.5在性能上更全面，不僅多維度無短板，更重要的是，能夠落地實用。

之所以能夠?qū)崿F(xiàn)這種代際躍遷，關(guān)鍵在于它的“眼睛”。

與上一代的純文本模型千問3不同，千問3.5從預訓練第一天起，就是在視覺和文本的混合Token數(shù)據(jù)上進行的，而且數(shù)據(jù)量也從原先的36T Tokens進一步提升。

同時新增中英文、多語言、STEM和推理等數(shù)據(jù)，讓千問3.5真正睜眼看世界，擁有了整合復雜世界知識和邏輯推理的原生多模態(tài)理解能力

這一核心能力的進化，在MathVison（多模態(tài)推理）、RealWorldQA（通用視覺問答）、CC_OCR（文本識別）、RefCOCO-avg（空間智能）、MLVU（視頻理解）等多模態(tài)主流評測中得到了有力印證：

千問3.5幾乎橫掃了所有指標，刷新開源大模型多模態(tài)天花板。

其中，在學科解題、任務規(guī)劃與物理空間推理等高難度場景上，千問3.5也表現(xiàn)出超越專項模型Qwen3-VL的綜合素養(yǎng)。

眾所周知，Qwen3-VL是千問團隊推出的旗艦級多模態(tài)視覺語言模型，主打超長上下文、強視覺推理、視頻理解與視覺Agent能力。

但作為綜合模型的千問3.5，其空間定位和圖文推理能力得到顯著增強，尤其是在處理復雜視覺信息時，Qwen3.5會比Qwen3-VL推理邏輯更嚴謹，輸出結(jié)果也更可靠。

千問3.5還突破了傳統(tǒng)大模型的視頻處理邊界：支持長達2小時的超長視頻直接輸入，配合1M Tokens原生上下文，能夠輕松應對長視頻內(nèi)容的精準分析與一鍵摘要。

換言之，無論是情節(jié)豐富的影視巨作還是專業(yè)的深度講座，千問3.5都能捕捉到每一處關(guān)鍵細節(jié)。

同時，千問3.5還打通了視覺理解和代碼邏輯的原生融合，讓視覺內(nèi)容能夠直接轉(zhuǎn)化為技術(shù)產(chǎn)出。

過去要開發(fā)一個界面，往往需要經(jīng)過“原型設計→修改成稿→轉(zhuǎn)譯代碼”的一系列過程，而千問3.5能夠瞬間將手繪界面草圖重構(gòu)為高質(zhì)量前端代碼，并支持通過單張截圖定位并修復UI缺陷，做到“所見即所得”。

由此，開發(fā)門檻被迅速抹平，視覺編程真正變?yōu)殚_發(fā)者手中的提效工具。

模型實際表現(xiàn)如何？來看一波官方demo展示。

先看最近很火的洗車靈魂拷問

我想去洗車，洗車店距離我家50米，你說我應該開車過去還是走過去？

千問3.5一眼識破陷阱，精準抓住核心，車必須過去洗，邏輯在線：

視頻鏈接：https://mp.weixin.qq.com/s/xasS3qkNcr8ZwaYWob1KRA

再來點難度，考考眼力+圖像推理能力。

prompt：從所給的四個選項中，選擇最合適的填入問號中，使其具有合理性，應該選什么？

對千問3.5來說小菜一碟，輕松看懂圖形規(guī)律，并順利給出了正確答案：

就連IMO競賽級數(shù)學幾何題，be like：

也能一步步推理，迅速做出來：

不只會做靜態(tài)題，出一道滑動方塊動態(tài)推理：

千問3.5照樣拿捏：

視頻鏈接：https://mp.weixin.qq.com/s/xasS3qkNcr8ZwaYWob1KRA

多模態(tài)生成也很強。讓它為Qwen Code生成一個推廣視頻：

成片效果相當流暢自然，直接發(fā)布都很OK。

視頻鏈接：https://mp.weixin.qq.com/s/xasS3qkNcr8ZwaYWob1KRA

除了生成視頻，做網(wǎng)站也不在話下。

讓千問3.5閱讀本地視頻文件，就能根據(jù)內(nèi)容制作一個網(wǎng)站，分分鐘生成完成代碼：

無論是產(chǎn)品宣傳片，還是核心特性突出，千問3.5都一網(wǎng)打盡。

視頻鏈接：https://mp.weixin.qq.com/s/xasS3qkNcr8ZwaYWob1KRA

就連最燙的OpenClaw，千問3.5也可以與之集成，共同完成編程任務驅(qū)動。OpenClaw可以作為第三方智能體環(huán)境，協(xié)助千問3.5進行網(wǎng)頁搜索、信息收集和結(jié)構(gòu)化報告生成等內(nèi)容。

視頻鏈接：https://mp.weixin.qq.com/s/xasS3qkNcr8ZwaYWob1KRA

千問3.5還可以作為視覺智能體，自主操控手機與電腦完成日常任務。

視頻鏈接：https://mp.weixin.qq.com/s/xasS3qkNcr8ZwaYWob1KRA

模型架構(gòu)全面革新，原生多模態(tài)

不到四千億參數(shù)打贏萬億，API價格打到閉源模型的零頭，千問3.5此次的突破，根源在于底層架構(gòu)層面的升級。

過去兩年，大模型行業(yè)整體遵循Scaling Law路徑演進，即參數(shù)規(guī)模越大、模型能力越強。從千億級邁向萬億級，模型在復雜推理和多任務泛化等方面持續(xù)取得進展。

但這種路徑的代價同樣明顯——訓練依賴超大規(guī)模算力集群，推理成本隨參數(shù)規(guī)模同步增長，部署門檻不斷提高，使得中小企業(yè)難以負擔，也限制了端側(cè)的落地。

模型能力持續(xù)增強的同時，計算效率與可擴展性逐漸成為新的瓶頸。

在這一背景下，千問3.5不再單純擴大模型規(guī)模，而是對Transformer經(jīng)典架構(gòu)進行了一次深度重構(gòu)，通過多項關(guān)鍵技術(shù)協(xié)同優(yōu)化，在強性能與高效率之間找到了新的平衡點。

據(jù)官方介紹，千問3.5引入了四項關(guān)鍵技術(shù)。

首先，是注意力機制的結(jié)構(gòu)優(yōu)化。

Transformer的核心是自注意力機制，但傳統(tǒng)實現(xiàn)存在一個固問題：無論信息是否重要，每個Token都需要與全部上下文進行計算關(guān)聯(lián)，復雜度隨上下文長度持續(xù)增長。

這使得長文本處理的計算成本迅速上升，也成為限制模型長上下文能力的主要因素之一。

千問3.5為此引入了混合注意力機制，不再對所有信息一視同仁，而是根據(jù)重要程度動態(tài)分配計算資源——關(guān)鍵信息高精度處理，次要信息低成本帶過。在保持理解精度的同時，顯著壓低了計算開銷，長上下文處理效率也隨之提升。

第二，是極致稀疏的MoE架構(gòu)設計。

如果說注意力優(yōu)化解決的是“怎么讀信息”的問題，那MoE架構(gòu)解決的是“用多少參數(shù)來回答”的問題。傳統(tǒng)稠密模型每次推理必須激活全部參數(shù)，參數(shù)越多成本越高。

MoE架構(gòu)的思路是將模型拆分為大量專家子網(wǎng)絡，每次推理只激活其中最相關(guān)的一部分。

千問3.5把這一思路推向極致：總參數(shù)3970億，單次推理激活僅170億，激活比例不到5%。大規(guī)模參數(shù)積累的知識優(yōu)勢被保留，但規(guī)模帶來的成本負擔被大幅卸掉。

第三，是原生多Token預測機制。

傳統(tǒng)語言模型逐Token生成，每次輸出一個再預測下一個，串行結(jié)構(gòu)直接限制了推理速度。千問3.5在訓練階段就學習聯(lián)合預測多個未來Tokens，使模型從逐字輸出變?yōu)榕枯敵觯菃吸c預測。推理速度接近翻倍，對話響應明顯加快。

第四層突破是系統(tǒng)級訓練穩(wěn)定性優(yōu)化。

稀疏架構(gòu)雖然效率極高，但訓練難度遠高于傳統(tǒng)稠密模型。為了解決訓練穩(wěn)定性問題，千問團隊將此前獲得NeurIPS 2025最佳論文的注意力門控機制，引入到了千問3.5之中。

該機制可以理解為注意力輸出端的“智能開關(guān)”。它實時控制信息流強度，強化有效信號，抑制噪聲干擾。避免訓練過程中的梯度異常和信息失衡。

除此之外，歸一化策略、專家路由初始化等深層優(yōu)化手段也被引入，分別解決不同環(huán)節(jié)的穩(wěn)定性難題，共同保證前述架構(gòu)創(chuàng)新在超大訓練規(guī)模下穩(wěn)定運行。

四大殺招齊出，千問3.5實現(xiàn)了顛覆性的效率飛躍。官方數(shù)據(jù)顯示，新架構(gòu)訓練成本降幅高達90%

與Qwen3-Max相比，Qwen3.5-Plus部署顯存占用降60%，意味著節(jié)算力部署成本大幅降低；最大推理吞吐量可提升至19倍，大幅提升推理效率。

架構(gòu)創(chuàng)新解決的是效率問題，而千問3.5的另一重躍遷，指向的是智能本身——它要讓大模型真正“看得見”

目前行業(yè)里不少所謂的多模態(tài)方案，做法其實是分步拼接：

先把語言模型訓好，再把視覺模塊接上去，中間加一層對齊網(wǎng)絡把兩邊的表征勉強拉到一起。更直接的做法甚至連對齊都省了，前端看起來是一個統(tǒng)一入口，后端其實是不同任務調(diào)不同模型，本質(zhì)上就是個路由器。

這類方案能用，但談不上真正的融合，而且一個常見的副作用是：視覺能力加上去了，語言能力可能反而往下掉。

千問3.5選擇了更徹底的原生多模態(tài)路徑。預訓練階段就不再區(qū)分“先學文字、再學圖像”，而是把文本和視覺數(shù)據(jù)混在一起，讓模型從第一步就在同一參數(shù)空間里同時消化這兩種信息。這樣訓出來的模型，處理圖片和處理文字走的是同一條神經(jīng)通路，不需要中間再做翻譯或?qū)R。

這種融合在工程上極具挑戰(zhàn)。圖像和文本的數(shù)據(jù)結(jié)構(gòu)差異很大，如果強行套用同一套并行策略，計算資源的浪費會很嚴重。千問3.5的處理方式是讓兩種模態(tài)在訓練過程中各自按最適合自己的方式走，只在必要的環(huán)節(jié)進行信息交匯。

最終，哪怕同時輸入文本、圖像和視頻三種數(shù)據(jù)，整體訓練吞吐量和純文本基座模型幾乎沒有差別。

同時，團隊還加上了一套針對性的混合精度方案，在不同環(huán)節(jié)靈活切換FP8和FP32，激活內(nèi)存砍掉了大約一半，訓練速度還額外快了10%。這套精度策略不只用在預訓練階段，強化學習和推理環(huán)節(jié)也統(tǒng)一部署了進去。

在智能體訓練這塊，團隊又專門造了一套大規(guī)模強化學習框架，純文本、多模態(tài)、多輪對話全都能跑，訓練效率直接拉高了3到5倍。

當然，上述能力的實現(xiàn)，最底層離不開阿里云AI基礎設施的支撐。超大規(guī)模混合數(shù)據(jù)訓練的穩(wěn)定性、多模態(tài)并行策略的工程落地、訓練到推理全鏈路的精度優(yōu)化，每一項都需要底層算力平臺的深度配合。

最最關(guān)鍵的是，千問不光技術(shù)能打，更是在開源的路上一路狂飆。

阿里是真“源”神

不知道還有沒有人記得啊，去年阿里就在春節(jié)期間連發(fā)好幾個模型，春晚直播進行時，掐著點甩出Qwen2.5-Max，直接把DeepSeek V3給反超了。

當時網(wǎng)友們的評論是：杭州這群人，不睡覺也要送上新春大禮包。

一年過去了。又是除夕，又是千問。從2.5到3.5，千問再把“開源”兩個字做到了極致。

回顧千問開源之路：

自2023年開源以來，阿里已累計開源400多個模型。從0.5B到235B全尺寸覆蓋，從端側(cè)到云端全面布局，涵蓋文本生成、視覺理解與生成、語音理解與生成、文生圖、視頻模型等全模態(tài)領(lǐng)域……千問直接把開源模型貨架，擺的滿滿當當。

而且，每一代、每一個尺寸，都在穩(wěn)定輸出天花板級產(chǎn)品，換來實打?qū)嵉膽?zhàn)績：

全球下載量突破10億次，單月下載量超過第2名到第8名的總和，開發(fā)者基于千問開發(fā)的衍生模型已超過20萬個

千問目前已穩(wěn)居全球最大AI大模型族群。“最強開源得投千問一票”，從一部分人的判斷，變成了全球開發(fā)者的共識。

不論是開源開放，還是把API價格打到0.8元/百萬Tokens，亦或是將支持語言擴展到186種，千問的意圖很明顯：讓更多人能用上、用得起最頂尖的模型。

當開源模型在核心能力上追平甚至反超閉源，而且免費可商用，競爭的邏輯就變了。這不再是一個模型和另一個模型之間爭跑分的游戲，而是兩種生態(tài)路徑的選擇。

Linux沒有靠賣系統(tǒng)成為商業(yè)巨頭，卻成為了全球服務器領(lǐng)域的主流支撐。Android也不靠系統(tǒng)授權(quán)盈利，卻讓智能手機真正普及到每一個人。

千問想走的路，大概也是這一條。

最后別忘了，這些只是模型禮盒！今年春節(jié)請喝奶茶、紅包雨還沒算在內(nèi)。

阿里千問這過年的排面，太瘋狂了。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.