![]()
智東西
作者 王涵
編輯 漠影
智東西2月16日?qǐng)?bào)道,剛剛,Qwen3.5正式發(fā)布并開(kāi)源,在多模態(tài)理解、復(fù)雜推理、編程、Agent智能體等幾大能力領(lǐng)先同級(jí)開(kāi)源模型,多項(xiàng)基準(zhǔn)媲美甚至超越GPT-5.2、Gemini 3 pro等閉源第一梯隊(duì)。
![]()
Qwen3.5-Plus總參數(shù)為3970億,激活參數(shù)僅170億,性能超過(guò)萬(wàn)億參數(shù)的Qwen3-Max模型,部署顯存占用降低60%,推理效率大幅提升,最大吞吐量可提升至19倍。
Qwen3.5上線后,我們馬不停蹄地問(wèn)了它一道大模型的“腦筋急轉(zhuǎn)彎”:我要去洗車(chē),洗車(chē)的地方離家就100米,我是開(kāi)車(chē)去呢,還是走著去呢?
對(duì)于這道題,網(wǎng)友們測(cè)試了國(guó)內(nèi)國(guó)外各類(lèi)大模型,鮮有模型答對(duì)。而Qwen3.5不僅識(shí)別出了題目中的邏輯陷阱,還用很幽默和輕松的語(yǔ)氣回答了正確的答案,并且給出了“開(kāi)車(chē)慢行,確保安全”的溫馨提示。
![]()
回看Qwen3.5的思考過(guò)程,它遵循著分析需求、識(shí)別核心陷阱、制定答案、起草答案、內(nèi)部比較、最后打磨、思考其他可能、確定答案等一些列步驟,在其中還會(huì)像真人一樣“鼓勵(lì)自己”,堅(jiān)定自己的回答。
![]()
價(jià)格上,Qwen3.5-Plus的API價(jià)格是最低每百萬(wàn)Token0.8元。同等性能下,這個(gè)價(jià)格僅相當(dāng)于Gemini-3-pro的1/18。
從Qwen2.5、Qwen3到Qwen3.5,過(guò)去兩年千問(wèn)不斷迭代開(kāi)源,每一代產(chǎn)品、每一個(gè)尺寸都在為行業(yè)制定新的天花板標(biāo)準(zhǔn),“最強(qiáng)開(kāi)源=千問(wèn)”幾乎快成為共識(shí)。
但這一次,Qwen3.5的意義不止于“又刷新了一次榜單”。
一、讓草圖“一鍵變”網(wǎng)頁(yè),千問(wèn)進(jìn)化成原生多模態(tài)大模型
在解讀Qwen3.5背后的技術(shù)之前,我們先來(lái)看看Qwen3.5在實(shí)際應(yīng)用場(chǎng)景下的表現(xiàn)如何。智東西拿到搶先體驗(yàn)資格,率先對(duì)該模型的多模態(tài)理解、推理、以及代碼生成能力進(jìn)行了體驗(yàn)。
我們上傳了一張禮品購(gòu)買(mǎi)App的前端頁(yè)面手繪草圖,要求Qwen3.5根據(jù)草圖生成紅白配色的簡(jiǎn)約風(fēng)前端頁(yè)面,并輸出可以直接用的HTML代碼。
![]()
幾乎沒(méi)有思考時(shí)間,Qwen3.5先是識(shí)別出了草圖中的基本框架和文字信息,在紅白配色的模糊指令下,自主選擇了飽和度沒(méi)有那么高的紅色。生成的代碼簡(jiǎn)潔可用,頁(yè)面也與草圖幾乎一模一樣。
還有一處小細(xì)節(jié)是,我們上傳的草圖是英文,而Qwen3.5根據(jù)上下文的問(wèn)答和提問(wèn)的語(yǔ)言,判斷出用戶應(yīng)該是中文用戶,自動(dòng)將頁(yè)面語(yǔ)言調(diào)整為了中文。
![]()
在復(fù)雜場(chǎng)景與OCR能力方面,我隨手拍了一張含有多個(gè)物體和背景的照片,問(wèn)Qwen3.5:今天的天氣怎么樣?這張圖片中都有什么?
![]()
可以看到模型可以在理解畫(huà)面的同時(shí),準(zhǔn)確提取模糊的文字信息。這張圖片是背光,文字在陰影內(nèi)有些模糊不清,但Qwen3.5很準(zhǔn)確地識(shí)別出了圖片中的布洛芬顆粒沖劑、保濕霜以及酸奶的品牌,還貼心地附上了功效。
結(jié)合外面晴朗的天氣,Qwen3.5綜合判斷用戶正在家休息養(yǎng)生,并且給出了“希望天氣好心情也好,早日恢復(fù)活力!”的祝福。
![]()
最后,我們來(lái)看看Qwen3.5在藝術(shù)理解上面的能力。我們給Qwen3.5看一張西班牙畫(huà)家薩爾瓦多·達(dá)利的《記憶的永恒》,看看模型能不能識(shí)別出這幅畫(huà)的風(fēng)格派別和背景。
![]()
Qwen3.5提取出了這幅畫(huà)中的特點(diǎn)元素“融化的時(shí)鐘”,準(zhǔn)確回答出這幅畫(huà)的作者是薩爾瓦多·達(dá)利,并且將該作者的生平信息以及這幅畫(huà)的畫(huà)面材質(zhì)、創(chuàng)作時(shí)間、尺寸、收藏地等詳細(xì)信息都呈現(xiàn)給了用戶。此外,該模型還詳細(xì)介紹了這幅畫(huà)的主要元素和象征意義以及藝術(shù)地位,對(duì)美學(xué)和抽象概念的理解較強(qiáng)。
![]()
Qwen3.5可與OpenClaw集成,驅(qū)動(dòng)編程任務(wù)。通過(guò)將OpenClaw作為第三方智能體環(huán)境集成,Qwen3.5 能夠進(jìn)行網(wǎng)頁(yè)搜索、信息收集和結(jié)構(gòu)化報(bào)告生成——它結(jié)合自身的推理與工具調(diào)用能力,以及OpenClaw的接口,為用戶帶來(lái)流暢的編碼和研究體驗(yàn)。
此外,Qwen3.5能夠作為視覺(jué)智能體,自主操作手機(jī)與電腦完成日常任務(wù)。在移動(dòng)端,該模型已適配更多主流應(yīng)用,支持自然語(yǔ)言指令驅(qū)動(dòng)操作;在PC端,Qwen3.5能處理跨應(yīng)用的數(shù)據(jù)整理、多步驟流程自動(dòng)化等復(fù)雜任務(wù),有效減少重復(fù)性人工干預(yù),提升工作效率。
以Qwen3.5為底層模型,Qwen Code支持“vibe coding”,可將自然語(yǔ)言指令轉(zhuǎn)化為代碼、實(shí)時(shí)迭代開(kāi)發(fā)項(xiàng)目,并支持如生成視頻等富有創(chuàng)意的任務(wù)。
整體體驗(yàn)下來(lái),Qwen3.5在多模態(tài)能力方面真是下了狠功夫。這背后其實(shí)是千問(wèn)團(tuán)隊(duì)在模型底層架構(gòu)的重構(gòu),千問(wèn)正式從“語(yǔ)言模型”進(jìn)化為“原生多模態(tài)大模型”。
二、原生全模態(tài),讓模型像人一樣學(xué)習(xí)
業(yè)界普遍認(rèn)為,統(tǒng)一多模態(tài)是通往通用人工智能的必經(jīng)之路。但讓大模型真正”張開(kāi)眼睛”,在統(tǒng)一架構(gòu)下同時(shí)提升語(yǔ)言和視覺(jué)能力,實(shí)現(xiàn)多模態(tài)信息的高效融合與協(xié)同生成,并非易事。
當(dāng)前行業(yè)中不少看起來(lái)“多模態(tài)”的方案,本質(zhì)上仍是“拼裝”——先訓(xùn)好語(yǔ)言模型“學(xué)說(shuō)話”,再外掛視覺(jué)或音頻模塊,模塊之間靠適配層勉強(qiáng)對(duì)齊。
有的產(chǎn)品甚至只是在統(tǒng)一入口背后,通過(guò)工程路由將不同任務(wù)分發(fā)給不同模型。這些方案都沒(méi)有實(shí)現(xiàn)真正的多模態(tài)融合,且不少視覺(jué)理解模型會(huì)隨著視覺(jué)能力的增強(qiáng),出現(xiàn)語(yǔ)言能力”降智”的問(wèn)題。
Qwen3.5從一開(kāi)始就選擇了一條鮮有人踏足的路。
從預(yù)訓(xùn)練第一天起,該模型就在海量的文本和視覺(jué)的混合數(shù)據(jù)上聯(lián)合學(xué)習(xí),就像人類(lèi)一樣,調(diào)用五官來(lái)綜合接收外界信息。
讓視覺(jué)與語(yǔ)言在統(tǒng)一的參數(shù)空間內(nèi)深度融合,模型看到一張圖就能自然理解其語(yǔ)義,讀到一段文字便能在腦中構(gòu)建對(duì)應(yīng)畫(huà)面。沒(méi)有“中間商賺差價(jià)”,沒(méi)有信息折損,真正具備像人一樣的跨模態(tài)的直覺(jué)理解力。
想要讓這種原生融合真正跑起來(lái),就要有一個(gè)“人類(lèi)大腦”,模型的訓(xùn)練架構(gòu)也必須跟著變。在這一點(diǎn)上,行業(yè)中的傳統(tǒng)做法是讓視覺(jué)和語(yǔ)言用同一套并行策略,效率損耗嚴(yán)重。
Qwen3.5的做法是各走各的最優(yōu)路徑,再在關(guān)鍵節(jié)點(diǎn)上高效匯合。這樣做的結(jié)果就是哪怕同時(shí)喂入文本、圖像、視頻三種數(shù)據(jù),訓(xùn)練速度也幾乎不受影響,和只訓(xùn)練純文本時(shí)相當(dāng)。
同時(shí),Qwen3.5通過(guò)定制化的FP8/FP32精度策略,使激活內(nèi)存占用降低約50%,訓(xùn)練速度提升10%。該策略已在強(qiáng)化學(xué)習(xí)訓(xùn)練與推理全流程統(tǒng)一應(yīng)用,有效降低了多模態(tài)模型規(guī)模化部署的成本與復(fù)雜度。
在智能體訓(xùn)練上,千問(wèn)團(tuán)隊(duì)還搭建了一套大規(guī)模強(qiáng)化學(xué)習(xí)框架,支持文本、多模態(tài)與多輪對(duì)話等場(chǎng)景,訓(xùn)練效率提升了3至5倍。
原生多模態(tài)融合帶來(lái)的能力不止圖像理解,Qwen3.5可對(duì)圖像做像素級(jí)空間定位與代碼級(jí)精細(xì)處理,能理解2小時(shí)長(zhǎng)視頻的時(shí)序與邏輯關(guān)系,可將手繪草圖轉(zhuǎn)為可運(yùn)行前端代碼,還能作為視覺(jué)智能體自主操作設(shè)備、跨應(yīng)用完成復(fù)雜任務(wù)。
三、四大核心突破,助力模型“以小勝大”
過(guò)去兩年,大模型行業(yè)普遍走上“堆參數(shù)、拼算力”的“大力出奇跡”路線,模型規(guī)模從千億一路攀升至萬(wàn)億級(jí)別,性能雖有提升,但成本也隨之水漲船高。
部署需要專(zhuān)屬集群,推理消耗大量算力,不僅中小企業(yè)難以負(fù)擔(dān),終端設(shè)備更是無(wú)法運(yùn)行。技術(shù)指標(biāo)不斷突破,可離普惠、實(shí)用的目標(biāo)反而越來(lái)越遠(yuǎn)。Qwen3.5換了一種思路:不比誰(shuí)更大,而是比誰(shuí)更聰明,比誰(shuí)能用相對(duì)更小的模型獲得更大的智能。
具體來(lái)說(shuō),有四項(xiàng)核心技術(shù)突破共同支撐了這個(gè)結(jié)果:
一是混合注意力機(jī)制。傳統(tǒng)大模型在處理長(zhǎng)文本時(shí),需對(duì)每個(gè)token與全部上下文進(jìn)行全量注意力計(jì)算,文本長(zhǎng)度越長(zhǎng),算力開(kāi)銷(xiāo)就越高,這也是限制長(zhǎng)上下文能力的關(guān)鍵瓶頸。
Qwen3.5采用混合注意力機(jī)制,可依據(jù)信息重要性動(dòng)態(tài)分配注意力資源,實(shí)現(xiàn)主次分明,在提升效率的同時(shí)保證精度。
二是極致稀疏MoE架構(gòu)。傳統(tǒng)稠密模型在每一次推理時(shí)都要調(diào)動(dòng)全部參數(shù)參與運(yùn)算,模型規(guī)模越大,對(duì)應(yīng)的算力成本也就越高。
而Qwen3.5的MoE架構(gòu)核心思路則在于,無(wú)需同時(shí)啟用所有參數(shù),只需依據(jù)輸入內(nèi)容,按需激活與之最相關(guān)的“專(zhuān)家”網(wǎng)絡(luò)即可。
這樣的架構(gòu),讓Qwen3.5有397B的總參數(shù)的情況下,激活參數(shù)僅需17B,相當(dāng)于僅需不到5%的算力,即可調(diào)動(dòng)全部知識(shí)儲(chǔ)備。
三是原生多Token預(yù)測(cè)。千問(wèn)團(tuán)隊(duì)讓模型在訓(xùn)練階段就學(xué)會(huì)了對(duì)后續(xù)多個(gè)位置進(jìn)行聯(lián)合預(yù)測(cè),推理速度接近翻倍。在長(zhǎng)文本生成、代碼補(bǔ)全、多輪對(duì)話等高頻場(chǎng)景中,模型的響應(yīng)速度接近“秒回”
四是系統(tǒng)級(jí)訓(xùn)練穩(wěn)定性優(yōu)化。2025年千問(wèn)團(tuán)隊(duì)曾發(fā)表過(guò)一篇注意力門(mén)控機(jī)制的論文,還斬獲了NeurIPS 2025最佳論文獎(jiǎng)。
![]()
在這篇論文中,千問(wèn)團(tuán)隊(duì)通過(guò)在注意力層的輸出端加入了一個(gè)“智能開(kāi)關(guān)”,就像一個(gè)水龍頭,可以智能調(diào)控信息的“流量”。
這樣既可以防止有效信息被淹沒(méi),也防止無(wú)效信息被過(guò)度放大,從而提升模型的輸出精度和長(zhǎng)上下文泛化能力。
類(lèi)似的深層優(yōu)化還包括歸一化策略和專(zhuān)家路由初始化等,它們各自解決不同環(huán)節(jié)的穩(wěn)定性問(wèn)題,共同確保上述架構(gòu)創(chuàng)新在大規(guī)模訓(xùn)練中真正跑得通、跑得穩(wěn)。
在以上技術(shù)的加持下,Qwen3.5的新架構(gòu)讓模型在總參數(shù)不足400B的情況下,性能卻能超越上一代超萬(wàn)億模型的同時(shí),部署顯存占用降低60%,推理效率大幅提升,還順手把API價(jià)格卷到了Gemini-3-pro的1/18。
當(dāng)行業(yè)還在比拼”誰(shuí)的跑分更高”時(shí),Qwen3.5已經(jīng)把競(jìng)爭(zhēng)帶向了下一個(gè)問(wèn)題:誰(shuí)的模型更好用、更實(shí)用、更多人用得起。
結(jié)語(yǔ):Qwen3.5在“好用、實(shí)用、用得起”上一馬當(dāng)先
一馬當(dāng)先,不只是跑得快,更是跑得對(duì)、跑得遠(yuǎn)。
在多模態(tài)方面,Qwen3.5再一次驗(yàn)證了原生多模態(tài)是從預(yù)訓(xùn)練第一天起就讓模型像人類(lèi)一樣,用統(tǒng)一的認(rèn)知框架理解圖文交織的世界。在效率與性能上,Qwen3.5將思考的重點(diǎn)放在“如何讓大模型更高效”,“如何才能讓大模型好用、實(shí)用、用得起”上。
從識(shí)別到理解,從單模態(tài)到跨模態(tài)推理,Qwen3.5讓大模型從對(duì)話工具向理解真實(shí)世界的基礎(chǔ)能力演進(jìn)。阿里一方面在不斷推出SOTA級(jí)模型,另一方面,通過(guò)開(kāi)源策略讓人人都能免費(fèi)用,孕育出了一片全新的創(chuàng)新土壤。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.