馬斯克又雙叒叕下場點(diǎn)贊中國 AI 了。
昨天深夜,阿里通義千問團(tuán)隊(duì)在 X 平臺(tái)正式發(fā)布了 Qwen3.5 小模型系列,覆蓋 0.8B、2B、4B 和 9B 四個(gè)參數(shù)規(guī)格。甫一發(fā)布,便在海外科技圈引發(fā)強(qiáng)烈反響。
![]()
馬斯克也在該推文下評論稱:「Impressive intelligence density」(令人印象深刻的智能密度)。這股熱度的背后,APPSO 也好奇,為什么這幾款小模型能夠激起如此大的波瀾?
![]()
又小又猛,憑什么
Qwen 官方在 X 平臺(tái)發(fā)帖宣布這批模型上線,言簡意賅地將其定位為「更強(qiáng)的智能,更少的算力」。
官方強(qiáng)調(diào),四款小模型共享同一套 Qwen3.5 基礎(chǔ)架構(gòu),原生支持多模態(tài),并經(jīng)過架構(gòu)層面的專項(xiàng)改良與大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練。
Qwen 團(tuán)隊(duì)表示,希望這批模型能更好地支撐學(xué)術(shù)研究、實(shí)驗(yàn)探索與真實(shí)工業(yè)場景的創(chuàng)新落地,同時(shí)也宣布同步發(fā)布對應(yīng)的 Base 基礎(chǔ)模型。
![]()
Qwen3.5 系列模型核心采用「門控增量網(wǎng)絡(luò)與稀疏混合專家」相結(jié)合的混合注意力架構(gòu),注意力層以 3:1 的比例排列,即 3 個(gè) Gated DeltaNet 層搭配 1 個(gè) Gated Attention 層。
這一設(shè)計(jì)的關(guān)鍵在于,模型在前向傳播時(shí)只激活對當(dāng)前任務(wù)必要的網(wǎng)絡(luò)部分,而非全量計(jì)算,從而在極低延遲與算力開銷下實(shí)現(xiàn)高吞吐推理。
![]()
附上 HuggingFace 地址: https://huggingface.co/Qwen/Qwen3.5-2B
多模態(tài)這塊也有講究。Qwen3.5 采用「早期融合」訓(xùn)練機(jī)制,文本、圖像、視頻在底層就一起處理,不是在文本模型上事后掛個(gè)視覺編碼器。
這個(gè)差異直接決定了小參數(shù)模型在視覺問答、OCR 文檔理解等任務(wù)上,能打出遠(yuǎn)超同量級傳統(tǒng)輕量多模態(tài)模型的表現(xiàn)。
全系列同時(shí)支持長達(dá) 26 萬 Token 的上下文窗口,并引入「思考」與「非思考」雙模式,可在深度邏輯推理與快速響應(yīng)之間靈活切換。
0.8B 與 2B 模型均為 24 層結(jié)構(gòu),隱藏維度分別為 1024 和 2048,專為物聯(lián)網(wǎng)設(shè)備等極端邊緣場景設(shè)計(jì),也可直接在主流手機(jī)上原生運(yùn)行。
![]()
盡管 0.8B 在語言基準(zhǔn) MMLU-Pro 上得分 29.7,表現(xiàn)平平,但受益于早期融合架構(gòu),其在視覺任務(wù) MathVista 上達(dá)到 62.2,OCRBench 達(dá)到 74.5,展現(xiàn)出與參數(shù)量不相稱的視覺理解能力。2B 模型的 OCRBench 進(jìn)一步提升至 84.5,表現(xiàn)亮眼。
![]()
上下滑動(dòng)查看更多內(nèi)容
4B 模型為 32 層結(jié)構(gòu),隱藏維度 2560,能夠流暢運(yùn)行于消費(fèi)級移動(dòng)硬件。官方將其定性為「出乎意料強(qiáng)大的多模態(tài)輕量智能體底座」。
9B 則再進(jìn)一步,同為 32 層結(jié)構(gòu),但隱藏維度提升至 4096,F(xiàn)FN 維度擴(kuò)展至 12288,可以在 Mac 上流暢運(yùn)行。
其 MMLU-Pro 得分達(dá)到 82.5,不僅超越了參數(shù)量為其三倍的上一代 Qwen3-30B,在視覺任務(wù)上更以兩位數(shù)優(yōu)勢超過 GPT-5-Nano 與 Gemini 2.5 Flash Lite。
![]()
MMMU-Pro 得分高達(dá) 70.1,MathVision 達(dá)到 78.9,證明了其在復(fù)雜物理和數(shù)學(xué)圖像解析上的實(shí)力。官方將 9B 的目標(biāo)明確為「縮小與前沿大模型的能力差距」,從基準(zhǔn)數(shù)據(jù)來看,這一目標(biāo)已初步實(shí)現(xiàn)。
海外開發(fā)者對這批模型的實(shí)際表現(xiàn)給出了高度正面的評價(jià)。
有開發(fā)者直言,稱其為「小模型」不過是低估了它,就好比把颶風(fēng)叫做微風(fēng)。
![]()
另有觀點(diǎn)認(rèn)為,真正值得關(guān)注的指標(biāo)是每十億參數(shù)所能釋放的智能密度。如今只需 3 萬美元的硬件,就能跑出一年前需要 20 萬美元 GPU 配置才有的推理能力。
已有開發(fā)者演示了在 iPhone 17 Pro 上通過針對 Apple Silicon 優(yōu)化的 MLX 框架本地運(yùn)行 Qwen3.5-2B 6-bit 版本,模型可實(shí)時(shí)完成視覺理解與問答任務(wù)。
![]()
網(wǎng)友在本地 Vision Agents 應(yīng)用中實(shí)時(shí)識別手寫內(nèi)容并即時(shí)回答問題,并感嘆這在幾個(gè)月前根本無法實(shí)現(xiàn)。
![]()
還有用戶這樣總結(jié)道,9B 模型性能與規(guī)模達(dá) 120B 的 ChatGPT 開源模型相當(dāng),體積卻只有其十三分之一,且完全免費(fèi),可在任何筆記本電腦乃至手機(jī)上運(yùn)行。
知名開源推理工具 Ollama 也迅速跟進(jìn),官宣支持 Qwen3.5 全系四個(gè)尺寸,并配套提供原生工具調(diào)用、思維鏈推理與多模態(tài)功能,只需一行命令即可拉取運(yùn)行。
![]()
附上地址:https://ollama.com/library/qwen3.5
跑分是起點(diǎn),AI+硬件才是終局
在談及阿里為何堅(jiān)持追求開源與發(fā)布全尺寸模型時(shí),千問技術(shù)負(fù)責(zé)人林俊旸曾在清華 AGI-Next 峰會(huì)上轉(zhuǎn)述其師弟的觀點(diǎn),給出了一個(gè)樸素的答案。
他表示,小模型起源于內(nèi)部實(shí)驗(yàn)需求,是為了讓資源有限的學(xué)生也能參與研究。他回憶道,7B 規(guī)模的模型已讓很多碩士博士生無力承擔(dān)實(shí)驗(yàn)成本,若將 1.8B 的模型開源出去,很多同學(xué)就有機(jī)會(huì)順利畢業(yè),「這是很好的初心」。
![]()
平心而論,Qwen 系列一路開源走下來,客觀上確實(shí)讓很多人用上了本來用不起的 AI 模型。而對于普通用戶而言,想親身體驗(yàn)這批最新的小模型其實(shí)也不復(fù)雜。
目前,你可以通過 PocketPal AI 這款手機(jī)應(yīng)用,直接下載并在本地運(yùn)行 Qwen3.5 系列模型,無需任何 API,模型推理全程在設(shè)備端完成。 如果不習(xí)慣英文界面,可以在設(shè)置 (Setting) 里找到語言 (Language) 選項(xiàng),切換成中文。
![]()
(具體教程可參考 APPSO 此前的文章:。
不過有一個(gè)細(xì)節(jié),比選哪個(gè)模型更重要:選對量化版本。
BF16 是接近原始精度的半精度權(quán)重,回答穩(wěn)定性最好,推理細(xì)節(jié)與對齊效果最接近原版,但 2B 的 BF16 權(quán)重文件就要 4.45GB,運(yùn)行時(shí)還需額外占用內(nèi)存用于 KV cache 和運(yùn)行緩沖區(qū),極易觸發(fā)系統(tǒng)殺后臺(tái)或直接加載失敗。
因此手機(jī)端的選擇邏輯應(yīng)該是:可用內(nèi)存長期能剩 6GB 以上,優(yōu)先選 IQ4_NL;可用內(nèi)存常在 3GB 至 5GB 之間,優(yōu)先選 Q3_K_M;可用內(nèi)存更低,才考慮 Q3_K_S 等等。
![]()
說到底,一個(gè)無法獨(dú)立運(yùn)行的模型,不過是一堆權(quán)重文件。真正有價(jià)值的,是與正確硬件深度綁定、以正確量化格式部署的小模型,那才能成為真正的產(chǎn)品。
智能手機(jī)時(shí)代本質(zhì)上是「單向輸入」的范式,而即將到來的 AI 硬件浪潮,是要以更碎片化、更有粘性的方式接管人類的記憶與生活。小模型,正是給這些硬件注入靈魂的關(guān)鍵。
阿里已將 Qwen 小模型嵌入 AI 眼鏡等可穿戴硬件,實(shí)現(xiàn)毫秒級端側(cè)視覺解析。在真實(shí)物理場景中,向眼鏡詢問前方障礙物時(shí)哪怕延遲三秒也會(huì)失去全部意義,而這恰恰是云端大模型無法克服的物理瓶頸。
![]()
你向眼鏡詢問前方障礙物的時(shí)候,哪怕延遲三秒也會(huì)失去全部意義,遇到需要深度推理的復(fù)雜問題,再作為路由器把請求交給云端的大模型處理。是的,端云協(xié)同架構(gòu),才是接下來幾年計(jì)算平臺(tái)的基本形態(tài)。
包括在 iPhone 的「視覺智能」中,當(dāng)用戶把攝像頭對準(zhǔn)餐廳或商品,端側(cè)實(shí)時(shí)完成場景解析、文本提取,甚至直接喚起購買流程,全程在設(shè)備上完成。
![]()
此外有媒體報(bào)道稱,蘋果下一步還在開發(fā)帶攝像頭的 AirPods 和智能眼鏡,這些設(shè)備會(huì)變成用戶的「第二雙眼睛和耳朵」。
工業(yè)方面,IoT 設(shè)備、工廠傳感器、醫(yī)療監(jiān)測終端,這些場景里數(shù)據(jù)隱私更敏感,本地推理同樣是硬需求。而端側(cè)小模型實(shí)時(shí)處理第一視角多模態(tài)數(shù)據(jù),則是繞不過去的基礎(chǔ)設(shè)施。
就像今天沒有人會(huì)專門寫一篇文章夸手機(jī)能打電話一樣。AI 眼鏡、AI 手表、AI 耳機(jī)等可穿戴設(shè)備,現(xiàn)在聽起來還有點(diǎn)新鮮,但在未來,它們也會(huì)變得稀松平常。
而讓這件事成為可能的,恰恰是一批又一批看似沒什么存在感的小模型。它們很小,但如無意外,它們將無處不在。
附上 HuggingFace 地址:
https://huggingface.co/collections/Qwen/qwen35
歡迎加入 APPSO AI 社群,一起暢聊 AI 產(chǎn)品,獲取,解鎖更多 AI 新知
我們正在招募伙伴
簡歷投遞郵箱hr@ifanr.com
?? 郵件標(biāo)題「姓名+崗位名稱」(請隨簡歷附上項(xiàng)目/作品或相關(guān)鏈接)
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.