馬斯克大贊阿里 AI，9B 參數(shù)硬剛 120B，海外網(wǎng)友：這叫小模型？

2026-03-03 12:57:39　來源: AppSo

廣東舉報(bào)

分享至

馬斯克又雙叒叕下場點(diǎn)贊中國 AI 了。

昨天深夜，阿里通義千問團(tuán)隊(duì)在 X 平臺(tái)正式發(fā)布了 Qwen3.5 小模型系列，覆蓋 0.8B、2B、4B 和 9B 四個(gè)參數(shù)規(guī)格。甫一發(fā)布，便在海外科技圈引發(fā)強(qiáng)烈反響。

馬斯克也在該推文下評論稱：「Impressive intelligence density」（令人印象深刻的智能密度）。這股熱度的背后，APPSO 也好奇，為什么這幾款小模型能夠激起如此大的波瀾？

又小又猛，憑什么

Qwen 官方在 X 平臺(tái)發(fā)帖宣布這批模型上線，言簡意賅地將其定位為「更強(qiáng)的智能，更少的算力」。

官方強(qiáng)調(diào)，四款小模型共享同一套 Qwen3.5 基礎(chǔ)架構(gòu)，原生支持多模態(tài)，并經(jīng)過架構(gòu)層面的專項(xiàng)改良與大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練。

Qwen 團(tuán)隊(duì)表示，希望這批模型能更好地支撐學(xué)術(shù)研究、實(shí)驗(yàn)探索與真實(shí)工業(yè)場景的創(chuàng)新落地，同時(shí)也宣布同步發(fā)布對應(yīng)的 Base 基礎(chǔ)模型。

Qwen3.5 系列模型核心采用「門控增量網(wǎng)絡(luò)與稀疏混合專家」相結(jié)合的混合注意力架構(gòu)，注意力層以 3:1 的比例排列，即 3 個(gè) Gated DeltaNet 層搭配 1 個(gè) Gated Attention 層。

這一設(shè)計(jì)的關(guān)鍵在于，模型在前向傳播時(shí)只激活對當(dāng)前任務(wù)必要的網(wǎng)絡(luò)部分，而非全量計(jì)算，從而在極低延遲與算力開銷下實(shí)現(xiàn)高吞吐推理。

附上 HuggingFace 地址： https://huggingface.co/Qwen/Qwen3.5-2B

多模態(tài)這塊也有講究。Qwen3.5 采用「早期融合」訓(xùn)練機(jī)制，文本、圖像、視頻在底層就一起處理，不是在文本模型上事后掛個(gè)視覺編碼器。

這個(gè)差異直接決定了小參數(shù)模型在視覺問答、OCR 文檔理解等任務(wù)上，能打出遠(yuǎn)超同量級傳統(tǒng)輕量多模態(tài)模型的表現(xiàn)。

全系列同時(shí)支持長達(dá) 26 萬 Token 的上下文窗口，并引入「思考」與「非思考」雙模式，可在深度邏輯推理與快速響應(yīng)之間靈活切換。

0.8B 與 2B 模型均為 24 層結(jié)構(gòu)，隱藏維度分別為 1024 和 2048，專為物聯(lián)網(wǎng)設(shè)備等極端邊緣場景設(shè)計(jì)，也可直接在主流手機(jī)上原生運(yùn)行。

盡管 0.8B 在語言基準(zhǔn) MMLU-Pro 上得分 29.7，表現(xiàn)平平，但受益于早期融合架構(gòu)，其在視覺任務(wù) MathVista 上達(dá)到 62.2，OCRBench 達(dá)到 74.5，展現(xiàn)出與參數(shù)量不相稱的視覺理解能力。2B 模型的 OCRBench 進(jìn)一步提升至 84.5，表現(xiàn)亮眼。

上下滑動(dòng)查看更多內(nèi)容

4B 模型為 32 層結(jié)構(gòu)，隱藏維度 2560，能夠流暢運(yùn)行于消費(fèi)級移動(dòng)硬件。官方將其定性為「出乎意料強(qiáng)大的多模態(tài)輕量智能體底座」。

9B 則再進(jìn)一步，同為 32 層結(jié)構(gòu)，但隱藏維度提升至 4096，F(xiàn)FN 維度擴(kuò)展至 12288，可以在 Mac 上流暢運(yùn)行。

其 MMLU-Pro 得分達(dá)到 82.5，不僅超越了參數(shù)量為其三倍的上一代 Qwen3-30B，在視覺任務(wù)上更以兩位數(shù)優(yōu)勢超過 GPT-5-Nano 與 Gemini 2.5 Flash Lite。

MMMU-Pro 得分高達(dá) 70.1，MathVision 達(dá)到 78.9，證明了其在復(fù)雜物理和數(shù)學(xué)圖像解析上的實(shí)力。官方將 9B 的目標(biāo)明確為「縮小與前沿大模型的能力差距」，從基準(zhǔn)數(shù)據(jù)來看，這一目標(biāo)已初步實(shí)現(xiàn)。

海外開發(fā)者對這批模型的實(shí)際表現(xiàn)給出了高度正面的評價(jià)。

有開發(fā)者直言，稱其為「小模型」不過是低估了它，就好比把颶風(fēng)叫做微風(fēng)。

另有觀點(diǎn)認(rèn)為，真正值得關(guān)注的指標(biāo)是每十億參數(shù)所能釋放的智能密度。如今只需 3 萬美元的硬件，就能跑出一年前需要 20 萬美元 GPU 配置才有的推理能力。

已有開發(fā)者演示了在 iPhone 17 Pro 上通過針對 Apple Silicon 優(yōu)化的 MLX 框架本地運(yùn)行 Qwen3.5-2B 6-bit 版本，模型可實(shí)時(shí)完成視覺理解與問答任務(wù)。

網(wǎng)友在本地 Vision Agents 應(yīng)用中實(shí)時(shí)識別手寫內(nèi)容并即時(shí)回答問題，并感嘆這在幾個(gè)月前根本無法實(shí)現(xiàn)。

還有用戶這樣總結(jié)道，9B 模型性能與規(guī)模達(dá) 120B 的 ChatGPT 開源模型相當(dāng)，體積卻只有其十三分之一，且完全免費(fèi)，可在任何筆記本電腦乃至手機(jī)上運(yùn)行。

知名開源推理工具 Ollama 也迅速跟進(jìn)，官宣支持 Qwen3.5 全系四個(gè)尺寸，并配套提供原生工具調(diào)用、思維鏈推理與多模態(tài)功能，只需一行命令即可拉取運(yùn)行。

附上地址：https://ollama.com/library/qwen3.5

跑分是起點(diǎn)，AI+硬件才是終局

在談及阿里為何堅(jiān)持追求開源與發(fā)布全尺寸模型時(shí)，千問技術(shù)負(fù)責(zé)人林俊旸曾在清華 AGI-Next 峰會(huì)上轉(zhuǎn)述其師弟的觀點(diǎn)，給出了一個(gè)樸素的答案。

他表示，小模型起源于內(nèi)部實(shí)驗(yàn)需求，是為了讓資源有限的學(xué)生也能參與研究。他回憶道，7B 規(guī)模的模型已讓很多碩士博士生無力承擔(dān)實(shí)驗(yàn)成本，若將 1.8B 的模型開源出去，很多同學(xué)就有機(jī)會(huì)順利畢業(yè)，「這是很好的初心」。

平心而論，Qwen 系列一路開源走下來，客觀上確實(shí)讓很多人用上了本來用不起的 AI 模型。而對于普通用戶而言，想親身體驗(yàn)這批最新的小模型其實(shí)也不復(fù)雜。

目前，你可以通過 PocketPal AI 這款手機(jī)應(yīng)用，直接下載并在本地運(yùn)行 Qwen3.5 系列模型，無需任何 API，模型推理全程在設(shè)備端完成。如果不習(xí)慣英文界面，可以在設(shè)置 (Setting) 里找到語言 (Language) 選項(xiàng)，切換成中文。

（具體教程可參考 APPSO 此前的文章：。

不過有一個(gè)細(xì)節(jié)，比選哪個(gè)模型更重要：選對量化版本。

BF16 是接近原始精度的半精度權(quán)重，回答穩(wěn)定性最好，推理細(xì)節(jié)與對齊效果最接近原版，但 2B 的 BF16 權(quán)重文件就要 4.45GB，運(yùn)行時(shí)還需額外占用內(nèi)存用于 KV cache 和運(yùn)行緩沖區(qū)，極易觸發(fā)系統(tǒng)殺后臺(tái)或直接加載失敗。

因此手機(jī)端的選擇邏輯應(yīng)該是：可用內(nèi)存長期能剩 6GB 以上，優(yōu)先選 IQ4_NL；可用內(nèi)存常在 3GB 至 5GB 之間，優(yōu)先選 Q3_K_M；可用內(nèi)存更低，才考慮 Q3_K_S 等等。

說到底，一個(gè)無法獨(dú)立運(yùn)行的模型，不過是一堆權(quán)重文件。真正有價(jià)值的，是與正確硬件深度綁定、以正確量化格式部署的小模型，那才能成為真正的產(chǎn)品。

智能手機(jī)時(shí)代本質(zhì)上是「單向輸入」的范式，而即將到來的 AI 硬件浪潮，是要以更碎片化、更有粘性的方式接管人類的記憶與生活。小模型，正是給這些硬件注入靈魂的關(guān)鍵。

阿里已將 Qwen 小模型嵌入 AI 眼鏡等可穿戴硬件，實(shí)現(xiàn)毫秒級端側(cè)視覺解析。在真實(shí)物理場景中，向眼鏡詢問前方障礙物時(shí)哪怕延遲三秒也會(huì)失去全部意義，而這恰恰是云端大模型無法克服的物理瓶頸。

你向眼鏡詢問前方障礙物的時(shí)候，哪怕延遲三秒也會(huì)失去全部意義，遇到需要深度推理的復(fù)雜問題，再作為路由器把請求交給云端的大模型處理。是的，端云協(xié)同架構(gòu)，才是接下來幾年計(jì)算平臺(tái)的基本形態(tài)。

包括在 iPhone 的「視覺智能」中，當(dāng)用戶把攝像頭對準(zhǔn)餐廳或商品，端側(cè)實(shí)時(shí)完成場景解析、文本提取，甚至直接喚起購買流程，全程在設(shè)備上完成。

此外有媒體報(bào)道稱，蘋果下一步還在開發(fā)帶攝像頭的 AirPods 和智能眼鏡，這些設(shè)備會(huì)變成用戶的「第二雙眼睛和耳朵」。

工業(yè)方面，IoT 設(shè)備、工廠傳感器、醫(yī)療監(jiān)測終端，這些場景里數(shù)據(jù)隱私更敏感，本地推理同樣是硬需求。而端側(cè)小模型實(shí)時(shí)處理第一視角多模態(tài)數(shù)據(jù)，則是繞不過去的基礎(chǔ)設(shè)施。

就像今天沒有人會(huì)專門寫一篇文章夸手機(jī)能打電話一樣。AI 眼鏡、AI 手表、AI 耳機(jī)等可穿戴設(shè)備，現(xiàn)在聽起來還有點(diǎn)新鮮，但在未來，它們也會(huì)變得稀松平常。

而讓這件事成為可能的，恰恰是一批又一批看似沒什么存在感的小模型。它們很小，但如無意外，它們將無處不在。

附上 HuggingFace 地址：

https://huggingface.co/collections/Qwen/qwen35

歡迎加入 APPSO AI 社群，一起暢聊 AI 產(chǎn)品，獲取，解鎖更多 AI 新知

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標(biāo)題「姓名+崗位名稱」（請隨簡歷附上項(xiàng)目/作品或相關(guān)鏈接）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.