![]()
智東西
編譯 楊京麗
編輯 陳駿達
智東西4月23日報道,昨晚,阿里通義千問團隊宣布開源Qwen3.6-27B——一款270億參數的稠密多模態模型,支持思考與非思考模式。
與阿里上一代開源模型Qwen3.5-397B-A17B相比,Qwen3.6-27B以1/15的參數規模,在SWE-bench Verified、SWE-bench Pro、Terminal-Bench 2.0以及SkillsBench上實現了反超,其編程能力提升明顯,同時還具備較強的文本和多模態推理能力。
與相似尺寸的Gemma 4-31B模型對比,Qwen3.6-27B在大部分維度上,展現出較大領先優勢。
![]()
隨著Qwen3.6-27B的發布,阿里稱Qwen3.6系列已完整發布,包括開源模型Qwen3.6-35B-A3B和閉源模型Qwen3.6-Plus、Qwen3.6-Max-Preview。
阿里云百煉平臺上,現在已經可以看到Qwen3.6-27B的價格,每百萬Token輸入價格3元,輸出價格18元。由于Qwen3.6-27B是稠密模型,價格并不便宜。
![]()
Qwen3.6-27B現已上線Qwen Studio,并以開源權重形式發布于Hugging Face和ModelScope,阿里云百煉API即將上線,屆時將支持preserve_thinking功能以適配智能體任務。該模型也可接入OpenClaw、Claude Code、Qwen Code等主流第三方編程助手。
![]()
體驗地址:
https://chat.qwen.ai/
開源地址:
https://huggingface.co/Qwen/Qwen3.6-27B
https://modelscope.cn/models/Qwen/Qwen3.6-27B
一、編程能力:界面美觀、功能完備,復雜需求一次到位
官方對比了Qwen3.6-27B和Qwen3.5-397B-A17B,在編程基準上,Qwen3.6-27B在多方面領先:SWE-bench Verified(77.2 vs. 76.2)、SWE-bench Pro(53.5 vs. 50.9)、Terminal-Bench 2.0(59.3 vs. 52.5)以及SkillsBench(48.2 vs. 30.0)。在推理任務上,Qwen3.6-27B 在GPQA Diamond上取得了87.8的成績,略次于Qwen3.5-397B-A17B的88.4。
![]()
為直觀驗證Qwen3.6-27B編程能力,智東西進行了如下的幾個測試。
首先,我們先讓它做了一個跑酷小游戲,測試其編程和前端能力,要求滿足角色動作、關卡要素、道具系統、UI設計等多維度約束。
![]()
它用時四分鐘左右,寫完了1200多行代碼。從實測結果來看,游戲設計與前端實現上,Qwen3.6-27B基本還原了提示詞中列舉的全部核心要素:玩家的跳躍、二段跳等均已實現,添加了無人機、針刺等障礙物,能量電池、金幣、磁鐵等均可拾取。美術風格符合設定,UI層完整展示了血量、分數、速度、距離等指標,游戲可玩性強。
![]()
但細節層面仍存在一些小問題,針刺懸浮在天上有點怪;吃到電池后,沒有能量條顯示;撞到箱子,就自動過去了,沒有扣除血量。
另外,我們還讓Qwen3.6-27B制作了個人記賬應用,考察的是模型應用開發能力和對閉環設計的理解,包括統計邏輯怎么算、數據怎么持久化、異常輸入怎么攔截,比寫一個靜態頁面要復雜得多。
![]()
在應用開發上,Qwen3.6-27B的表現相對穩健。生成的應用完整實現了記錄的增刪改查、按月份篩選、總收入/總支出/結余的統計以及近7天收支趨勢圖表,刷新頁面后數據沒有丟失,說明localStorage持久化已正確實現。
唯一的小Bug是刷新頁面后,7日收支柱狀圖一度不顯示,再記一筆賬后恢復,屬于“初始渲染時機”問題。模型在異步狀態初始化的順序上,沒處理到位。從界面上看,這個記賬應用視覺設計較為簡約,是一套偏實用向的標準控件組合。業務邏輯維度上,它把一個日常工具該有的數據流、統計邏輯與異常處理都串起來了,對于應用開發全流程的理解比較清晰。
之后,我們還讓它做了個新聞網站前端設計,看起來還是有模有樣的。
![]()
Qwen3.6-27B自行規劃,分了科技、財經、體育、娛樂、健康五大板塊,設有國內新聞和國際新聞,界面右側,還展示了熱門排行、標簽、北京的天氣,甚至把商業化都想好了,留出了廣告的位置。界面條理清晰,內容完整,可視化效果好,模型對“一個新聞網站長什么樣”有較為成熟的認知。
二、多模態能力:識別驗證碼、找不同,通通拿下
作為原生多模態模型,Qwen3.6-27B支持視覺語言思考與非思考模式,可處理圖像、視頻與文本的聯合理解,覆蓋視覺推理、文檔理解、視覺問答等場景,能力基本上與Qwen3.5-397B-A17B想當。
![]()
針對多模態能力,我們也對Qwen3.6-27B進行了測試,首先讓它識別了下面這幾個驗證碼。
![]()
可以看到,它較為清楚的判斷出了絕大多數驗證碼,只有第八個0AIs,他把s認成了6,其他都判斷的比較準確,同時也注明了自己不確定的部分。這種帶置信度反饋的識別方式,對后續的自動化校驗鏈路更友好,下游系統可以基于置信度決定是否自動通過。
![]()
展開思考過程,我們可以看到它多次確認圖8的驗證碼0AIs,最后一位它在b和6之間反復糾結,被旁邊字母干擾,在錯誤的道路上越走越遠了,而正確答案s自始至終沒有進入過它的候選集。
這樣看下來,Qwen3.6-27B的圖像識別和推理能力還是過關的,得到相對模糊的反饋后,還需進行人工驗證。
另外,我們還讓Qwen3.6-27B進行了“找不同”測試,讓它看看左右兩張圖有什么區別。
![]()
Qwen3.6-27B識別出了5處差異,不同難度的不同點都注意到了:鳥窩、打開的書、燈籠、顏色差異,還有墻上的掛飾,這個我自己一開始都沒注意到。
![]()
值得注意的是,它的思考過程非常簡單,簡單比對就完成了分析,而且描述也很清晰,展示出模型的較強的視覺識別與推理能力。
結語:阿里開源戰略漸趨聚焦,27B模型瞄準開發者核心需求
Qwen3.6系列的發布,折射出阿里在開源策略的轉向。此前,阿里曾開源從幾十億參數量到數千億參數量的各種模型,但本次Qwen3.6系列僅開源了小尺寸MoE模型和稠密模型,體現出其開源戰略的聚焦。
此類小模型面向開發者、研究者及小團隊,可以直接本地部署,或在其基礎上做進一步研究和微調。Qwen3.6-27B恰好卡在了這個需求的中心位置。
開源社區對這一尺寸的模型呼聲很高;從實際價值看,27B的稠密模型也更能滿足開發者對部署靈活性和可控性的現實要求。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.