魚羊 發自 凹非寺
量子位 | 公眾號 QbitAI
新一年的基礎模型競逐,沒想到是阿里千問率先出手了!
就在剛剛,Qwen3-Max-Thinking正式版突然發布,當即刷新全球SOTA:
在涵蓋科學知識、數學推理、代碼編程的19項權威基準測試中,趕上甚至超越GPT-5.2-Thinking、Claude-Opus-4.5和Gemini 3 Pro等TOP閉源模型。
![]()
p.s. 此前這一超大杯推理模型的“早期預覽版”,已經在AIME 25和HMMT 25(哈佛-MIT數學競賽)中達到100%的準確率。
量子位了解到,完全體的Qwen3-Max-Thinking總參數超萬億(1T),預訓練數據量高達36T Tokens,并且進行了更大規模的強化學習后訓練。
核心技術方面,通過引入自適應工具調用和測試時擴展兩項技術創新,Qwen3-Max-Thinking的推理性能和調用工具的原生Agent能力都有顯著提升。
千問APP PC端和網頁端已經第一時間上新這一Qwen系列最強模型,現在即可免費體驗。API(qwen3-max-2026-01-23)也已開放。
Qwen3超大杯推理版實測
話不多說,Qwen3超大杯推理版到底有多強,我們直接來看效果。
代碼能力
現場寫一個小游戲,對大模型們來說早已不是難事,什么貪食蛇、flappy bird基本都能輕松搞定。
如果再加上一點難度,讓Qwen3-Max-Thinking在網頁小游戲里加上手勢識別呢?
- 創建一個基于瀏覽器的氣球射擊游戲,使用天空背景,并通過攝像頭跟蹤用戶的手部動作來控制屏幕上的指針。
還真能work!并且在prompt的指導下,細節也都到位:
瞄準動作下,屏幕左上方會顯示“瞄準中”的狀態;雙指捏合觸發射擊時,能瞬間轉換“射擊!”提示;如果手出框了,還會出現紅色高亮提醒。

完整prompt如下:
prompt:“Create a browser-based balloon shooter with a sky background, using the webcam to track a user’s hand and control an on-screen pointer.Core requirements1. Sky screen- Fullscreen sky backdrop (gradient + soft clouds OR skybox).- Subtle parallax and gentle cloud drift for depth.2. Balloons- Spawn balloons from the bottom and drift upward with slight side-to-side motion.- Different sizes (small = faster / worth more, large = slower / worth less).- Optional wind gusts that shift all balloons briefly.3. Hand pointer- Use real-time hand tracking from the camera.- Track index fingertip and map it to screen coordinates.- Render a crosshair/pointer at that position.- Add smoothing so the pointer doesn’t jitter (exponential moving average).4. Shooting- Shooting gesture: pinch (thumb + index) to fire.- Add a cooldown (e.g., 150–250ms) to prevent accidental rapid-fire.- When firing, do a raycast / hit-test from the pointer to balloons.- If hit: pop balloon + add score + combo streak feedback.5. Feedback- Pop VFX: quick burst particles + optional “rubber fragments.”- Small screen shake or micro “kick” on hit (subtle).- Sound toggle (pop + whoosh).6. UI (simple + modern)- Minimal HUD: score, combo, and a small “calibration” indicator.- Settings drawer: sensitivity, smoothing, spawn rate, difficulty, left/right hand selection.- Fallback controls: mouse pointer + click if camera isn’t available.7. Calibration & stabilityInclude a calibration step:- Ask the user to hold their hand in view and point to screen corners to fit mapping.- Handle low-confidence frames:- If hand not detected, fade crosshair and show “Hand not found” hint.prompt:“Create a browser-based balloon shooter with a sky background, using the webcam to track a user’s hand and control an on-screen pointer.Core requirements
再來一手經典難度題:鵜鶘騎自行車。
- An animated SVG of a pelican riding a bicycle.
emmm…談不上完美,但鑒于給出的提示詞比較簡略,至少確實是那么個意思了(doge)。

工具調用
此次更新,官方重點強調了兩方面的能力提升:推理能力和自主調用工具的原生Agent能力。
剛好最近在關注內存漲價這事兒,不妨讓Qwen3-Max-Thinking直接幫我們分析一波,寫份研報。
提示詞:
- 最近內存價格瘋漲,幫我分析下哪些股票受到了影響,畫出相關股價走勢

從側邊欄顯示的思考細節可以看到,Qwen3-Max-Thinking先是自主上網收集好了資料,然后調用代碼解釋器做起了數據分析和繪圖,就像人類一樣是邊用工具邊思考的。
不到1分鐘時間,一份囊括漲價原因、受益/受損產業分析、下一階段存儲芯片產業走勢的完整報告,就新鮮出爐了。
技術解析
在模型上線的同時,阿里千問團隊也通過官方技術博客,透露了Qwen3-Max-Thinking的不少技術細節。
技術博客提到,Qwen3-Max-Thinking在事實知識、復雜推理、指令遵循、人類偏好對齊以及智能體能力等評估維度上都實現了顯著提升。
背后有兩項核心創新:
- 自適應工具調用能力,可按需調用搜索引擎和代碼解釋器;
- 測試時擴展技術(Test-Time Scaling),顯著提升推理性能。
來看具體細節。
自適應工具調用
與早期需要用戶手動選擇工具的方法不同,通過引入自適應工具調用,Qwen3-Max-Thinking能在對話中自主選擇并調用其內置的搜索、記憶和代碼解釋器功能。
比如,搜索《醉翁亭記》全文,并調用代碼解釋器把所有的“也”替換成“喵”。
![]()
最終的完成效果如下:
![]()
在此背后,阿里千問團隊專門設計了一套訓練流程:
在完成初步的工具使用微調后,模型在多樣化任務上使用基于規則和模型的反饋來做進一步訓練。
實驗表明,搜索和記憶工具能有效緩解幻覺,提供實時信息訪問,并支持更個性化的回復。代碼解釋器允許用戶執行代碼片段,并應用計算推理來解決復雜問題。
測試時擴展技術
測試時擴展是指在推理階段分配額外計算資源,以提升模型性能的技術。
阿里千問團隊提出了一種經驗積累式、多輪迭代的測試時擴展策略。
不同于簡單增加并行推理路徑數量N(這往往會導致冗余推理),研究團隊限制N并將節省的計算資源用于由“經驗提取”機制引導的迭代式自我反思。
這樣做的好處在于,模型不會推理著推理著又繞回到已經得出的結論上去,瘋狂廢話浪費token,而是會專注于未解決的不確定性。
更關鍵的是,相比于直接引用原始推理軌跡,該機制實現了更高的上下文利用效率,在相同上下文窗口內能更充分地融合歷史信息。
實驗證明,在大致相同的token消耗下,該方法優于標準的并行采樣與聚合方法,推理性能和推理效率大幅提升。
比如,在啟用工具的“人類最后的測試”HLE中,Qwen3-Max-Thinking得分58.3,超過GPT-5.2-Thinking的45.5,以及Gemini 3 Pro的45.8,刷新SOTA。
在IMO難度級別的數學能力測試基準IMO-AnswerBench上,Qwen3-Max-Thinking也以91.5的成績拿下全場最高分。
![]()
中國開源持續席卷世界
意料之中,2026年的第一個重量級模型更新,再次來自中國。
而有些意料之外但也在情理之中的是,這一次率先出手的,是阿里千問。
根據MIT-Hugging Face數據,在全球22億次模型下載行為之中,中國開源AI模型的采用份額已經躍升至17.1%,超過了美國的15.8%。
在過去一年內新發布的模型中,中國模型的下載量穩居第一。
![]()
在其中,從迭代頻率、下載量和社區影響力來看,千問系列拔得頭籌。
![]()
Hugging Face的最新數據顯示,阿里千問系列衍生模型數量突破20萬個,成為全球首個達成此目標的開源大模型。同時,千問系列模型下載量突破10億次,平均每天被下載110萬次,完全超越Llama,實際上已經成為全球AI開源界的新標桿。
![]()
值得關注的是,在飛快壯大自身開源、頂級模型影響力的同時,阿里也已在實踐中揭示了2026年模型廠商的新著力點——
將頂尖模型能力和應用生態體系做更深入的結合。
日前,千問APP已全面接入淘寶、支付寶、淘寶閃購、飛豬、高德等阿里生態業務。
可以預見的是,2026基礎模型還將持續增強,并且更深入地與各個垂直領域、與實際生活相結合,在落地實踐中展現更多應用的可能。
第一炮已經打響,期待中國開源延續2025年的勢頭,持續給世界帶來新驚喜~
官網地址:
https://chat.qwen.ai/
— 完 —
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.