網易首頁 > 網易號 > 正文申請入駐

那個用半成品刷爆SOTA的Qwen3超大杯推理版，現在正式上線

2026-01-26 23:45:47　來源: 量子位

北京舉報

分享至

魚羊發自凹非寺
量子位 | 公眾號 QbitAI

新一年的基礎模型競逐，沒想到是阿里千問率先出手了！

就在剛剛，Qwen3-Max-Thinking正式版突然發布，當即刷新全球SOTA：

在涵蓋科學知識、數學推理、代碼編程的19項權威基準測試中，趕上甚至超越GPT-5.2-Thinking、Claude-Opus-4.5和Gemini 3 Pro等TOP閉源模型。

p.s. 此前這一超大杯推理模型的“早期預覽版”，已經在AIME 25和HMMT 25（哈佛-MIT數學競賽）中達到100%的準確率。

量子位了解到，完全體的Qwen3-Max-Thinking總參數超萬億（1T），預訓練數據量高達36T Tokens，并且進行了更大規模的強化學習后訓練。

核心技術方面，通過引入自適應工具調用和測試時擴展兩項技術創新，Qwen3-Max-Thinking的推理性能和調用工具的原生Agent能力都有顯著提升。

千問APP PC端和網頁端已經第一時間上新這一Qwen系列最強模型，現在即可免費體驗。API（qwen3-max-2026-01-23）也已開放。

Qwen3超大杯推理版實測

話不多說，Qwen3超大杯推理版到底有多強，我們直接來看效果。

代碼能力

現場寫一個小游戲，對大模型們來說早已不是難事，什么貪食蛇、flappy bird基本都能輕松搞定。

如果再加上一點難度，讓Qwen3-Max-Thinking在網頁小游戲里加上手勢識別呢？

創建一個基于瀏覽器的氣球射擊游戲，使用天空背景，并通過攝像頭跟蹤用戶的手部動作來控制屏幕上的指針。

還真能work！并且在prompt的指導下，細節也都到位：

瞄準動作下，屏幕左上方會顯示“瞄準中”的狀態；雙指捏合觸發射擊時，能瞬間轉換“射擊！”提示；如果手出框了，還會出現紅色高亮提醒。

完整prompt如下：

prompt:“Create a browser-based balloon shooter with a sky background, using the webcam to track a user’s hand and control an on-screen pointer.Core requirements1. Sky screen- Fullscreen sky backdrop (gradient + soft clouds OR skybox).- Subtle parallax and gentle cloud drift for depth.2. Balloons- Spawn balloons from the bottom and drift upward with slight side-to-side motion.- Different sizes (small = faster / worth more, large = slower / worth less).- Optional wind gusts that shift all balloons briefly.3. Hand pointer- Use real-time hand tracking from the camera.- Track index fingertip and map it to screen coordinates.- Render a crosshair/pointer at that position.- Add smoothing so the pointer doesn’t jitter (exponential moving average).4. Shooting- Shooting gesture: pinch (thumb + index) to fire.- Add a cooldown (e.g., 150–250ms) to prevent accidental rapid-fire.- When firing, do a raycast / hit-test from the pointer to balloons.- If hit: pop balloon + add score + combo streak feedback.5. Feedback- Pop VFX: quick burst particles + optional “rubber fragments.”- Small screen shake or micro “kick” on hit (subtle).- Sound toggle (pop + whoosh).6. UI (simple + modern)- Minimal HUD: score, combo, and a small “calibration” indicator.- Settings drawer: sensitivity, smoothing, spawn rate, difficulty, left/right hand selection.- Fallback controls: mouse pointer + click if camera isn’t available.7. Calibration & stabilityInclude a calibration step:- Ask the user to hold their hand in view and point to screen corners to fit mapping.- Handle low-confidence frames:- If hand not detected, fade crosshair and show “Hand not found” hint.prompt:“Create a browser-based balloon shooter with a sky background, using the webcam to track a user’s hand and control an on-screen pointer.Core requirements

再來一手經典難度題：鵜鶘騎自行車。

An animated SVG of a pelican riding a bicycle.

emmm…談不上完美，但鑒于給出的提示詞比較簡略，至少確實是那么個意思了（doge）。

工具調用

此次更新，官方重點強調了兩方面的能力提升：推理能力和自主調用工具的原生Agent能力。

剛好最近在關注內存漲價這事兒，不妨讓Qwen3-Max-Thinking直接幫我們分析一波，寫份研報。

提示詞：

最近內存價格瘋漲，幫我分析下哪些股票受到了影響，畫出相關股價走勢

從側邊欄顯示的思考細節可以看到，Qwen3-Max-Thinking先是自主上網收集好了資料，然后調用代碼解釋器做起了數據分析和繪圖，就像人類一樣是邊用工具邊思考的。

不到1分鐘時間，一份囊括漲價原因、受益/受損產業分析、下一階段存儲芯片產業走勢的完整報告，就新鮮出爐了。

技術解析

在模型上線的同時，阿里千問團隊也通過官方技術博客，透露了Qwen3-Max-Thinking的不少技術細節。

技術博客提到，Qwen3-Max-Thinking在事實知識、復雜推理、指令遵循、人類偏好對齊以及智能體能力等評估維度上都實現了顯著提升。

背后有兩項核心創新：

自適應工具調用能力，可按需調用搜索引擎和代碼解釋器；
測試時擴展技術（Test-Time Scaling），顯著提升推理性能。

來看具體細節。

自適應工具調用

與早期需要用戶手動選擇工具的方法不同，通過引入自適應工具調用，Qwen3-Max-Thinking能在對話中自主選擇并調用其內置的搜索、記憶和代碼解釋器功能。

比如，搜索《醉翁亭記》全文，并調用代碼解釋器把所有的“也”替換成“喵”。

最終的完成效果如下：

在此背后，阿里千問團隊專門設計了一套訓練流程：

在完成初步的工具使用微調后，模型在多樣化任務上使用基于規則和模型的反饋來做進一步訓練。

實驗表明，搜索和記憶工具能有效緩解幻覺，提供實時信息訪問，并支持更個性化的回復。代碼解釋器允許用戶執行代碼片段，并應用計算推理來解決復雜問題。

測試時擴展技術

測試時擴展是指在推理階段分配額外計算資源，以提升模型性能的技術。

阿里千問團隊提出了一種經驗積累式、多輪迭代的測試時擴展策略。

不同于簡單增加并行推理路徑數量N（這往往會導致冗余推理），研究團隊限制N并將節省的計算資源用于由“經驗提取”機制引導的迭代式自我反思。

這樣做的好處在于，模型不會推理著推理著又繞回到已經得出的結論上去，瘋狂廢話浪費token，而是會專注于未解決的不確定性。

更關鍵的是，相比于直接引用原始推理軌跡，該機制實現了更高的上下文利用效率，在相同上下文窗口內能更充分地融合歷史信息。

實驗證明，在大致相同的token消耗下，該方法優于標準的并行采樣與聚合方法，推理性能和推理效率大幅提升。

比如，在啟用工具的“人類最后的測試”HLE中，Qwen3-Max-Thinking得分58.3，超過GPT-5.2-Thinking的45.5，以及Gemini 3 Pro的45.8，刷新SOTA。

在IMO難度級別的數學能力測試基準IMO-AnswerBench上，Qwen3-Max-Thinking也以91.5的成績拿下全場最高分。

中國開源持續席卷世界

意料之中，2026年的第一個重量級模型更新，再次來自中國。

而有些意料之外但也在情理之中的是，這一次率先出手的，是阿里千問。

根據MIT-Hugging Face數據，在全球22億次模型下載行為之中，中國開源AI模型的采用份額已經躍升至17.1%，超過了美國的15.8%。

在過去一年內新發布的模型中，中國模型的下載量穩居第一。

在其中，從迭代頻率、下載量和社區影響力來看，千問系列拔得頭籌。

Hugging Face的最新數據顯示，阿里千問系列衍生模型數量突破20萬個，成為全球首個達成此目標的開源大模型。同時，千問系列模型下載量突破10億次，平均每天被下載110萬次，完全超越Llama，實際上已經成為全球AI開源界的新標桿。

值得關注的是，在飛快壯大自身開源、頂級模型影響力的同時，阿里也已在實踐中揭示了2026年模型廠商的新著力點——

將頂尖模型能力和應用生態體系做更深入的結合。

日前，千問APP已全面接入淘寶、支付寶、淘寶閃購、飛豬、高德等阿里生態業務。

可以預見的是，2026基礎模型還將持續增強，并且更深入地與各個垂直領域、與實際生活相結合，在落地實踐中展現更多應用的可能。

第一炮已經打響，期待中國開源延續2025年的勢頭，持續給世界帶來新驚喜~

官網地址：
https://chat.qwen.ai/

— 完 —

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.