網易首頁 > 網易號 > 正文申請入駐

剛剛，阿里旗艦模型Qwen3-Max-Thinking發布，編程能力“踢館”Gemini與Claude

2026-01-27 00:30:36　來源: InfoQ

北京舉報

分享至

作者｜冬梅

1 阿里突發最強旗艦模型，總參數過萬億

就在剛剛，Qwen3-Max-Thinking 正式版突然發布，總參數規模超過 1 萬億（1T），位于目前全球最大規模 AI 模型行列，預訓練數據規模高達 36T Tokens，覆蓋大量高質量語料。

Qwen3-Max 是阿里通義團隊迄今規模最大、能力最強的語言模型，該版本包括 Base、Instruct 和 Thinking 多種形式。

在多項權威基準測試中表現優異，Qwen3-Max-Thinking 性能可與 GPT-5.2-Thinking、Claude-Opus-4.5、Gemini-3 Pro 等閉源頂級模型競爭甚至超越。

具體而言，Qwen3-Max-Thinking 在多項關鍵 AI 基準測試中達到了或刷新了全球 SOTA 表現：

在包含事實科學知識、復雜推理和編程能力在內的 19 項權威基準測試中取得極高水平，有記錄顯示其綜合表現可媲美 GPT-5.2-Thinking、Claude-Opus-4.5 及 Gemini-3 Pro 等業內領先模型。
在數學推理基準測試中，該模型曾在預覽階段實現 AIME 25 和 HMMT 25 滿分（即 100% 準確率），這一表現被認為代表了高難度數學推理能力。
相較于此前的 Instruct 版本，Thinking 版本在 Agent 工具調用、復雜邏輯和深度推理任務中表現出更優的能力。

這些測試覆蓋了科學知識問答（如 GPQA Diamond）、數學推理（如 IMO 等級測試）、代碼編程（如 LiveCodeBench）等多個領域，是衡量大型語言模型綜合能力的重要指標。

為實現上述性能突破，千問團隊在官方博客中稱為 Qwen3-Max-Thinking 引入兩項核心創新：

自適應工具調用能力，可按需調用搜索引擎和代碼解釋器，現已上線；
測試時擴展技術（Test-Time Scaling），顯著提升推理性能，在關鍵推理基準上超越 Gemini 3 Pro。

那么，這兩項核心創新到底什么意思？

首先是自適應工具調用能力，據千問團隊介紹，與早期需要用戶手動選擇工具的方法不同，Qwen3-Max-Thinking 能在對話中自主選擇并調用其內置的搜索、記憶和代碼解釋器功能。

該能力源于專門設計的訓練流程：在完成初步的工具使用微調后，模型在多樣化任務上使用基于規則和模型的反饋進行了進一步訓練。實驗表明，搜索和記憶工具能有效緩解幻覺、提供實時信息訪問并支持更個性化的回復。代碼解釋器允許用戶執行代碼片段并應用計算推理來解決復雜問題。這些功能共同提供了流暢且強大的對話體驗。

再來說說測試時擴展。該技術是指在推理階段分配額外計算資源以提升模型性能的技術。研發團隊提出了一種經驗累積式、多輪迭代的測試時擴展策略。

不同于簡單增加并行推理路徑數量 N（這往往導致冗余推理），團隊對并行軌跡數量進行限制并將節省的計算資源用于由“經驗提取”機制引導的迭代式自我反思。

該機制從過往推理輪次中提煉關鍵洞見，使模型避免重復推導已知結論，轉而聚焦于未解決的不確定性。關鍵在于，相比直接引用原始推理軌跡，該機制實現了更高的上下文利用效率，在相同上下文窗口內能更充分地融合歷史信息。在大致相同的 token 消耗下，該方法持續優于標準的并行采樣與聚合方法：GPQA (90.3 → 92.8)、HLE (34.1 → 36.5)、LiveCodeBench v6 (88.0 → 91.4)、IMO-AnswerBench (89.5 → 91.5) 和 HLE (w/ tools) (55.8 → 58.3)。

這些技術改善了模型處理復雜任務時的自主規劃、推理鏈構建和決策能力。

千問 App PC 端和網頁端已經第一時間上新這一 Qwen 系列最強模型，現在即可免費體驗。API（qwen3-max-2026-01-23）也已開放。

體驗地址：https://chat.qwen.ai/?spm=a2ty_o06.30285417.0.0.1ef4c921OJuiXU

2 網友：中國大模型不負期待！

在模型發布消息傳出后，社交平臺上也迅速出現了大量討論。一部分網友的關注點集中在模型能力本身，語氣中帶著明顯的驚訝與認可。

有海外開發者在 X 上表示，自己已經習慣看到 Qwen 在多個榜單上“反超”其他模型。

“Qwen 總是能跑贏其他模型，”一位用戶調侃道，同時也提出了更偏產品層面的期待，希望 Qwen 能在 Android 端做出“更簡潔、更有辨識度的應用設計”，認為模型能力已經走在前面，產品體驗還有進一步打磨空間。

也有不少聲音將 Qwen 的發布節奏與國際頭部廠商作對比。一位網友直言，通義千問團隊在模型更新和能力披露上的頻率，甚至“已經超過了 OpenAI”。在他看來，這種持續、高密度的迭代和公開溝通，本身就是一種對開發者更友好的信號，至少讓外界清楚知道模型在什么階段、解決了哪些問題。

還有用戶的反饋則更為直接。一位名為 Harriett Solid 的網友在評論中寫道：“這正是我一直在等的 Qwen 發布版本。”這類評價并未展開具體技術細節，但從情緒上看，顯然將 Qwen3-Max-Thinking 視為一次“到位”的升級，而不是過渡性產品。

整體來看，網友評論呈現出兩個明顯特點：一方面，對 Qwen 在推理能力和更新速度上的認可度較高；另一方面，討論已經開始從“模型是否強”延伸到“產品體驗、生態建設是否匹配當前能力”。

這也從側面反映出，隨著模型能力逼近甚至進入全球第一梯隊，外界對通義千問的期待，正在從單點技術突破，轉向更完整的產品與平臺層面。

https://chat.qwen.ai/

https://qwen.ai/blog?id=qwen3-max-thinking

會議推薦

InfoQ 2026 全年會議規劃已上線！從 AI Infra 到 Agentic AI，從 AI 工程化到產業落地，從技術前沿到行業應用，全面覆蓋 AI 與軟件開發核心賽道！集結全球技術先鋒，拆解真實生產案例、深挖技術與產業落地痛點，探索前沿領域、聚焦產業賦能，獲取實戰落地方案與前瞻產業洞察，高效實現技術價值轉化。把握行業變革關鍵節點，搶占 2026 智能升級發展先機！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.